智能AI morning

OLIVIA:通过推理时间动作适应进行在线学习,以在 LLM ReAct 代理中进行决策

2026-05-13 1 阅读 Sheldon Yu, Junda Wu, Xintong Li, Nikki Lijing Kuang, Sizhe Zhou, Tong Yu, Jiawei Han, Jingbo Shang, Julian McAuley
arXiv:2605.11169v1 公告类型:新 摘要:大型语言模型代理交织推理、动作选择和观察来解决顺序决策任务。在代理重复处理相关多步骤任务的部署环境中,小的操作选择错误可能会累积成浪费的工具调用、延迟和可靠性降低。尽管需要改进部署时间,但 LLM 代理的现有推理时间适应方法主要依赖于提示或检索,它们通过上下文操作间接影响行为。对于 ReAct 风格的智能体,此类方法不会暴露明确的决策层,该决策层可以对候选动作进行评分、表示不确定性或根据动作级反馈在线更新。因此,它们在部署过程中为可跟踪、细粒度和不确定性感知的适应提供了有限的支持。我们提出了 OLIVIA,一种针对 ReAct 风格代理的推理时间动作适应框架。 OLIVIA 将 LLM 的最终动作选择层建模为候选动作的上下文线性强盗,并以冻结的隐藏状态作为决策上下文。这种选择特别适合部署,因为它直接在操作选择界面调整行为,保留底层推理过程,并提供明确的不确定性估计和来自操作级反馈的轻量级在线更新。通过置信上限探索,OLIVIA 以最小的计算开销有效地改进了策略样本。我们在四个基准上实例化 OLIVIA,并表明它相对于静态 ReAct 和基于提示的推理时间基准持续提高了任务性能。我们的结果表明,显式在线决策层为部署期间 LLM 代理的纯粹基于提示或基于检索的适应提供了有效的替代方案。