OLIVIA：通过推理时间动作适应进行在线学习，以在 LLM ReAct 代理中进行决策

arXiv:2605.11169v1 公告类型：新摘要：大型语言模型代理交织推理、动作选择和观察来解决顺序决策任务。在代理重复处理相关多步骤任务的部署环境中，小的操作选择错误可能会累积成浪费的工具调用、延迟和可靠性降低。尽管需要改进部署时间，但 LLM 代理的现有推理时间适应方法主要依赖于提示或检索，它们通过上下文操作间接影响行为。对于 ReAct 风格的智能体，此类方法不会暴露明确的决策层，该决策层可以对候选动作进行评分、表示不确定性或根据动作级反馈在线更新。因此，它们在部署过程中为可跟踪、细粒度和不确定性感知的适应提供了有限的支持。我们提出了 OLIVIA，一种针对 ReAct 风格代理的推理时间动作适应框架。 OLIVIA 将 LLM 的最终动作选择层建模为候选动作的上下文线性强盗，并以冻结的隐藏状态作为决策上下文。这种选择特别适合部署，因为它直接在操作选择界面调整行为，保留底层推理过程，并提供明确的不确定性估计和来自操作级反馈的轻量级在线更新。通过置信上限探索，OLIVIA 以最小的计算开销有效地改进了策略样本。我们在四个基准上实例化 OLIVIA，并表明它相对于静态 ReAct 和基于提示的推理时间基准持续提高了任务性能。我们的结果表明，显式在线决策层为部署期间 LLM 代理的纯粹基于提示或基于检索的适应提供了有效的替代方案。