PIVOT：通过轨迹细化在 LLM 代理中桥接规划和执行

2026-05-13 1 阅读 Tuo Zhang, Alin-Ionut Popa, Yan Xu, Rui Song, Dimitrios Dimitriadis

arXiv:2605.11225v1 公告类型：新摘要：基于大型语言模型 (LLM) 的代理经常生成看似连贯的计划，但由于不可行的操作、违反约束以及长期的复合错误，这些计划在执行时会失败。 PIVOT（计划-检查-演进轨迹）通过自我监督框架解决了这种计划执行不一致的问题，该框架将轨迹视为通过环境交互迭代细化的可优化对象。该框架包括四个阶段：PLAN 生成候选轨迹； INSPECT 执行它们并使用文本梯度编码计划执行差异来计算结构化损失； EVOLVE 应用这些信号来产生改进的轨迹； VERIFY 针对任务约束执行最终全局检查。单调的验收过程可确保解决方案质量不降低。对 DeepPlanning 和 GAIA 的实证评估展示了最先进的性能：通过人机交互 (HITL) 反馈，PIVOT 在约束满意度方面建立了高达 94% 的相对改进的强大上限，而其完全自主的变体保留了可观的收益，表明核心轨迹细化机制在没有外部监督的情况下仍然有效。与此同时，PIVOT 仍然保持计算效率，与竞争的细化方法相比，所需的令牌数量减少了 3 到 5 倍。这些发现表明，（自我或人类监督的）基于反馈的轨迹优化是缓解自主代理系统中计划执行差距的原则方法。