内化未来：世界模型规划的统一代理训练范式

2026-06-29 1 阅读 Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi

arXiv:2606.27483v1 公告类型：新摘要：大型语言模型（LLM）代理在顺序决策方面表现出了强大的能力，但它们在长期任务中仍然具有基本的反应性。与在承诺之前使用“假设”推理来评估潜在计划的人类不同，标准代理缺乏内部世界模型来模拟未来的结果。因此，我们建议通过训练单个自回归模型来内部化未来感知规划，以表达预期状态的推出和计划条件的成功估计（Q 值的文本模拟）。至关重要的是，我们发现了格式能力差距：在训练后简单地对前瞻轨迹进行微调会导致对远见的肤浅模仿，而没有真正的预测基础。为了弥补这一差距，我们引入了一个三阶段训练范例：（i）世界模型代理中期训练（WM-AMT），将潜在的预测能力注入策略中； (ii) 格式导出 SFT (FE-SFT) 来构造这种注入的能力； (iii) 前瞻条件强化学习 (FC-RL)，用于改进生成的模拟的校准和实用性。 Evaluated on search and mathematical reasoning tasks, our approach consistently outperforms other training baselines.我们的结果表明，LLM 代理的有效内部世界建模需要能力优先的培训渠道，以实现扎根和校准的远见。