智能AI
morning
内化未来:世界模型规划的统一代理训练范式
2026-06-29
1 阅读
Xuan Zhang, Zhijian Zhou, Lingfeng Qiao, Yulei Qin, Ke Li, Xing Sun, Xiaoyu Tan, Chao Qu, Yuan Qi
arXiv:2606.27483v1 公告类型:新 摘要:大型语言模型(LLM)代理在顺序决策方面表现出了强大的能力,但它们在长期任务中仍然具有基本的反应性。与在承诺之前使用“假设”推理来评估潜在计划的人类不同,标准代理缺乏内部世界模型来模拟未来的结果。因此,我们建议通过训练单个自回归模型来内部化未来感知规划,以表达预期状态的推出和计划条件的成功估计(Q 值的文本模拟)。至关重要的是,我们发现了格式能力差距:在训练后简单地对前瞻轨迹进行微调会导致对远见的肤浅模仿,而没有真正的预测基础。为了弥补这一差距,我们引入了一个三阶段训练范例:(i)世界模型代理中期训练(WM-AMT),将潜在的预测能力注入策略中; (ii) 格式导出 SFT (FE-SFT) 来构造这种注入的能力; (iii) 前瞻条件强化学习 (FC-RL),用于改进生成的模拟的校准和实用性。 Evaluated on search and mathematical reasoning tasks, our approach consistently outperforms other training baselines.我们的结果表明,LLM 代理的有效内部世界建模需要能力优先的培训渠道,以实现扎根和校准的远见。