三思而后行：验证者引导的具体代理的行动选择

2026-05-14 1 阅读 Nishad Singhi, Christian Bialas, Snehal Jauhri, Vignesh Prasad, Georgia Chalvatzaki, Marcus Rohrbach, Anna Rohrbach

arXiv:2605.12620v1 公告类型：新摘要：构建能够解决复杂现实世界任务的通用实体代理仍然是人工智能领域的一项基本挑战。多模态大型语言模型（MLLM）通过强大的视觉语言知识和思想链（CoT）推理显着提高了此类代理的推理能力，但在面对具有挑战性的分布外场景时仍然很脆弱。为了解决这个问题，我们提出了验证者引导操作选择（VegAS），这是一个测试时框架，旨在通过显式验证步骤提高基于 MLLM 的实体代理的稳健性。在推理时，VeGAS 不是致力于单个解码的操作，而是对候选操作的集合进行采样，并使用生成验证器来识别最可靠的选择，而无需修改底层策略。至关重要的是，我们发现使用现成的 MLLM 作为验证器不会产生任何改进，从而激发了我们的 LLM 驱动的数据合成策略，该策略自动构建多样化的失败案例课程，使验证器在训练时暴露于丰富的潜在错误分布中。在涵盖 Habitat 和 ALFRED 环境的具体推理基准测试中，VeGAS 持续改进泛化能力，在最具挑战性的多对象、长视野任务中，与强大的 CoT 基线相比，相对性能提升高达 36%。