PRISM：感知推理交错进行顺序决策

2026-05-09 1 阅读 Mohamed Salim Aissi, Clemence Grislain, Clement Romac, Laure Soulier, Mohamed Chetouani, Olivier Sigaud, Nicolas Thome

arXiv:2605.05407v1 公告类型：新摘要：将基于 LLM 的实体代理从纯文本环境扩展到复杂的多模式设置仍然是一个重大挑战。最近的工作发现了独立视觉语言模型（VLM）中的感知-推理-决策差距，该模型经常忽略任务关键信息。在本文中，我们介绍了 PRISM，这是一个通过动态问答 (DQA) 管道将感知 (VLM) 和决策 (LLM) 紧密耦合的框架。 LLM 不是被动地接受 VLM 的描述，而是对其进行批判，用目标导向的问题探究 VLM，并合成一个紧凑的图像描述。这种闭环交互可以产生对场景的敏锐的、任务驱动的理解。我们在 ALFWorld 和 Room-to-Room (R2R) 基准测试中评估 PRISM。我们表明：(1) PRISM 的性能显着优于最先进的基于图像的模型，(2) 我们的交互式目标导向感知管道产生了系统性和实质性的收益，(3) PRISM 是全自动的，无需手工制作问题或答案。