减轻流形偏离：用于可信 MLLM 解码的不确定性感知子空间校正

摘要

09859v1 Announce Type: new Abstract: MLLMs frequently hallucinate objects inconsistent with visual inputs。

the language priors decoding MGAP

2026-06-10 1 阅读约1分钟阅读 Yingxuan Zhuang, Jingxiao Yang, Miao Pan, Cheng Tan, Yuxiang Cai, Siwei Tan, Chen Zhi, Xuhong Zhang, Jianwei Yin, Jintao Chen

arXiv:2606.09859v1 公告类型：新摘要：MLLM 经常产生与视觉输入不一致的幻觉对象。这个问题通常归因于过度依赖语言先验，这可能会覆盖视觉上下文。最近的免训练解码策略通过惩罚语言先验来解决这个问题。然而，这些方法忽视了语言先验的双重性质，它们可能是有益的，也可能是有害的，具体取决于与视觉证据的一致性。特别是，盲目抑制语言先验通常会破坏模型的语义流形，导致性能下降，我们将这种现象称为流形偏离。为了解决这个问题，我们提出了流形引导自适应投影（MGAP），这是一种几何感知、免训练的解码方法，可以在保留表示结构的同时减轻幻觉。 MGAP 首先通过 SVD 从盲隐藏状态构造语言先验子空间。在解码过程中，MGAP 将每个多模态隐藏状态投影到该子空间上，并应用一致性感知门来自适应地仅衰减投影的先验分量，从而产生在很大程度上保留正交语义分量的子空间选择性更新。 POPE 和 CHAIR 上的大量实验表明，MGAP 的性能优于先前的解码基线，在不牺牲一致性的情况下实现了更强的幻觉抑制。

订阅66必读