智能AI
morning
减轻流形偏离:用于可信 MLLM 解码的不确定性感知子空间校正
2026-06-10
1 阅读
Yingxuan Zhuang, Jingxiao Yang, Miao Pan, Cheng Tan, Yuxiang Cai, Siwei Tan, Chen Zhi, Xuhong Zhang, Jianwei Yin, Jintao Chen
arXiv:2606.09859v1 公告类型:新 摘要:MLLM 经常产生与视觉输入不一致的幻觉对象。这个问题通常归因于过度依赖语言先验,这可能会覆盖视觉上下文。最近的免训练解码策略通过惩罚语言先验来解决这个问题。然而,这些方法忽视了语言先验的双重性质,它们可能是有益的,也可能是有害的,具体取决于与视觉证据的一致性。特别是,盲目抑制语言先验通常会破坏模型的语义流形,导致性能下降,我们将这种现象称为流形偏离。为了解决这个问题,我们提出了流形引导自适应投影(MGAP),这是一种几何感知、免训练的解码方法,可以在保留表示结构的同时减轻幻觉。 MGAP 首先通过 SVD 从盲隐藏状态构造语言先验子空间。在解码过程中,MGAP 将每个多模态隐藏状态投影到该子空间上,并应用一致性感知门来自适应地仅衰减投影的先验分量,从而产生在很大程度上保留正交语义分量的子空间选择性更新。 POPE 和 CHAIR 上的大量实验表明,MGAP 的性能优于先前的解码基线,在不牺牲一致性的情况下实现了更强的幻觉抑制。