打破幻象：多模态解码中当正值遇上负值

2026-05-11 1 阅读 Yubo Jiang, Yitong An, Xin Yang, Abudukelimu Wuerkaixi, Xuxin Cheng, Fengying Xie, Zhiguo Jiang, Cao Liu, Ke Zeng, Haopeng Zhang

arXiv:2605.06679v1 公告类型：新摘要：由于过度依赖语言先验，视觉语言模型 (VLM) 经常受到物体幻觉的破坏，生成与视觉现实相矛盾的内容。我们引入了正负解码（PND），这是一种无需训练的推理框架，可以直接干预解码过程以增强视觉保真度。 PND 的动机是我们发现 VLM 中的注意力不平衡，即视觉特征权重不足。我们的框架引入了双路径对比：一条放大视觉证据的积极路径和一条构建反事实来惩罚先前主导一代的消极路径。通过在解码过程中对比两条路径的输出，PND 引导生成结果以视觉为基础。 POPE、MME 和 CHAIR 上的实验证明了无需重新训练即可达到最先进的性能。