智能AI
morning
视觉语言模型中的可靠性所在:注意力、隐藏状态和因果回路的机制研究
2026-05-12
1 阅读
Logan Mann, Ajit Saravanan, Ishan Dave, Shikhar Shiromani, Saadullah Ismail, Yi Xia, Emily Huang
arXiv:2605.08200v1 公告类型:新 摘要:普遍的直觉认为,当视觉语言模型 (VLM) 的注意力图看起来清晰时,它们是最值得信赖的:将注意力集中在查询区域应该意味着自信、经过校准的答案。我们直接测试这个注意力-置信度假设。我们使用统一的机制管道(VLM 可靠性探针(VRP))对三个开放权重 VLM 系列(LLaVA-1.5、PaliGemma、Qwen2-VL;3-7B 参数)进行检测,该管道将注意力结构、生成动态和隐藏状态几何与单个正确性标签进行比较。出现了三个结果。 (i) 注意力结构是正确性的近零预测因子(R_pb(C_k,y)=0.001, 95% CI [-0.034,0.036];R_pb(H_s,y)=-0.012,[-0.047,0.024],池化 n=3,090 分割),尽管注意力对于特征提取仍然是因果必要的(前 30% 的补丁掩蔽使准确度降低了 8.2-11.3 pp,p<0.001)。 (ii) 可靠性在稍后的计算中变得清晰:对于三个家庭中的两个,单个隐藏状态线性探针在 POPE 上达到 AUROC>0.95,并且 K=10 时的自一致性是我们在 10 倍推理成本 (R_pb=0.43) 下测量的最强行为预测因子。 (iii) 因果神经元级消融暴露出尖锐的架构分裂,具有直接的监测设计影响:后期融合 LLaVA 将可靠性集中在脆弱的后期瓶颈中(前 5 个探针神经元消融后的-8.3 pp 对象识别精度),而早期融合 PaliGemma 和 Qwen2-VL 则将其广泛分布并吸收约 50% 的峰值层隐藏维度的破坏,且降级 <=1 pp。结论虽然狭窄,但却很重要:在 3-7B VLM 中,通过隐藏状态几何、逐层边缘形成和稀疏的后层电路来读取可靠性,比通过注意力图清晰度来读取可靠性更可靠。