视觉语言模型中的可靠性所在：注意力、隐藏状态和因果回路的机制研究

arXiv:2605.08200v1 公告类型：新摘要：普遍的直觉认为，当视觉语言模型 (VLM) 的注意力图看起来清晰时，它们是最值得信赖的：将注意力集中在查询区域应该意味着自信、经过校准的答案。我们直接测试这个注意力-置信度假设。我们使用统一的机制管道（VLM 可靠性探针（VRP））对三个开放权重 VLM 系列（LLaVA-1.5、PaliGemma、Qwen2-VL；3-7B 参数）进行检测，该管道将注意力结构、生成动态和隐藏状态几何与单个正确性标签进行比较。出现了三个结果。 (i) 注意力结构是正确性的近零预测因子（R_pb(C_k,y)=0.001, 95% CI [-0.034,0.036]；R_pb(H_s,y)=-0.012，[-0.047,0.024]，池化 n=3,090 分割），尽管注意力对于特征提取仍然是因果必要的（前 30% 的补丁掩蔽使准确度降低了 8.2-11.3 pp，p<0.001）。 (ii) 可靠性在稍后的计算中变得清晰：对于三个家庭中的两个，单个隐藏状态线性探针在 POPE 上达到 AUROC>0.95，并且 K=10 时的自一致性是我们在 10 倍推理成本 (R_pb=0.43) 下测量的最强行为预测因子。 (iii) 因果神经元级消融暴露出尖锐的架构分裂，具有直接的监测设计影响：后期融合 LLaVA 将可靠性集中在脆弱的后期瓶颈中（前 5 个探针神经元消融后的-8.3 pp 对象识别精度），而早期融合 PaliGemma 和 Qwen2-VL 则将其广泛分布并吸收约 50% 的峰值层隐藏维度的破坏，且降级 <=1 pp。结论虽然狭窄，但却很重要：在 3-7B VLM 中，通过隐藏状态几何、逐层边缘形成和稀疏的后层电路来读取可靠性，比通过注意力图清晰度来读取可靠性更可靠。