智能AI
morning
不要看数字:VLM 中的视觉锚定偏差和分层表示
2026-05-13
1 阅读
M. Shalankin
arXiv:2605.11218v1 公告类型:新摘要:图像上嵌入的数字锚点会系统地影响来自五个架构系列的六个 VLM 的视觉语言模型质量判断(ANOVA eta^2 = 0.18-0.77,所有 p < 0.001)。锚定效应比严重的图像质量下降大 2.5 倍,证实偏差不能简化为视觉变化。逐层探测揭示了一致的分离:锚分类饱和的层 (L12-L34) 对于质量预测而言不是最佳的,最佳层更深 (R^2 = 0.69-0.91)。融合分析确定了依赖于架构的集成——两个模型中 L1-L2 的即时融合与其他三个模型中的部分融合或无融合。这些结果建立了视觉锚定偏差的因果解释,将行为敏感性与表征动态联系起来。