不要看数字：VLM 中的视觉锚定偏差和分层表示

2026-05-13 1 阅读 M. Shalankin

arXiv:2605.11218v1 公告类型：新摘要：图像上嵌入的数字锚点会系统地影响来自五个架构系列的六个 VLM 的视觉语言模型质量判断（ANOVA eta^2 = 0.18-0.77，所有 p < 0.001）。锚定效应比严重的图像质量下降大 2.5 倍，证实偏差不能简化为视觉变化。逐层探测揭示了一致的分离：锚分类饱和的层 (L12-L34) 对于质量预测而言不是最佳的，最佳层更深 (R^2 = 0.69-0.91)。融合分析确定了依赖于架构的集成——两个模型中 L1-L2 的即时融合与其他三个模型中的部分融合或无融合。这些结果建立了视觉锚定偏差的因果解释，将行为敏感性与表征动态联系起来。