视觉语言模型是否像人类一样进行搜索？将推理标记作为经典视觉搜索范例中的反应时间模拟

arXiv:2606.25066v1 公告类型：新摘要：视觉搜索一直是视觉注意力研究中最富有成效的范式之一：反应时间随项目数量变化的方式将并行、“弹出”搜索与串行、需要注意的搜索区分开来。我问视觉语言模型 (VLM) 是否表现出相同的行为特征。我采用了四种经典范式：特征与合取搜索、空间配置（T-vs-L）搜索、枚举和倾斜/垂直搜索不对称性；并将它们呈现给当前的前沿和中端车型。因为单个模型调用没有反应时间，所以我使用模型每次试验花费的推理（“思考”）标记数量作为搜索工作的模型内模拟，并与大型公共人类基准进行比较（Wolfe 等人，2010）。这些模型再现了几个人类特征：特征搜索花费的努力是固定的，而联合努力则随着设定的大小而攀升；前沿模型保持准确性，而中层模型则偶然崩溃；分辨率控制显示连接成本是真正的搜索，而不是解决小形状的困难。它们在信息方面也与人类不同。存在目标的努力斜率超过了不存在目标的斜率，颠倒了人类的排序；在人类无法计数的情况下，计数仍然准确； and a reasoning model with adaptive deliberation declines to deliberate on detection tasks altogether, so that a single search expresses itself as an effort gradient in one model and as an accuracy cliff in another.我认为，应用于行为的心理物理学范式是对机器视觉认知的尖锐且廉价的探索，并且分歧点与一致点一样提供信息。