视觉语言模型是否在点击益智游戏中表现出类似人类的逻辑问题解决能力？

2026-05-13 1 阅读 Dominik Helfenstein, Marco Menner, Maximilian Triebel

arXiv:2605.11223v1 公告类型：新摘要：视觉语言（-动作）模型 (VLM) 越来越多地应用于交互式环境，但现有基准常常忽视点击式益智游戏所需的复杂物理推理。本文介绍了 Vision-Language Against The Incredible Machine (VLATIM)，这是一个基准测试，旨在评估经典物理益智游戏 The Incredible Machine 2 (TIM) 中类人逻辑问题解决能力。与现有的基准测试不同，VLATIM 专门针对高级逻辑推理和需要精确鼠标交互的连续操作空间之间的关键差距。该基准测试分为五个渐进部分，评估从基本视觉基础和领域理解到多步骤操作和完整谜题解决的能力。我们的结果揭示了推理和执行之间的显着差异。虽然大型专有模型表现出卓越的规划能力，但它们在精确的视觉基础上遇到了困难。因此，它们尚未表现出类似人类的解决问题的能力。