心智理论的改进真的有利于人机交互吗？互动评估的实证结果

2026-05-18 1 阅读 Nanxu Gong, Zixin Chen, Haotian Li, Zishu Zhao, Jianxun Lian, Huamin Qu, Yanjie Fu, Xing Xie

arXiv:2605.15205v1 公告类型：新摘要：提高大型语言模型 (LLM) 的心智理论 (ToM) 能力对于这些 AI 模型与人类之间的有效社交互动至关重要。然而，现有的基准通常通过第三人称视角的故事阅读、多项选择题来衡量 ToM 能力的提升，而忽略了人机交互的第一人称、动态和开放性。为了直接检查 ToM 改进技术如何有利于 HAI 交互，我们首先提出了具有视角和度量转换的交互式 ToM 评估的新范式。接下来，按照该范式，我们使用四个现实世界数据集和用户研究对四种代表性的 ToM 增强技术进行了系统研究，涵盖目标导向的任务（例如编码、数学）和经验导向的任务（例如咨询）。我们的研究结果表明，静态基准的改进并不总是能转化为动态 HAI 交互中更好的性能。本文提供了对 ToM 评估的重要见解，展示了基于交互的评估在开发下一代具有社会意识的 HAI 共生法学硕士方面的必要性。