智能AI
morning
心智理论的改进真的有利于人机交互吗?互动评估的实证结果
2026-05-18
1 阅读
Nanxu Gong, Zixin Chen, Haotian Li, Zishu Zhao, Jianxun Lian, Huamin Qu, Yanjie Fu, Xing Xie
arXiv:2605.15205v1 公告类型:新 摘要:提高大型语言模型 (LLM) 的心智理论 (ToM) 能力对于这些 AI 模型与人类之间的有效社交互动至关重要。然而,现有的基准通常通过第三人称视角的故事阅读、多项选择题来衡量 ToM 能力的提升,而忽略了人机交互的第一人称、动态和开放性。为了直接检查 ToM 改进技术如何有利于 HAI 交互,我们首先提出了具有视角和度量转换的交互式 ToM 评估的新范式。接下来,按照该范式,我们使用四个现实世界数据集和用户研究对四种代表性的 ToM 增强技术进行了系统研究,涵盖目标导向的任务(例如编码、数学)和经验导向的任务(例如咨询)。我们的研究结果表明,静态基准的改进并不总是能转化为动态 HAI 交互中更好的性能。本文提供了对 ToM 评估的重要见解,展示了基于交互的评估在开发下一代具有社会意识的 HAI 共生法学硕士方面的必要性。