智能AI morning

OSCToM:强化学习引导的高阶心理理论对抗生成

2026-05-22 1 阅读 Sharmin Sultana Srishty, Kazi Mahathir Rahman, Malaika Parizat Sakkhi, Samia Shahid Prianna, Shaikhul Islam Sinat
arXiv:2605.20423v1 发布类型:新 摘要:大型语言模型(LLM)在许多语言任务上表现良好,但它们的心智理论(ToM)推理在复杂的社会环境中仍然参差不齐。包括 ExploreToM 在内的现有基准测试并不总是测试使这些设置变得困难的递归信念和信息不对称。本文提出了 OSCToM(观察者-自我冲突心理理论),这是一种在基于 LLM 的 ToM 任务中对嵌套信念冲突进行建模的方法。关键情况是观察者对另一个主体的看法与观察者自己的信念状态相冲突。此类案例超出了简单的换位思考的范围,需要递归的、多层的推理。 OSCToM 结合了强化学习 (RL)、扩展的特定领域语言和组合代理模型来生成观察者与自我的冲突。在我们的实验中,OSCToM-8B 在测试的系统中给出了最佳的总体结果。它改进了 FANToM 上报告的 ExploreToM 结果,并在 Hi-ToM 和 BigToM 上保持竞争力。在信息不对称的 FANToM 基准上,OSCToM 的准确率达到 76%,而 ExploreToM 报告的准确率为 0.2%。数据合成过程的效率也提高了 6 倍,这表明有针对性的训练数据可以帮助较小的模型处理高级认知推理。项目代码可在 https://github.com/sharminsrishty/osct 获取。