智能AI morning

CrowdMath:众包数学研究讨论的数据集

2026-06-08 1 阅读 Sherin Muckatira, Jesse Geneson, Slava Gerovitch, Pavel Etingof, Mikhail Gronas, Anna Rumshisky
arXiv:2606.06526v1 公告类型:新 摘要:大型语言模型在数学推理方面取得了实质性进展,但现有基准通常通过最终答案、逐步解决方案或完整证明来评估明确的问题。它们没有捕捉到协作式开放问题解决:参与者提出部分论点,识别先前步骤中的差距或错误,修复有缺陷的推理,并逐渐将增量贡献综合成证明的设置。我们介绍了 CrowdMath,这是来自麻省理工学院 PRIMES - 问题解决艺术 (AoPS) CrowdMath 计划(2016-2025)的 164 个专家注释的进度链的数据集,这是一项合作研究计划,其讨论已导致同行评审的出版物。每条链都追踪多方参与的论坛讨论,从开放性问题陈述到完整的证明。帖子按照其在不断发展的解决方案过程中的功能角色进行标记,包括部分进度、证明完成、错误推理和错误识别。我们定义评估任务并对六个前沿模型进行基准测试。模型的下一次预测准确率达到 83-88%,这表明它们可以遵循本地数学讨论流程。然而,他们很难确定个人贡献的功能意义,最佳模型在角色后分类上仅达到 0.42 宏观 F1。 CrowdMath 揭示了解决明确的数学问题和理解协作数学进展之间的差距。