CrowdMath：众包数学研究讨论的数据集

摘要

arXiv:2606.06526v1 Announce Type: new Abstract: Large language models have made substantial progress on mathematical reasoning, but existing benchmarks typically evaluate well-specified problems with

the progress mathematical and reasoning

2026-06-08 1 阅读约1分钟阅读 Sherin Muckatira, Jesse Geneson, Slava Gerovitch, Pavel Etingof, Mikhail Gronas, Anna Rumshisky

arXiv:2606.06526v1 公告类型：新摘要：大型语言模型在数学推理方面取得了实质性进展，但现有基准通常通过最终答案、逐步解决方案或完整证明来评估明确的问题。它们没有捕捉到协作式开放问题解决：参与者提出部分论点，识别先前步骤中的差距或错误，修复有缺陷的推理，并逐渐将增量贡献综合成证明的设置。我们介绍了 CrowdMath，这是来自麻省理工学院 PRIMES - 问题解决艺术 (AoPS) CrowdMath 计划（2016-2025）的 164 个专家注释的进度链的数据集，这是一项合作研究计划，其讨论已导致同行评审的出版物。每条链都追踪多方参与的论坛讨论，从开放性问题陈述到完整的证明。帖子按照其在不断发展的解决方案过程中的功能角色进行标记，包括部分进度、证明完成、错误推理和错误识别。我们定义评估任务并对六个前沿模型进行基准测试。模型的下一次预测准确率达到 83-88%，这表明它们可以遵循本地数学讨论流程。然而，他们很难确定个人贡献的功能意义，最佳模型在角色后分类上仅达到 0.42 宏观 F1。 CrowdMath 揭示了解决明确的数学问题和理解协作数学进展之间的差距。

订阅66必读