智能AI
morning
谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案
2026-05-09
1 阅读
听雨
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 谷歌「AI联合数学家」来了!刷新最难数学AI基准SOTA,牛津教授用它解开群论悬案 听雨 2026-05-09 15:12:48 来源: 量子位 谷歌AI for Math迈出最新一步 听雨 发自 凹非寺 量子位 | 公众号 QbitAI 数学界「悬案簿」Kourovka Notebook,AI取得新突破。 群论领域几十年无解的 第21.10号 问题,被牛津数学家 Marc Lackenby 用谷歌一个新系统破解了。 过程也很有意思:AI第一次给出的证明是错的,被系统里的审查Agent揪出了漏洞。 Lackenby看到之后突然意识到:「等一下,我知道该如何填补这个漏洞」。 于是,通过和AI的反复配合,Lackenby最终成功解答出了这道数学难题。 这套人机协作的系统,就是 谷歌DeepMind 最新发布的 「AI Co-Mathematician」(AI联合数学家) 。 它在最难的数学AI基准 FrontierMath Tier 4 上拿了 48% ,刷新SOTA。 甚至超过了GPT-5.5 Pro (39.6%) 和GPT-5.4 Pro (37.5%) 。 最近几个月,不少数学难题,诸如接连几个Erdős问题都是用GPT解决的。 现在,谷歌也回归了。 「AI联合数学家」,是什么? 「AI联合数学家」是一个 异步、有状态的工作空间 ,而非一问一答的模型。 顶层有一个「项目协调者」Agent负责统筹,拆解任务,调度多条研究线并行推进。 数学家上传一篇论文、提出一个研究方向后,协调者不会立刻输出答案,而是先和用户对话,像真正的合作者一样帮对方精炼问题。 之后它将任务分发到多条并行工作流:一条做文献检索,一条搭计算框架,一条尝试证明策略。 每条工作流都有自己的协调Agent,异步运行,互不阻塞。用户随时能介入、引导、接管。 如果Agent卡住了,它也会主动在聊天窗口里求助,而不是沉默重启。 比较特别的一点在于: 它对失败的态度 。 系统会持久化追踪所有失败的假说,不会丢弃,而是当作第一等的研究产出保存下来。 论文中提到,在数学研究里, 知道什么行不通往往和知道什么行得通同等重要 。 「AI联合数学家」会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些「负空间」不会被丢弃,而是成为后续探索的上下文。 它的产出物也不是一段聊天记录或一篇未经验证的草稿,而是带margin注释和来源溯源的LaTeX文档——完全契合数学家社群的工作习惯。 「AI联合数学家」有什么意义?论文里有一段很精妙的比喻: 软件工程领域已经有了Claude Code、Cursor这类AI编码环境,它们提供了持续迭代、版本控制、测试验证的完整工作流。 但数学家此前一直缺少一个等价的编排层。 「AI联合数学家」就是试图填补这个空白。 它的定位,与DeepMind上一代系统 AlphaEvolve 完全不同。 AlphaEvolve更像一个自主搜索引擎:你把问题扔进去,它进化出一个更好的算法,人基本不在循环里。 而「AI联合数学家」要求数学家始终在回路中,系统在最适合的时机向人类提问,而不是替人类做完整件事。 刷新最难数学AI基准SOTA 在benchmark上,「AI联合数学家」也拿下了出彩的成绩: 刷新了最难的数学AI基准 FrontierMath Tier 4 的SOTA,拿了 48% 的准确率。 FrontierMath是 Epoch AI 开发的数学benchmark,包含350道原创高难度题,覆盖现代数学各大分支。 其中Tier 4仅50题,被Epoch AI描述为「其中一些问题可能数十年内AI都无法攻克」,人类专家解决一道通常需要数天。 「AI联合数学家」在48道非公开题中答对了23道, 准确率48% 。 GPT-5.5 Pro此前在Tier 4拿到39.6%,GPT-5.4 Pro是37.5%,Claude Opus 4.6/4.7则双双落在22.9%。 相比之下,「AI联合数学家」把最高分推了近10个百分点。 值得注意的是,它的底层基座模型Gemini 3.1 Pro,单独做这个测试只拿到了19%。 从19%到48% ,这29个百分点的跳跃 完全来自系统层面的编排 ——并行调查分支、强制审查循环、文献检索工具、持久化代码执行基础设施。 而且其中有3道题是此前所有系统都没答对过的新题。 △ 内部100题研究级数学基准测试中的准确率得分 基准之外,论文中还提到,有三位数学家已经用它来解决真实问题: 牛津大学数学家 Marc Lackenby 解决了Kourovka Notebook第21.10号问题(群论)。 审稿Agent先发现了AI初稿里的一个漏洞,Lackenby意识到自己知道怎么填补这个缺口,最后论文诞生。 数学家 Semon Rezchikov 在哈密顿系统中,向系统抛出一个技术性子问题,收到了一个关键引理。 他的评价是「其他AI系统在同一个prompt上全部失败」,且从美学上看这是他用过所有模型里证明风格最好的。 还有 Gergely Bérczi ,获得了关于Stirling系数对称幂表示的猜想证明。 此外,论文也坦承了两个失败模式。 第一种叫「讨好审稿人偏差」:Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实还在。 第二种是「死亡螺旋」:当迭代评审过程未能达成共识时,Agent们会陷入无限审稿循环,推理逐渐退化为幻觉。 另外还有一个结构性问题:当AI能在几分钟内生成一篇20页的证明草稿,人类同行评审仍需要数天,这对于依赖志愿者的学术评审体系会形成系统性压力。 而且AI虽然很擅长进行逻辑核验,发现代数错误或找出缺失的引用文献,但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。 如果过度依赖AI评审,可能会让人类定性判断被边缘化。 当然,在48%这个成绩上,论文中也坦诚披露了评估差异。 48%的得分是在特殊条件下取得的——每题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI标准评估框架不完全可比。 团队背景 「AI联合数学家」背后共有18位作者,有几个名字值得单独说说。 第一作者兼通讯作者 Daniel Zheng ,Google DeepMind研究工程师,研究方向是编程语言与机器学习的交叉。 2024年AlphaProof拿到IMO银牌那个项目里,他和Alex Davies共同主导了非正式系统 (包括最终答案判定模块) 的开发。 Alex Davies ,同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者,是这条技术路线最重要的连接者之一。 通讯作者 Pushmeet Kohli ,Google DeepMind科学副总裁兼Google Cloud首席科学家,主导了AlphaFold(诺奖级成果)、AlphaProof、AlphaEvolv