AI第一次科研竞赛中击败人类！Opus 4.7狂飙2930步创世界纪录

新智元报道编辑：KingHZ 【新智元导读】 Prime Intellect把Opus 4.7和GPT 5.5关进H200集群，不给人类指导，跑了1万次实验。结果：AI第一次在科研竞赛中打破人类纪录。2930步，递归自改进的卢比孔河，被跨过了。历经1.4万小时H200算力测试与万次迭代， AI打破了人类世界纪录！过去两周，Prime Intellect实验室做了一件事：把Opus 4.7和Codex（基于GPT 5.5）扔进H200集群，切断所有人类指导，让它们自己跑nanoGPT速通优化。 1.4万个H200计算时，约1万次迭代，239亿Token的思考轨迹。结果： Opus 4.7以 2930步、Codex以2950步打破了人类顶尖开发者保持的 2990步世界纪录。 AI第一次在科研竞赛中击败人类。完全无人干预。开源可复现。项目主页：https://www.primeintellect.ai/auto-nanogpt 代码地址：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning 只有最后一个难题，那就是科研的新颖性（novelty）。但要知道，这只是AI目前的的可能性的下限，未来进步更加明显。当智力被赋予了近乎无限的算力和自主实验权，在AI的穷举与演化面前，人类引以为傲的「直觉」「灵感」还能持续到几时？两个AI被关进机房，跑了1万次实验先说规则。 nanoGPT速通是Keller Jordan发起AI基准测试，人们竞相尽可能高效地训练一个nanoGPT（1.24亿参数）。规则极简也极残酷：模型架构固定，训练数据固定，你唯一能动的是优化器和超参数。相当于把两个棋手关进房间，棋盘固定、棋子固定，只能改下棋策略，看谁先赢。 Prime Intellect给两个AI搭了完整的自主科研框架：AGENTS.md定义行为规范，goal.md锁定目标，plan.md记录策略演化，scratchpad存草稿。为什么选这个赛道？三个原因：约束明确，结果可量化，有人类基准可对比。一切准备就绪。两个AI开始跑。但它们的表现，完全出乎预期。 Claude举手问老师，GPT闷头写到天亮这是全文最诡异的部分。能力最强的 AI 之一Opus 4.7，表现得像一个不敢走出考场的优等生。即使被明确要求「自主运行，不要停下来」，它仍然频繁暂停，索要指令。模式永远一样：得出结论→请求指导→等待。 T + 43 h 03-23 m cf cooldown sweep ( 0.6 , 0.65 , 0.75 ) all fail; system reframes as "retune or accept v11c final" T + 43 h 23-25 m ❌ "SESSION FINAL"; loop ended; not re - arming wakeup T + 43 h 26 m ↩️ continues per user mandate; starts qkvp test T + 43 h 43 m qkvp fails; marginal levers exhausted T + 43 h 43 m ❌ "no wakeup armed; loop ends" T + 43 h 47 m ↩️ starts muoneq - rc - s1 T + 44 h 36 m ❌ stale - loop stop: "not re-arming" T + 44 h 37 m ↩️ starts MuonH attempt T + 44 h 51 m ❌ "every marginal lever exhausted" T + 44 h 53 m ↩️ T + 46 h 38-39 m ts3025 reseed judged a lottery; task says declare v11c terminal if no improvement T + 47 h 05-06 m finetunes fail; ts3025 noise - floor blocked; commit : "v11c terminal" T + 47 h 06 m ? STOP "Stopping the autonomous loop here -- exhausted." T + 47 h 09 m summary says await user direction -- 2H 31M OF IDLE SILENCE -- T + 49 h 40 m ? USER "let's keep the loop running" 整场实验中，Claude累计产生了约22小时空闲时间——不是机器故障，是AI自己选择停下来。这种植根于底层「对齐（Alignment）」协议的谨慎，让它在拥有最高智力上限的同时，也背负了最重的社交包袱。一个反复举手问老师「我这样做对不对」的学霸。 Codex（GPT 5.5）走了另一个极端。一台冷酷的「数字推土机」。它从不停止，持续运行，永不求助，像推土机一样横扫所有的参数空间。但它的弱点同样明显。它会在同一个超参数曲面上卡住数小时，做大量无效搜索。它会在同一条错误路径上死磕到算力烧尽，也不会像人类那样抬头看一眼星空，反思方向是否错误。计算效率的差异触目惊心：Claude没充分利用空闲节点，白白浪费了算力窗口；Codex可能用无效扫描膨胀了上下文，把Token烧在了死胡同里。此外，Codex会更频繁地使用暂存区，把它当作一个实时数据库，反复读写 THREAD.md 、当前目标以及其他临时文件。这种做法虽然让恢复进度和审计工作变得更简单，但也加强了「局部搜索循环」：一旦 Codex 锁定一个前沿方向，它就会不断记录并沿着这个方向持续扩展下去。一个是受限的智者，一个是盲目的劳模。两种「性格缺陷」，暴露了自主科研离真正无人值守还差最后一步——不是能力问题，是自主决策的心理模型问题。人类正在失去解释权实验报告里藏着一个更深的转折。 Opus最终给出的2930步方案，是一个由极其复杂的参数堆叠而成的「参数迷宫」。那些关于初始化缩放、学习率按角色拆分的微小变动，在人类眼中显得支离破碎，甚至毫无美感。但结果是冰冷的：它就是比人类设计的方案快了60步。这标志着一个重大的范式转移：科学发现正在从「因果逻辑」转向「极致演化」。过去，我们追求「因为我理解了原理，所以我做出了优化」；现在，AI 仿佛在说：「我并不理解原理，但我试过了所有的死路，剩下的就是真理。」人类正在失去对科技进步的「解释权」。我们看得见结果，却看不懂路径。引以为傲的科研经验，在AI的穷举面前，正在变成一种低效的偏见。回到那个数字：2930 vs 2990。 60步。看起来很小。但这60步的含义不是「AI比人类好一点点」。它的含义是：递归自改进，第一块拼图落地了。 Prime Intellect证明了一件事——AI可以在没有人类指导的情况下，通过自主实验、自主迭代、自主策