OpenAI推理之父掀桌：AI真·满血的样子，你没钱见！

新智元报道【新智元导读】 OpenAI o1推理模型核心缔造者Noam Brown发长文炮轰整个行业：用单一跑分评价AI模型，从2024年就过时了。GPT-5.5看起来只比5.4强一点？控制推理预算后再看，那叫一个天壤之别。 OpenAI的Noam Brown，刚刚发了一篇长文，对着整个AI行业开了一炮。文章标题叫「大规模推理计算的启示」，核心论点只有一个，你现在看到的所有 AI 跑分排行榜，给你的信息基本上是错的。原因很简单。同一个模型，给它一块钱想事情和给它一万块钱想事情，跑出来的分数天差地别。但现在所有的排行榜，都不告诉你这个模型花了多少钱跑出来的成绩。 GPT-5.5的成绩单是「假的」？ 4月23日，GPT-5.5发布。 OpenAI甩出benchmark表格，社区照例逐行比对。结论是：还行，比5.4好一点，但也没好到哪去。然后几个小时过去了。波兰数学家Bartosz Naskręcki用一条prompt，让GPT-5.5在11分钟内搭出一个代数几何可视化应用。 Ruby on Rails之父DHH更是感慨，用完5.5再切回Opus 4.7，像倒退了一个时代。同一个模型。benchmark说「还行」，人说「炸裂」。为什么？原因很简单，5.5和5.4根本不是在同一个计算预算下被测试的。这就好比两个学生考同一张卷子，一个给了30分钟，一个给了3小时。你拿两份成绩来比，说「差距不大」，这不是比较，这是搞笑。 GPT-5.4 Pro的API定价是$30/$180（每百万token），GPT-5.5是$5/$30。价格差了6倍。但benchmark表格上，这两个模型被当成同一个量级来比较，完全忽略了推理预算的差异。一旦控制token预算，GPT-5.5在网络安全评估上大幅拉开GPT-5.4。 Brown在文中展示了两张图。左边是传统benchmark视角，5.5比5.4好一点。右边x轴换成token数量，5.5的曲线远远甩开5.4。同一场考试。换个维度看，结论完全不同。这不是个案。 MMLU这个曾经最主流的评测基准，前沿模型全部挤在88%以上，分数差异在统计上已经没有意义。你看到的不是「谁更聪明」，是噪声。 MRCR v2在100万token长度上的测试，GPT-5.4得36.6%，GPT-5.5得74.0%——翻了一倍。但这个维度在标准benchmark表格里根本不存在。 ARC-AGI上，OpenAI的o3跑出最高分，单道题推理成本$30,000。隔壁NVARC团队用40亿参数小模型拿了24%准确率，每道题$0.20。三万美元对两毛钱，同一场考试——「谁排名更高」这个问题本身就已经失效了。当模型的能力是推理计算量的函数时，一个没有x轴的benchmark分数，就是一个没有单位的物理量。它什么都没告诉你。在Brown看来，正确的做法是画一条曲线：性能 vs 推理计算量。 x轴可以是token数、美元或耗时，各有优劣。但可以肯定的是，任何一条曲线，都比一个标量数字强。或者，你也可以设一个明确的预算上限，告诉模型「你就这么多钱，给我答案」。这恰好是人类考试的逻辑，SAT给固定时间，国际数学奥赛也给固定时间。只有AI评测，在2026年了，还在假装「给多少钱想事情」这个变量不存在。被忽略的x轴为什么这个问题现在才爆发？因为两年前，推理时计算只是o1的专属概念。而o1的核心贡献者，正是Brown。此前，他在卡耐基梅隆做出Libratus和Pluribus（击败顶级扑克职业选手，后者登上Science封面），在Meta FAIR做出CICERO（第一个在策略游戏《外交》中达到人类水平的AI）。从不完美信息博弈到推理模型，他一直在同一条线上：让AI学会想更久、想更深。 2024年的o1让「推理时间换准确率」进入公众视野。到了2026年，推理时计算已经是所有前沿模型的标配。 GPT-5.5 Pro不是一个独立模型，它是GPT-5.5同一个底座加了并行推理时计算：遇到难题跑多条推理链，综合出结果。 Claude有extended thinking，Gemini有Deep Think，几乎每家前沿实验室都在往同一个方向跑。对此，学术界也给出了量化关系。覆盖率与采样次数呈对数线性关系。也就是，给AI双倍的「想事情时间」，它不会变聪明一倍，但确实会变聪明一点。收益是对数级递减的。但Brown引用了Karpathy和AI Safety Institute的一个关键发现—— 越强的模型，在更长时间跨度上的收益越大。性能的高原期被推远了，甚至可能消失。弱模型多想两分钟，可能已经到顶了。但强模型多想两个小时，曲线还在往上走。每一代模型发布时，如果你只在某个固定的推理预算下跑benchmark，你看到的就只是冰山一角。真正的能力上限，在你测不起的那片水域。用Brown的话说就是：「我们可能根本不知道现代LLM的能力天花板在哪里，因为测量成本太高了。」 Brown的三张药方针对这一问题，Brown给了三条建议。第一，实验室发布新模型时公布性能-推理计算量曲线，至少标明分数对应的推理预算。 GPT-5.5的82.7% Terminal-Bench 2.0，你不知道花了多少钱跑出来的。你拿它和另一个模型比，你也不知道对方花了多少钱。这就像两家公司比营收，一家报的是年收入，一家报的是季度收入，但都不标注时间跨度。第二，benchmark排行榜追踪推理用量，或设定明确预算上限。 ARC-AGI已经在这么做了，但不是行业标准。第三，安全准备框架和负责任扩展政策显式纳入推理计算量。安全评估不能只测「默认状态」——国家级攻击者完全可以在单个任务上砸1000万美元推理预算。以Gemini 3 Deep Think为例。 Deep Think本质上就是Gemini 3 Pro加了外部调用框架，任何人花同样推理费就能复现。真正该问的是，为什么所有模型卡都没把能力作为推理预算的函数来展示？ Brown理想中的安全评估应该是一张图。 x轴是推理预算（从$1到$10M），y轴是模型在特定危险能力上的表现。在低预算下测量，然后向高预算区域做预测。但他也承认一个棘手的问题，长期评估可能无法靠外推解决。要评估一个AI agent跑一年会不会出问题，可能真得让它跑一年。而AI实验室很快将面临荒诞局面——agent的运行周期超过了新模型的开发周期。你还没评估完上一代的长期行为，下一代就已经发布了。超级智能是道算术题所有前面的讨论都指向同一个问题。如果模型的能力是推理计算量的函数，而且越强的模型高原期越远，那「超级智能」到底是什么？传统理解里，ASI是一个质变的拐点：某天某个模型突然在所有认知任务上全面超越人类。顺着这个逻辑往下想——ASI可能不是一个时刻，而是一条曲线。前面的数字已经说得很清楚：同一类任务，两毛钱和三万美元的推理预算，买到的是完全不同的结果。但这些还只是已经测过的区间。给一个前沿模型$1,000,000的推理预算呢？$100,000,000呢？没人测过。Brown说了，测不起。但对数线性的scaling关系告诉你，曲线还没到顶。而且越强的

订阅66必读