汽车 evening

GPT-5.6:最强的模型,最窄的门

2026-06-27 1 阅读 硅谷Tech news
最强的模型已经造出来了,但你可能暂时用不上。 北京时间6月27日凌晨(美东时间6月26日周五),OpenAI发布了GPT-5.6。按照以往几年的惯例,这应该是一个闪光灯亮起、Altman微笑宣布“现在所有人都可以使用”的时刻。但这次没有。没有ChatGPT直接上线,没有全球开发者API开放,甚至没有一场面向公众的发布会。 取而代之的是一封写好了地址的邀请函,收件人大约20个,且每一个都必须由美国政府点头同意。两周前,另一家头部AI公司Anthropic的最新模型Fable 5在发布仅3天后被美国商务部一纸信函全球关停。两个行业巨头,两条完全相反的应对路径,却撞上了同一堵墙。 GPT-5.6的故事,既是关于一个模型有多强的故事,也是关于一道门正在如何关上的故事。 屠榜者 GPT-5.6不是一个模型,是一个家族。OpenAI这次抛弃了Pro、Mini那套老命名,端出三个以天文学命名的型号:Sol(太阳)、Terra(大地)、Luna(月亮)。听起来像一个浪漫的产品宇宙,但它其实是行业里早已成熟的三层产品分层:旗舰负责能力上限,均衡款负责日常任务,轻量款负责速度和成本。 在Terminal-Bench 2.1这个目前最能衡量AI端到端编程能力的基准测试上,GPT-5.6 Sol在ultra模式下跑出了91.9%的得分,拿下所有已公开模型的最高分。这个测试考的不是写一段函数,而是让模型在命令行环境里理解问题、拆解步骤、调用工具、运行命令、检查结果、出错再改,直到任务完成,更接近真实开发流程而非考试答题。 作为参照,两周前Anthropic刚发布的Claude Mythos 5是88.0%,Fable 5是84.3%。也就是说,Mythos 5的榜首只坐了17天。即便Sol关掉ultra只用max模式,也有88.8%,单凭这个数字就已经超过了Anthropic两个最新旗舰的全部分数。 但真正让竞争对手紧张的,不是分数本身,而是效率。 在ExploitBench这个更接近真实漏洞利用场景的网络安全评估中,Sol的表现几乎打平了Anthropic此前“强到不敢公开发布”的Mythos Preview,但只消耗了约三分之一的输出token。更少的token意味着更简洁的推理路径、更少的试错绕路,也意味着实际调用成本更可控。在CTF夺旗赛中,Sol的命中率高达96.7%,几乎触顶。OpenAI反复向外界传递同一个信息:我们不仅跑得最快,而且跑得最省力。 这种效率优势背后是两项新机制。 第一个叫 max reasoning effort ,可以理解为“最大推理强度”:给Sol更多时间和更深长的推理链来处理那些不能靠第一反应解决的复杂任务。 第二个叫 ultra mode ,这是更有想象力的设计。Sol不再是一个模型独立思考,而是自动将复杂任务拆分、启动多个子智能体并行处理、再汇总结果。如果说max是“让一个人想更久”,ultra就是“让这个人召集一支团队分头干活”。关键区别在于,Anthropic的Agent Teams需要人来设计协作方式,而ultra是模型自己完成任务拆解和协调。Terminal-Bench的SOTA成绩正是ultra模式跑出来的。 三层定价同样值得细看。 Sol对齐上一代GPT-5.5标准版定价,输入5美元、输出30美元每百万token,能力却跃升了一个代际。Terra砍半到2.5美元和15美元,OpenAI直接把它定位为“GPT-5.5级别能力,一半价格”,在Terminal-Bench上拿到84.3%,与Claude Fable 5持平。Luna压到1美元和6美元,只有GPT-5.5价格的五分之一,专攻批量摘要、文本分类这些高并发低延迟的大规模部署场景。 过去几年OpenAI的策略可以总结为一句话:做一个最强的模型,让所有人用它。这次跟进Anthropic的Opus/Sonnet/Haiku三层架构,本质上是承认了同一个商业现实:不同客户需要不同的模型,一个旗舰无法同时覆盖追求极限性能的研究机构、精打细算的企业客户,以及只要够快够便宜的规模化应用。 考虑到OpenAI已秘密提交IPO申请、目标估值可能在1万亿美元上下,Sol/Terra/Luna的三层定价体系本质上也是一份写好了的ARR增长故事。CFO Sarah Friar的目标时间点是2027年,但一些顾问认为年内就可能冲刺。公司目前约9亿周活用户、月营收约20亿美元,在递交招股书之前必须向华尔街讲清楚两件事:一是不依赖单一爆款,有可持续的产品矩阵;二是有清晰的收入分层和增长逻辑。三层模型矩阵恰好同时回答了这两个问题。 7月起Sol还将通过Cerebras部署,生成速度最高可达750 token/s,比目前旗舰模型快了一个数量级。 但所有精心编排的技术叙事和商业叙事,都被“仅限20家审批企业”这条线架在了半空中。你可以在纸面上设计最美妙的产品分层和增长故事,但如果政府控制了分发渠道,定价权就不再只属于你。 审批表 GPT-5.6为什么不能直接上线?需要溯源至14天前Anthropic的遭遇。 美东时间6月9日(北京时间6月10日),Anthropic按计划发布了Fable 5和Mythos 5,这是其冲击IPO前证明技术领先性的两颗关键棋子。发布前的内部评估认为它们是“有防护栏的、安全的”。 美东时间6月11日,CEO Dario Amodei发表了一篇重磅政策文章,公开呼吁美国政府建立对前沿AI模型的法定审查和关停权力。两天后,政府用这个逻辑对Anthropic动手了:美东时间6月12日下午5时21分(北京时间6月13日凌晨),美国商务部长Howard Lutnick签发信函,援引出口管制法律中的“视同出口”条款,要求Anthropic立即停止向全球任何外国国民提供这两个模型的访问权限。 注意,“外国国民”不仅包括海外用户,还包括在美国境内工作的外籍员工。既然连自家员工都在管制范围内,任何选择性屏蔽方案在技术上和法律上都走不通。Anthropic的回应没有中间地带:全球下线。从信函发出到Fable 5消失,不到48小时。这是AI行业版的“求锤得锤”:你呼吁政府建立关停权力,政府就关停给你看。 理解这件事的钥匙是一个大多数科技从业者从未听过的法律概念:“视同出口”。 在美国出口管制法律体系中,这条规则规定:将受管制技术泄露给在美国境内的外国国民,本身就等同于向该外国国民的国籍国出口该项技术。 它原本的靶子是军工和半导体。一个中国籍工程师在 英特尔 美国实验室看到某款芯片的设计图,法律上等同于把这颗芯片出口到了中国。美国商务部工业安全局此次做出的跨越是:将“视同出口”规则首次应用到了已部署在云端的AI模型的访问控制上。它限制的不是GPU出口,不是芯片制造设备,不是训练数据跨境,而是谁能调用一个API、从哪个IP地址调用、用哪本护照调用。 法律分析平台Lawfare的评论一针见血:“出口管制当局原本为实体商品和一种更早期的技术形态而设计,现在被要求做一件真正全新的事情。”不需要国会通过新法律,不需要冗长的行政程序,一封商务部长的信函就够了。 然后看OpenAI。它选择了一条完全不同的路。 GPT-5.6发布前,Altman在6月初