汽车
morning
GPT-5.6来了:旗舰版碾压GPT-5.5,价格却没涨
2026-06-27
1 阅读
字母AI
文 | 字母AI GPT-5.6来了,但……这是个什么型号? 这次OpenAI没有沿用过去大家熟悉的Pro、Mini、Instant这类命名,而是一次性端出了三个名字:GPT-5.6 Sol、GPT-5.6 Terra、GPT-5.6 Luna。 Sol是太阳,Terra是地球,Luna是月亮。 听起来很花哨,像一个新的模型宇宙。但它其实还是我们熟悉的那套产品分层:一个最强的旗舰模型,一个日常使用的均衡模型,一个便宜、快速、适合大规模调用的轻量模型。 OpenAI官方说法是:GPT-5.6系列会在未来几周全面开放,但目前先应美国政府要求,在Codex和API中向一小群“值得信赖的合作伙伴”进行有限预览。 让我们先来了解一下已公开的情报。 最高档和GPT 5.5同价 OpenAI这次给GPT-5.6分了三档:Sol、Terra、Luna。 按照官方说法,Sol是旗舰模型,Terra是面向日常工作的均衡模型,Luna则是快速、便宜的轻量模型。 三档模型一口气全放了出来,基本对应大模型产品里最常见的三层结构:最强模型负责能力上限,中间模型负责大多数日常任务,轻量模型负责速度、成本和高并发调用。 从价格就能看出三者的层级。 按照OpenAI公布的API价格,GPT-5.6按每100万token计费:Sol是输入5美元、输出30美元;Terra是输入2.5美元、输出15美元;Luna是输入1美元、输出6美元。 相信大家可能注意到了:GPT-5.6 Sol虽然是新一代旗舰模型,但价格对齐的是GPT-5.5标准版,而不是GPT-5.5 Pro。 Terra则直接降到GPT-5.5的一半,Luna只有GPT-5.5的五分之一。 GPT-5.5 Pro依然是当前OpenAI最贵的模型,价格是输入30美元/百万token,输出180美元/百万token,价格是GPT-5.5标准版和GPT-5.6 Sol的6倍。也不知道之后会不会再出一个“更适合专业任务”的GPT-5.6 Universe(只是开玩笑)。 Sol是这次GPT-5.6系列里的最高档,也是官方公告里花最多篇幅介绍的模型。 OpenAI把GPT-5.6 Sol称为目前最强模型,重点展示了它在写代码、生物研究和网络安全上的能力。 简单说,Sol的定位是“最会干活的模型”,它对应的不是普通聊天场景,是更复杂、更接近真实工作的任务。 比如在代码场景里,它可以围绕一个目标持续推进:先理解问题,再拆步骤,然后调用工具、运行命令、检查结果,出错了再改,直到任务完成。 为了支撑Sol处理更难的任务,OpenAI给GPT-5.6引入了两个新机制。 第一个叫max reasoning effort,可以翻译成“最大推理强度”。 通俗理解,就是让Sol有更多时间想清楚问题、花更长时间进行深度推理,适合那些不能靠第一反应解决的复杂任务。 第二个叫ultra mode,可以理解为“超强模式”。 这个模式的重点是让多个子智能体一起参与复杂任务,可以理解为:过去是一个AI助手自己干活,现在是一个“AI经理”带着几个小助手分头处理问题,从而加快复杂工作的推进。 Terminal-Bench 2.1就是一个更接近真实开发流程的测试,考的是模型能不能在命令行环境里一步步解决问题。GPT-5.6 Sol在该测试中拿到了88.8%的高分,Ultra模式下得分更高。 OpenAI特别提到,等模型更广泛开放时,还会公布一套更完整的评测结果。 Terra是中间档。 OpenAI对Terra的介绍没有那么长,但定位很清楚:它是面向日常工作的均衡模型。 也就是说,它不一定追求最强,但要在效果、速度和成本之间取得平衡。官方强调,Terra的能力接近GPT-5.5,但价格便宜一半。 在OpenAI的设想中,Terra很可能才是GPT-5.6系列里最常用的那一档。普通办公任务很多时候不需要Sol那样的最高能力,但需要稳定、便宜、好用。 在Terminal-Bench 2.1测试中,GPT-5.6 Terra拿到了84.3%,和Claude Fable 5持平。 Luna则是最低成本档。 OpenAI对Luna的定位也很简单:快,便宜,它适合大量、高频、对成本敏感的任务。 比如批量摘要、文本分类、信息抽取、简单问答等等,这些任务本身不一定复杂,但调用量可能非常大。Luna的作用,就是把这些轻量任务用更低成本跑起来。 这三档模型,Sol负责最高能力,Terra负责日常工作,Luna负责速度和成本,听起来花哨,但OpenAI只是把大模型行业已经很成熟的分层重新包装了一遍。 不过我觉得名字什么的并不重要,便宜好用就行。 性价比这一块儿 只看官方公告,GPT-5.6 Sol这次放出的benchmark并不算多。OpenAI自己也说,现在只是为了让外界提前了解模型性能,所以先分享一组评估结果。 但放出来的这组benchmark方向很明确,集中展示了三个领域:代码、生物学和网络安全。 前面提到的Terminal-Bench 2.1就属于代码方向,它考的是模型能不能在命令行环境里完成真实开发流程,包括规划、反复修改、调用工具和验证结果。 除了代码,OpenAI还重点提到了一个生物学benchmark:GeneBench v1。 GeneBench v1评估的是长周期的基因组学和定量生物学分析任务,重点看模型能不能处理更接近真实科研流程的分析问题。 按照OpenAI的说法,GPT-5.6 Sol在GeneBench v1上比GPT-5.5表现更强,而且使用的token更少。 第三个重点方向是网络安全。OpenAI称,GPT-5.6 Sol是它目前最强的网络安全模型,尤其是在长周期安全任务上(包括漏洞研究和漏洞利用相关任务)。 这里有一个benchmark叫 ExploitBench——它不是一般的安全问答,是更接近漏洞利用场景的评估。 OpenAI称,在ExploitBench上,GPT-5.6 Sol的表现可以和Mythos Preview媲美,但只用了大约三分之一的输出token。 虽然,官方给出的这张图上还有一定差距。 可以看出,OpenAI这次反复强调:他们在能力强的同时,效率也特高。 更少的输出token,意味着模型完成同类任务时可能更简洁、更少绕路,也可能意味着实际调用成本更可控。 OpenAI还提到了另一个网络安全benchmark:ExploitGym。 这个benchmark是UC Berkeley研究人员与OpenAI以及其他前沿实验室合作创建的。OpenAI说,在ExploitGym上,GPT-5.6 Sol、Terra、Luna三档模型都显示出明显的网络安全能力提升,而且随着推理强度提高,表现也会变强。 意思是,GPT-5.6的提升不只是模型本体变强,也和推理方式有关。给模型更多时间思考、让它做更长链条的推理,结果就会更好。 关于有限预览 如果说Sol、Terra、Luna是GPT-5.6表面上的变化,那么更值得关注的事情是,OpenAI这次没有直接全面开放。 按照官方公告,目前GPT-5.6只会先在Codex和API中,向一小群“值得信赖的合作伙伴”进行有限预览。 并且,这次有限预览是“应美国