智能AI morning

刚刚,Claude Mythos 5发布!5000万行代码1天搞定

2026-06-10 1 阅读 衡宇
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 刚刚,Claude Mythos 5发布!5000万行代码1天搞定 衡宇 2026-06-10 06:52:37 来源: 量子位 一个更强的模型上桌了 衡宇 Jay 发自 凹非寺 量子位 | 公众号 QbitAI Anthropic遮遮掩掩两个月的 “神话”Mythos ,终于降临了—— 自家有史以来最强悍的大模型旗舰,分两个版本端上桌: Claude Fable 5与 Claude Mythos 5。 Fable 5是加了防护网版本的Mythos**,面向所有用户开放。 一旦用户提问触发风险分类器(比如试图让它写恶意软件),系统就会自动降级调用上一代Claude Opus 4.8来回答。 Mythos 5是原汁原味的满血版“Mythos” ,但只给少数受信任用户使用。 它在网络安全等领域解除了安全限制,官网称其“拥有全球最顶尖的网安攻防与生物科研纯血能力”。 官方表示,Fable 5和Mythos 5的自主运行时间比以往任何Claude模型都长。 小小叹个气? 前沿AI,开始进入权限时代了。 而且就在Anthropic郑重其事地呼吁全部AI研究立刻停止后没两天…… 不懂Dario怎么也开始走上奥特曼每次为自家新模型、新产品提前营销造势的老路,还是阵仗极大的那种。 (我知道A社有自己的道理,但我还是报以一个微笑)。 不过还是有非技术层面让开发者比较欣慰的消息,这两款新旗舰的API定价直接把之前的预览版砍掉了一半以上: 每百万输入Token仅需10美元,每百万输出Token为50美元。 好了,咱们迅速进入技术相关环节,冲—— 双版本Mythos来了!官方给“Token效率”画了重点 先说个情况。 官方的发布日志和业内评测中没有像介绍Fable 5那样,为Mythos 5开列一长串标准的、公开的 Benchmark跑分榜单(比如 MMLU、GSM8K、SWE-bench 等)。 不过鉴于二者是同一底层模型,两者其实可以看成同一内核的“镜像分身”,基础技术指标完全一致。 所以我们只能先看看目前官方渠道主要公开的Fable 5的表现。 按照Anthropic自己的说法,Claude Fable 5是目前最强的公开Claude,也是Fable系列第一次进入Mythos级能力。 它的优势主要集中在几个方向:软件工程、复杂知识工作、视觉、长上下文、记忆能力,以及生命科学研究。 更关键的是,任务越长、越复杂,Fable5相比过去Claude的优势越明显——说明Fable5的重点不是单轮问答更漂亮,而是能接住长周期任务。 我们不妨用数据和硬核Demo,来拆解这代神话级模型的统治力: 软件工程:高难度基准打穿,从“修Bug”到“全自动大军” 在衡量模型解决真实世界、复杂软件工程问题能力的SWE-bench Pro评测中,Claude Fable 5飙出了80.3%的高分。 作为对比,竞争对手的顶级主力模型GPT-5.5的得分为58.6%。 在Cognition的Frontier Code评测——这个评测更看重模型能不能完成困难编程任务,同时满足高质量生产代码库的标准——中,Fable 5在中等推理强度下就拿到前沿模型最高分。 FrontierCode该基准极难饱和。 不过即便在“中等努力(Medium effort)”模式下,Fable 5得分也高居所有前沿模型之首。 官方给出的第一个典型案例来自Stripe。 在一个5000万行Ruby代码库中,Fable 5完成了一次全库迁移。这个工作如果让一个工程团队手动做,原本要两个多月。 Fable 5呢?仅仅用了一天。 此外,在端到端前端开发基准ViBench(Vibe-coding benchmark) 上,Fable 5几乎把基础开发用例直接打到饱和,实现了真正的“一枪流(One-shot)”生成应用。 原生视觉:不要脚手架,盲打通关《宝可梦》 知名科技媒体VentureBeat在《Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever》一文中透露,在专注于视觉文件推理的基准测试GDPpdf上,Fable 5和Mythos 5在不借助外部工具的条件下拿到了29.8%的成绩。 作为对比,Opus 4.8得分为22.5%,GPT-5.5得分为24.9%,Gemini 3.1 Pro得分为16.7%。 Anthropic官方也猜大家看一堆数据很枯燥,于是放出了Fable 5打游戏的Demo,更具直接视觉效果。 此前的Claude模型如果想玩RPG游戏《宝可梦·火红版》,必须在外部为其配置一套极其复杂的“脚手架”(包括地图导航援助、内存游戏状态读取等)。 现在,Fable 5实现了纯粹的“原生视觉盲打”。 仅凭一张张原始的游戏屏幕截图,在没有任何地图外挂的前提下,它完全自主推演、策略规划,硬生生打通关了整部游戏。 不仅如此,由于其超长序列的专注度,当给它配置了持久化的文件级内存后,它在游玩卡牌肉鸽游戏《杀戮尖塔》(Slay the Spire)时,表现直接飙升了3倍,到达最终星体的概率同样暴涨3倍。 长上下文和记忆能力重点升级,顺手强调了下“Token效率” 长上下文和记忆能力也是这次升级的重点。 Anthropic称,Fable 5能在百万级Token的长期任务里保持专注,还能利用自己的笔记改进输出。 官方拿SlaytheSpire做了测试,给模型接入持久化文件记忆后,Fable5的表现提升幅度是Opus4.8的三倍,到达最终章节的频率也提升了三倍。 这其实是Agent能力里非常底层的一环。 一个能长时间干活的AI,必须能够记得自己做过什么、错过什么、下一步为什么这么做。没有稳定记忆,自主任务就很容易变成一场大型失忆现场。 为此Anthropic还特别强调了Token效率(这也是这代模型的一个关键方向)。 越是能长时间自主工作的模型,越会消耗大量Token。 如果模型一边很强,一边很“费话”,成本很快会高到让企业肉疼。 Fable 5强调Token效率,本质上是在解决Agent化落地里的账本问题。 金融、法律与运营:首次突破 90% 大关的逻辑黑洞 在考察高级分析推理能力的Hebbia金融基准测试(Finance Benchmark for senior-level reasoning) 中,Fable 5拿到了行业最高分。 在长篇文档推理、复杂的图表和表格解读、以及多步骤根因分析上,Fable 5实现了双位数的跨越式增长。 在量化交易大厂IMC和Optiver的实测中,Fable 5几乎拿满了其交易分析评估的全部权重(包括事实检索、概念推理和期望值计算),且展现出惊人的稳定性——在多次重复运行中,输出结果的分数完全一致。 数据分析平台 Hex给出的评价是这样的: Fable 5是