克劳德寓言5

2026-06-09 1 阅读 Philpax
公告 Claude Fable 5 和 Claude Mythos 5 2026 年 6 月 9 日 今天,我们推出 Claude Fable 5:我们已将其安全用于一般用途的 Mythos 1 级模型。 《神鬼寓言 5》的功能超过了我们推出的任何型号。它在几乎所有经过测试的人工智能能力基准上都是最先进的,在软件工程、知识工作、视觉、科学研究和许多其他领域表现出卓越的性能。任务越长、越复杂,《神鬼寓言 5》相对于我们其他模型的领先优势就越大。发布具有这种功能的模型会带来风险。如果没有保障措施,《神鬼寓言 5》在网络安全等领域的功能可能会被滥用,造成严重损害。因此,我们推出了带有保障措施的模型,这意味着对某些主题的查询将收到来自我们功能第二强大的模型 Claude Opus 4.8 的响应。为了安全、快速地发布模型,我们保守地调整了这些保护措施——它们有时会捕获无害的请求,尽管它们平均在不到 5% 的会话中触发。随着未来几个月功能更强大的模型的到来,我们正在努力改进我们的保障措施并尽快减少误报。对于一小部分网络防御者和基础设施提供商,我们还推出了 Claude Mythos 5。它的底层模型与《神鬼寓言 5》相同,但在某些方面取消了保障措施。 2 Mythos 5 最初将与美国政府合作通过 Project Glasswing 进行部署,作为 Claude Mythos Preview 的升级。它拥有世界上所有型号中最强大的网络安全能力。很快,我们打算通过更广泛的可信访问计划来扩展对 Mythos 5 的访问。 《神鬼寓言 5》和《神话 5》等模型的功能有可能为世界带来深远的好处。我们在 Glasswing 项目中看到了这一点的开端,其中的模型帮助网络防御者保护至关重要的软件。我们还在生命科学研究中看到了这一点,模型提出了新的假设并加速了新疗法的开发。 《神鬼寓言 5》和《神话 5》的售价为每百万输入代币 10 美元,每百万输出代币 50 美元,不到 Claude Mythos Preview 价格的一半。今天的联合发布是我们朝着尽可能快速、安全地为尽可能多的用户提供先进人工智能功能的目标迈出的又一步。评估《Claude Fable 5》和《Claude Mythos 5》 下表将《Fable 5》和《Mythos 5》的功能与其他领先型号进行了比较。 《神鬼寓言 5》和《神话 5》的自主工作时间比之前任何 Claude 型号都要长。下面我们讨论这些技能如何应用于软件工程,并涵盖模型在知识工作、视觉、记忆和生命科学研究方面的改进能力。软件工程。在早期测试期间,Stripe 报告称《神鬼寓言 5》将几个月的工程时间压缩为几天。在 5000 万行 Ruby 代码库中,该模型在一天内完成了代码库范围内的迁移,否则整个团队需要花费两个多月的时间才能完成迁移。 Fable 5 也比过去的 Claude 模型更具代币效率:在 Cognition 的 FrontierCode 评估中,该评估测试模型是否能够通过困难的编码任务,同时满足高质量生产代码库的标准,Fable 5 在前沿模型中得分最高,即使是在中等努力的情况下。知识工作。 《神鬼寓言 5》在复杂的分析任务上表现出了强大的性能。在 Hebbia 的高级推理金融基准上,《神鬼寓言 5》在所有模型中得分最高,在基于文档的推理、图表和表格解释以及问题解决方面取得了显着的进步。 IMC 指出,《神鬼寓言 5》在交易分析评估方面几乎全面领先,包括事实查找、概念推理、根本原因分析和期望值分析。想象。 《神鬼寓言 5》是涉及视觉任务的最新最先进模型。它可以从详细的科学数据中提取精确的数字,并且可以执行复杂的基于视觉的任务,例如仅从屏幕截图重建网络应用程序的源代码。它还需要更少的脚手架:例如,之前的 Claude 模型在玩 Pokémon FireRed 时遇到了困难,即使使用了为他们提供额外有用工具的安全带,但《神鬼寓言 5》却用一个最小的、仅视觉的安全带击败了 FireRed。克劳德从头到尾玩神奇宝贝火红的延时摄影,仅使用原始游戏屏幕截图 - 没有地图、导航辅助工具或额外的游戏状态信息。早期的克劳德模型需要一个复杂的辅助安全带来玩神奇宝贝;克劳德寓言5仅靠视觉完成了游戏。记忆和长上下文。 《神鬼寓言 5》在长时间运行的任务中专注于数百万个令牌,并使用自己的注释改进其输出。当我们让模型玩牌组构建游戏 Slay the Spire 时,为其提供基于持久文件的内存的访问权限,其性能比 Opus 4.8 提高了三倍; 《神鬼寓言》进入游戏最后一幕的次数也是三倍多。索拉