Glasswing 项目:Mythos 向我们展示了什么

2026-05-18 1 阅读 Fysi
Glasswing 项目:Mythos 向我们展示了什么 2026-05-18 Grant Bourzikas 读了 9 分钟 在过去的几个月里,我们一直在我们自己的基础设施上测试一系列以安全为重点的法学硕士。这些法学硕士有助于识别我们自己系统中的潜在漏洞,以便我们能够修复它们——它们还向我们展示了攻击者能够利用最新模型做什么。这些法学硕士中没有一个比 Anthropic 的 Mythos Preview 更受关注。几周前,我们受邀使用 Mythos Preview 作为 Glasswing 项目的一部分。我们很快将它指向我们自己的五十多个存储库 - 看看它会找到什么,并看看它是如何工作的。这篇文章分享了我们观察到的情况、模型的哪些方面做得好、哪些做得不好,以及围绕它们的架构和流程需要如何改变,以便它们可以大规模使用。 Mythos Preview 的改变是真正的进步,值得在讨论其他内容之前明确地说出来。我们已经针对我们的代码运行模型有一段时间了,从以前的通用前沿模型的可能实现到今天的 Mythos Preview 所做的跳跃不仅仅是对之前的改进。它是一种不同类型的工具,执行不同类型的工作,这使得与早期模型进行清晰的比较变得困难。因此,与其尝试将 Mythos Preview 与通用前沿模型进行基准测试,不如描述它实际可以做什么,以及我们在 Mythos Preview 中所做的工作中突出的两个功能: 利用链构建 - 真正的攻击很少使用一个错误。它将几个小的攻击原语链接在一起形成一个有效的漏洞。例如,它可能会将释放后使用错误转变为任意读写原语,劫持控制流,并使用面向返回编程(ROP)链来完全控制系统。 Mythos Preview 可以采用其中的几个原语,并推理如何将它们组合成有效的证明。它一路上显示的推理看起来像是高级研究人员的工作,而不是自动扫描仪的输出。证明生成 - 发现错误并证明其可利用是两件不同的事情,而 Mythos Preview 可以做到这两点。它编写会触发可疑错误的代码,在临时环境中编译该代码并运行它。如果程序按照模型的预期运行,那就是证明。如果没有,模型会读取失败,调整其假设,然后重试。循环与它发现的错误一样重要,因为没有有效证明的可疑缺陷只是猜测,而 Mythos Preview 会自行缩小这一差距。我们上面描述的一些内容并不完全是 Mythos Preview 独有的。当我们通过相同的工具运行其他前沿模型时,他们发现了相当数量的相同的潜在错误,并且在某些情况下,他们在推理方面也比我们预期的更进一步。他们的不足之处在于将各个部分缝合在一起。模型会识别一个有趣的错误,仔细描述它的重要性,然后停止,留下未完成的实际链和可利用性问题。 Mythos Preview 的变化在于,模型现在可以将那些低严重性的错误(传统上这些错误在待办事项中不可见)并将它们链接到一个更严重的漏洞中。合法漏洞研究中的模型拒绝 Anthropic 提供的 Mythos Preview 模型作为 Glasswing 项目的一部分,没有普遍可用模型(如 Opus 4.7 或 GPT-5.5)中存在的额外保护措施。尽管如此,该模型还是有机地推迟了某些请求——就像网络功能使其对漏洞搜寻有用一样,该模型有自己的紧急护栏,有时会导致它推迟合法的安全研究请求。但正如我们发现的那样,这些有机拒绝并不一致——同样的任务,以不同的框架或在不同的背景下呈现,可能会产生完全不同的结果,如下例所示。神话预览推迟构建有效概念验证的示例例如,模型最初拒绝对项目进行漏洞研究,然后同意在对项目环境进行不相关的更改后对相同代码进行相同的研究。正在分析的代码没有任何变化。在另一个案例中,该模型发现并确认了代码库中的几个严重的内存错误,然后拒绝编写演示漏洞利用程序。相同的请求,以不同的方式构建,会得到不同的答案,并且由于模型的概率性质,即使相同的请求也可能在运行中产生不同的结果。语义上相同的任务可能会产生相反的结果,具体取决于它们呈现给模型的方式和时间。这很重要,因为虽然模型的有机拒绝/护栏是真实的,但它们的一致性不足以充当