刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

新智元报道编辑：Aeneas KingHZ 【新智元导读】就在刚刚，Claude Mythos把评测干「失效」了：METR第一次测不准，AI攻防拐点到了！AI 进化已成「外星文明」降临，超越指数增长，2027 AGI 奇点正加速撞向人类。刚刚，Claude Mythos干爆METR评测上限！超指数级进化已经逼近AGI奇点。就在今天，一张趋势图刷屏全网。国际最权威的AI评测机构METR惊恐地发现，他们的「温度计」要被Mythos撑爆了。 Claude Mythos Preview的能力，已经捅破了人类评测框架的天花板，进入了「失真区」！ OpenAI超级对齐团队前成员Leopold Aschenbrenner曾预测2027年是AGI的奇点，但现在的最新数据显示： Mythos的表现已经略高于2027情景的趋势线。「外星文明」，已经强行着陆，阴影已覆盖整片天空。评测界的大地震当「满分」不再有意义在METR最新的测试中，他们试图衡量AI完成长周期复杂任务的能力（Time Horizons）。 METR设置了一个名为「50%成功率时间线」的指标——即模型有50%的概率，成功独立完成一项人类需要耗费X小时才能完成的任务。此前，此前的模型，成绩是几十分钟或几个小时。但当Claude Mythos站上考场时，数据直接爆表了：它在人类需要16个小时才能完成的极其复杂的长线任务上，轻松达到了50%的成功率！你可能会问：那测试32小时、64小时的任务呢？ METR给出的答案让人惊恐：「我们测不了了。」在METR精心构建的228个魔鬼级测试任务中，只有区区5个任务是被归类为「16小时及以上」的。这意味着什么？这意味着人类现有的、引以为傲的难题库，已经被 AI 彻底掏空了。就像用刻度只有1米的卷尺去量一栋摩天大楼，除了知道它「爆表」了，我们对其真实的深度一无所知。「外星文明」已降临？在16小时以上的区间，METR根本没有足够的样本来对Mythos进行准确的定量比较。 METR坦言，在这个阈值之上，数据的测算变得「不稳定且失去意义」。这是人类历史上极为罕见的一幕：创造者失去了丈量被创造物能力的工具。当「考官」已经出不出题的时候，「考生」的真实实力到底有多恐怖？这不仅仅是一次常规的AI模型迭代，而是一次「超指数级」的物种变异。旧的法则正在崩塌， AI已成「外星文明」降临！ AI从业者、硅谷著名观察家Chase Brower直言，AI发展远超行业预期：根据SemiAnalysis的数据，AI行业的年化营收已经远超此前对2026年第二季度约260亿美元的预测。当前的AI技术已如「清晰可见的外星飞船」一样悬浮在人类文明的天空中。人类已经无法理解AI的超指数增长！这不再是实验室里的数据，标志着AGI的征兆已经完全显现！超指数，比指数增长还快把METR那张趋势图拉出来细看。纵轴是AI能自主完成的编码任务时长，从8秒到5年，对数刻度。横轴是模型发布时间，2021到2028。每一个点是一个模型版本。把点连起来，画出来的不是一条直线，不是一条指数曲线，而是一条比指数还陡的弧。 AI在超指数增长，AI增速本身在加速。 2021年，最好的模型能自主完成8秒级别的任务——写一行代码，修一个拼写错误。 2023年初，推到了1分钟量级——一个小函数、一段简单调试。 2024年中，冲到了大约1小时——一个完整feature的实现、一次多文件重构。 2025年4月，Mythos Preview落点： 16小时 ——一个完整的工程子项目，读代码、理解架构、制定方案、编写实现、调试测试，一气呵成，不需要人类盯着。每一代的跃升幅度都比上一代更大。间隔时间都比上一代更短。本图由AI生成人类的演化是为了让我们在草原上计算果实和猎物的距离，大脑天生是线性的。我们好不容易理解了「指数增长」，现在却被迫面对指数之上的指数。猿类的大脑面对超指数，直接集体宕机。本图由AI生成 METR在图上画了几条参考线。其中一条是「AI 2027情景」的中央轨迹——基于多家机构联合预测，假设AI能力按目前最主流的预期持续增长，大约在2027年前后触达通用人工智能门槛。 Mythos的数据点落在这条线的上方。不是偏了一点。是在时间轴还没走到2027的位置上，能力值已经超过了2027的预测值。 AI基础设施从业者Chase Brower看完METR报告后在推特上判断：那个预计在2026年初出现的"Agent-1"描述，其实有点低估了当前最好模型的能力。整个行业对AI发展速度的预估都偏保守了。这里有个细节容易被忽略。 METR的纵轴不是跑分，不是准确率，不是某个benchmark上的百分比。那条曲线目前没有任何减速的迹象。安全圈原子弹时刻从「助手」到「自主攻击者」如果说METR的烦恼还是学术性的，那么 Palo Alto Networks 的预警则是带血的实战报告。近期，Palo Alto获得了Mythos、GPT-5.5-Cyber等前沿模型的早期无限制访问权限。测试结论让所有防御者脊背发凉： AI 已经跨过了那道名为「自主」的门槛。当模型能自主工作16小时的时候，它在安全领域能干什么？时间坍缩：3周=1年 Palo Alto的报告中有一个令人震撼的数据：使用Mythos辅助进行漏洞分析，仅仅3周时间，其完成的工作深度和覆盖广度，等同于一整个顶级渗透测试团队整整1年的工作量。链接：https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/ 这直接是降维打击。本图由AI生成以往的AI只能帮你写个脚本、搜个代码片段。但Mythos展现出了一种近乎恐怖的「软件漏洞直觉」。它能识别出上万行代码中那些零散、低危的小漏洞。更要命的是，它能像顶级黑客一样，将这些原本不起眼的漏洞串联成一条致命的攻击链。从初步入侵到数据拖库，在 AI 辅助下，整个过程被压缩到了25分钟。而在过去，这种级别的攻击可能需要一个团队潜伏数周才能完成。本图由AI生成在奇点撞向我们之前，如何自救？ Anthropic曾因为觉得Claude Mythos「太危险」而拒绝全面发布，一度被嘲讽为PR手段。但现在看来，这更像是一种对未知的敬畏。 Mozilla已经开始行动，他们利用Mythos扫描Firefox浏览器，仅在2026年4月一个月内就修复了破纪录的423个安全问题。这说明， AI 也是最强的盾，但前提是你要比攻击者跑得更快。我们必须接受一个残酷的现实：旧时代的防御节奏已经彻底失效。检测响应时间不能再以「小时」计，必须缩短到「分钟」甚至「秒」；安全不再是人的审计，而是「用AI对抗AI」的自动化博弈。与此同时，资本侧也已经all in。在过去5个月里，英伟达向自己的客户注资约400亿美金： 300亿给OpenAI，20亿给算力商CoreWeave，32亿给光纤商康宁…… 本图由AI生成、数据来源于网络由AI收集这些钱转了一圈，最后全部变成了英伟达芯片的订单。显然，黄仁勋正在用钱投票