开发者生态
morning
Frontier AI 打破了开放的 CTF 格式
2026-05-16
1 阅读
frays
← 博客 是什么让我有资格这么说?我从 2021 年开始玩 CTF,同年我开始上大学。我的第一个 CTF 是 HCKSYD,一个 48 小时的单独 CTF。我完全解决了这个问题并在2小时内获胜。我完全被迷住了。这让我多次凭借 Blitzkrieg 赢得了澳大利亚最大的 CTF DownUnderCTF 冠军。闪电战是当时澳大利亚最强的队伍之一。后来我加入了 TheHackersCrew,这是一支国际顶级团队,在 CTFTime 上一直排名靠前,CTFTime 是该领域用作记分牌的主要全球排名和赛事日历。与他们一起,我参加了一些世界上最负盛名的 CTF 比赛,直到 2025 年底一直稳居前 10 名。我这么说并不是因为我不喜欢 CTF。我这么说是因为 CTF 是让我爱上安全的原因。他们教我如何学习,给了我衡量自己的方法,并向我介绍了许多我在该领域最尊敬的人。看着人们假装格式仍然很好是令人沮丧的,因为旧游戏已经不存在了。发生了什么变化?随着人工智能工具的能力不断增强,特别是当 GPT-4 首次出现时,很大一部分中等难度的 CTF 挑战开始变得一次性,这意味着用户的单个提示就可以产生解决方案和标记。您可以将密码学挑战粘贴到 ChatGPT 中,10 分钟后返回并找到解决方案。当时我们并没有想太多。困难的挑战基本没有受到影响,节省的时间也不足以破坏比赛。问题从来都不是人工智能能提供帮助。 CTF玩家一直都在使用工具。问题是,当模型进行推理、编写解决方案时,除了复制标志之外,人类没有任何有意义的事情可做。输入 Claude Opus 4.5 当 Opus 4.5 发布时,基调发生了变化。几乎所有中等难度的挑战,以及一些困难的挑战,都可以由代理解决。 Claude Code 将所有内容打包到 CLI 中,并可以轻松连接其他 CLI 和 MCP 工具。构建一个使用 CTFd API 来为每个挑战启动 Claude 实例的编排器变得微不足道。您可以让系统运行第一个小时,然后只开始处理剩下的事情。这改变了比赛。拒绝使用人工智能的团队不仅失去了便利,而且还失去了便利。他们正在玩较慢版本的比赛。开放式在线 CTF 开始成为一个问题,即您能够以多快的速度自动化简单和中等的工作,然后您为最困难的挑战留下了多少人力关注。记分牌开始衡量编排以及使用前沿模型与安全技能(有时高于安全技能)的意愿。效果是显而易见的。 CTFTime 排行榜开始感觉不对劲。一些一直名列前茅的传奇球队出现的频率较低。玩家的活跃度感觉较低。如果挑战开发者将 CTF 视为一种艺术形式,那么如果它会在几分钟内被代理吃掉,那么他们就没有理由花数周时间来构建漂亮的东西。 GPT-5.5 达成交易 在 GPT-5.5 和 GPT-5.5 Pro 发布后,我一直在大力研究它。根据基准指标,5.5 接近 Claude Mythos 的能力,而 Pro 可能会超过它。这些模型可以一次性完成 HackTheBox 上的 Insane 难度主动泄漏堆 pwn 挑战。他们可以解决较小的 CTF 组织者实际生产的大部分问题。如果您在 48 小时的 CTF 中组织 Pro 对抗 Insane 挑战,那么您很有可能在活动结束前获得旗帜。这使得开放式 CTF 是付费获胜的。您在比赛中投入的代币越多,烧毁棋盘的速度就越快。与一般前沿法学硕士相比,像 Alias Robotics 的 alias1 这样的专业网络安全模型的相关性越来越低。竞争正在变成“谁有能力在足够长的时间内运行足够多的代理、有足够的背景”。 CTF 给人的感觉更像是一场低俗的混乱,而不是一场竞赛。您在 CTF 中的表现不再像以前那样定义您的技能。通过 CTF 表现来招聘安全从业人员已经变得越来越没有意义。它甚至不是衡量 AI 技能的一个特别好的指标,因为 CTF 所需的大部分编排已经是开源的或可编码的。 “初学者很好”的采取 我见过各种采取,初学者仍然可以像往常一样从 CTF 中学习。这些镜头错过了记分牌。 CTF 不仅仅是一组谜题。他们是一个梯子。即使作为一个初学者,你也有一些东西需要攀爬。随着时间的推移,您可以看到自己不断进步,解决更多挑战,排名更高,加入更好的团队,并变得更具竞争力。这种反馈循环正在被打破。如果可见的记分牌由使用人工智能的团队主导,那么初学者在建立人工智能正在取代的本能之前就被迫使用人工智能。这是一种反模式。它阻碍了主动学习,而主动奋斗才是真正教会你的东西。投入真正的精力也是完全没有动力的