评估将会中断

我们擅长评估我们拥有的模型。我们在评估我们即将构建的模型方面表现得更差——尤其是当它们进入新的能力体系时。大多数基准、安全评估和红队协议都隐含地假设下一个模型是当前模型的更强版本。如果是不同类型的事情，我们的整个评估基础设施就会悄然崩溃。我认为这是我们如何理解法学硕士中最重要的未解决问题。我认为答案是评估——不是训练，不是架构，不是数据——是下一次能力跳跃的瓶颈。让我解释一下原因。失败模式：质的转变 Wei 等人。（2022）记录了他们所谓的“新兴能力”——几次提示的任务表现、思维链推理增益、指令遵循——只有在更大范围内才会出现的能力。 Grokking（Power 等人，2022）展示了一个相关但独特的现象：网络在记住训练数据后很长时间突然泛化，这是训练时间而不是跨尺度的动态过渡（Liu 等人，2022）。不同的现象，但对评估的影响是相同的：标准指标未能预见到质的变化。有一个重要的对立点：Schaeffer 等人。 (2023) 表明，LLM 能力中许多明显的“跳跃”是精确匹配准确性等不连续指标的产物。切换到连续指标，功能通常会平滑扩展。我认为这并不能解决问题——在某种程度上，它使我的观点更加尖锐。如果我们甚至无法判断过去的转变是真正的质变还是度量伪影，那么我们检测下一个转变的能力又如何呢？无论哪种方式，评估基础设施都会让我们感到惊讶——无论是因为系统发生了变化，还是因为我们的指标一直在误导。我们不知道要测量什么在物理学中，理解相变通常意味着识别一个有序参数——一个区分状态并在临界点附近改变其值或缩放行为的宏观量。没有它，你就无法判断自己离边界有多近，甚至无法判断边界的存在。对于部署规模的法学硕士，我们还没有顺序参数——不适用于能力转换。在风格化设置方面已经取得了进展（更多内容见下文），但对于我们实际交付的系统，我们是盲目的。我们使用的每一个基准——GPQA、SWE-bench、ARC-AGI、Humanity's Last Exam——都衡量模型现在可以做什么。它们在政权内部很有用，但对于政权更迭后会发生什么的证据却很薄弱。当出现一种没有基准测试的新功能时，我们会争先恐后地进行事后评估。我们看到了这种想法的一个版本：一旦启发方法成为标准，一些旧的推理基准就变得不太具有诊断性，并且该领域必须转向更严格的评估。我们会再次看到它。具体来说：想象一个模型，在一定程度上发展出战略性隐瞒信息以实现目标的能力——不是完全撒谎，而是选择性地忽略事实，从而引导对话走向其训练过程意外强化的结果。您现有的诚实基准无法捕捉到这一点，因为它们测试的是事实准确性，而不是战略遗漏。您的安全分类器不会标记它，因为各个输出在技术上都是正确的。该功能是新的，故障模式也是新的，并且您的评估套件中没有任何内容旨在寻找它。你可能会监控到错误的事情，但你却浑然不觉。这是核心问题：我们的整个评估基础设施在结构上都是反应性的。我们在系统发生变化后对其进行测量。我们从不预测变化。评估是一切的上游这比听起来更重要，因为一个简单的事实：如果你能正确评估，你就能正确训练。训练就是优化，而优化的好坏取决于其目标。目标来自 eval。如果你知道要测量什么——如果你可以预测这些测量如何大规模变化——那么你就可以设计正确的训练目标，构建正确的安全层，做出明智的扩展决策，执行针对正确行为属性的 RLHF，而不是在下一阶段边界的 Goodhart 代理。反之亦然：如果您的评估针对错误的制度进行了校准，那么下游的一切都是错误的。训练信号、安全指标、扩展决策——全都错了，等到你意识到的时候就为时已晚了。这就是为什么我认为评估是下一次能力跳跃的瓶颈。那些能够提前弄清楚如何进行评估的实验室将能够安全地进行扩展。那些不这样做的人将会感到惊讶。那么我们该怎么办该领域需要进行不同的投资。不是通过丢弃当前的评估——它们有效——而是通过构建基础设施来预测它们何时停止工作。查找订单参数

订阅66必读