语言模型中拒绝规避的潜在空间攻击

摘要

21706v1 Announce Type: new Abstract: Safety-aligned language models are trained to refuse harmful requests, yet refusal behavior can be suppressed by steering their internal representations。

the refusal and attack representations

2026-05-23 1 阅读约1分钟阅读 Giorgio Piras, Raffaele Mura, Fabio Brau, Maura Pintor, Luca Oneto, Fabio Roli, Battista Biggio

arXiv:2605.21706v1 公告类型：新摘要：经过训练，安全一致的语言模型可以拒绝有害请求，但可以通过控制其内部表示来抑制拒绝行为。现有方法通过消除模型激活中的拒绝方向来实现这一点，旨在从模型的残余流中消除拒绝。尽管它们在经验上取得了成功，但这些方法缺乏对它们引起的潜在空间变换以及它为何抑制拒绝的原则性解释。在这项工作中，我们将拒绝抑制重新定义为针对线性探针的潜在空间规避攻击，这些线性探针经过训练将拒绝与回答的提示分开。在这种观点下，先前工作的均值差异方向自然地定义了这样的探测，其消融正是对其决策边界的投影，即最小置信度规避攻击。这种观点不仅解释了先前工作的经验成功，而且承认了一个关键的局限性：规避在决策边界处停止，从而需要将表示进一步推入合规区域，即模型回答的区域。我们通过提出受控潜在空间规避攻击来利用这一点，该攻击以优化的置信度将表示投射到边界之外。我们在 15 个指令调整、多模式和推理模型中实现了最先进的攻击成功率，优于现有的拒绝消融基线和专门的越狱攻击。

订阅66必读