超越单一方向的拒绝：Diff-in-Means 和 INLP 的初步比较

摘要

13720v1 Announce Type: new Abstract: Arditi et al。

the and INLP DiM interventions

2026-06-15 1 阅读约1分钟阅读 Elisabetta Rocchetti, Alfio Ferrara

arXiv:2606.13720v1 公告类型：新摘要：Arditi 等人。（2024）表明，安全微调聊天模型中的拒绝是由残余流中的单个线性方向介导的，可以通过有害和无害激活的均值差异（DiM）来恢复。我们将基于 DiM 的干预措施（激活添加和定向消融）与源自迭代零空间投影（INLP）的两种干预措施（零空间投影和反事实翻转）在五个开放权重聊天模型上进行比较，询问 INLP 是否可以在转向拒绝方面与 DiM 相匹配，以及其更丰富的参数化是否会产生更多可调整的干预措施。 INLP 反事实翻转在拒绝抑制方面与 DiM 定向消融具有竞争力，而零空间投影始终较弱。将 INLP 限制在提取子空间的主导方向上，可以保留接近基线困惑度时的大部分抑制效果，从而提供可调节的能力。从几何角度来看，这两种 INLP 干预措施落在激活空间的质上不同的区域：零空间投影使有害和无害簇之间的变换激活 \emph{} 崩溃，而反事实翻转将它们移动到相反的簇中，这表明该模型对概念不存在的编码与其相反的不同——这是一个有趣的区别，值得在未来的工作中进一步研究。

订阅66必读