智能AI morning

超越单一方向的拒绝:Diff-in-Means 和 INLP 的初步比较

2026-06-15 1 阅读 Elisabetta Rocchetti, Alfio Ferrara
arXiv:2606.13720v1 公告类型:新 摘要:Arditi 等人。 (2024)表明,安全微调聊天模型中的拒绝是由残余流中的单个线性方向介导的,可以通过有害和无害激活的均值差异(DiM)来恢复。我们将基于 DiM 的干预措施(激活添加和定向消融)与源自迭代零空间投影(INLP)的两种干预措施(零空间投影和反事实翻转)在五个开放权重聊天模型上进行比较,询问 INLP 是否可以在转向拒绝方面与 DiM 相匹配,以及其更丰富的参数化是否会产生更多可调整的干预措施。 INLP 反事实翻转在拒绝抑制方面与 DiM 定向消融具有竞争力,而零空间投影始终较弱。将 INLP 限制在提取子空间的主导方向上,可以保留接近基线困惑度时的大部分抑制效果,从而提供可调节的能力。从几何角度来看,这两种 INLP 干预措施落在激活空间的质上不同的区域:零空间投影使有害和无害簇之间的变换激活 \emph{} 崩溃,而反事实翻转将它们移动到相反的簇中,这表明该模型对概念不存在的编码与其相反的不同——这是一个有趣的区别,值得在未来的工作中进一步研究。