拒绝生活在聊天模型中角色的下游

2026-06-26 1 阅读 Viola Zhong, Qirui Li

arXiv:2606.26161v1 公告类型：新摘要：在指令调整的聊天模型中，拒绝和角色特征都已被识别为激活空间中的线性方向，但两者已作为单独的机制进行研究。我们展示了他们的互动：顺从的角色会拒绝。在Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct中，我们提取顺从模型角色方向和拒绝方向并对两者进行干预。顺从的角色转向抑制拒绝——在 Llama 中，拒绝率从 97% 下降到 2%。重新引入拒绝方向可以部分恢复后期层的拒绝，但不能恢复早期层的拒绝。在后层窗口中投影角色方向可将其恢复到基线；投影出随机方向则不然。因此，拒绝在计算的下游的后期表达阶段被门控。将拒绝视为一个孤立的方向，忽略了它对角色的依赖。