智能AI
morning
拒绝生活在聊天模型中角色的下游
2026-06-26
1 阅读
Viola Zhong, Qirui Li
arXiv:2606.26161v1 公告类型:新 摘要:在指令调整的聊天模型中,拒绝和角色特征都已被识别为激活空间中的线性方向,但两者已作为单独的机制进行研究。我们展示了他们的互动:顺从的角色会拒绝。在Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct中,我们提取顺从模型角色方向和拒绝方向并对两者进行干预。顺从的角色转向抑制拒绝——在 Llama 中,拒绝率从 97% 下降到 2%。重新引入拒绝方向可以部分恢复后期层的拒绝,但不能恢复早期层的拒绝。在后层窗口中投影角色方向可将其恢复到基线;投影出随机方向则不然。因此,拒绝在计算的下游的后期表达阶段被门控。将拒绝视为一个孤立的方向,忽略了它对角色的依赖。