阿谀奉承的双重立场评价：协议的结构与干预的限度

摘要

arXiv:2606.11205v1 Announce Type: new Abstract: Activation steering can shift LLM behaviour, but standard evaluations do not typically test whether a sycophancy-reduction direction also suppresses agr

the steering direction agreement and

2026-06-11 1 阅读约1分钟阅读 Matthew James Buchan

arXiv:2606.11205v1 公告类型：新摘要：激活转向可以改变 LLM 行为，但标准评估通常不会测试减少阿谀奉承的方向是否也会抑制与事实正确的陈述的一致性。我们引入了双立场评估，它测试每个主题的两种立场，并将其应用于 Llama-3-8B-Instruct 上的质心差异转向。我们发现了一种分离：模型代表了几何上不同的子空间中的阿谀奉承和事实一致，但转向方向平等地投射到两者上，并且不能有区别地瞄准其中任何一个。该方向相应地减少了与事实正确的陈述（例如地球是圆的）以及阿谀奉承的陈述的一致性。两个激活组的所有其他静态属性都是匹配的，这表明行为分离是由生成动态或残差流分析无法解决的更细粒度结构引起的。该模式说明了一个普遍的差距：可从激活读取的表示可能无法通过它们写入。

订阅66必读