使用级联线性特征检测和控制阿谀奉承

2026-06-26 1 阅读 Maty Bohacek, Rishub Jain, Nicholas Dufour, Thomas Leung, Chris Bregler, Roma Patel

arXiv:2606.26155v1 公告类型：新摘要：通过激活引导方法解释和控制模型行为需要许多对对比样本，这些样本可以清楚地表现出期望或不期望的行为。这些数据对决定了可解释性框架能够可靠地检测导致行为的模型特征的程度，从而决定引导模型走向或远离这种行为的能力。在这项工作中，我们提出了一个迭代数据生成管道，它隔离了负责行为的级联线性特征。具体来说，我们展示了如何超越简单的二进制样本对，而是隔离显示随行为线性缩放的特征程度的样本，从而更好地解开特征。我们专注于检测并避免阿谀奉承——语言模型优先考虑用户验证的倾向。我们证明，通过级联样本发现的阿谀奉承特征形成线性可分离的子空间，并允许选择比基线方法更清楚地对应于所需行为的模型激活。我们还评估了它们实现检测、确定性评分和稳健引导的能力，并发现它们匹配或优于作为法官的法学硕士和系统提示基线，同时提供更低的计算需求和更多的可解释性保证。代码和数据：https://cascading-feats.github.io/