安全攻防
morning
MidSteer:用于转向生成模型的最佳仿射框架
2026-05-08
1 阅读
Tatiana Gaintseva, Andrew Stepanov, Ziquan Liu, Martin Benning, Gregory Slabaugh, Jiankang Deng, Ismail Elezi
arXiv:2605.05220v1 公告类型:新 摘要:引导中间表示已成为控制生成模型的强大策略,特别是在部署后对齐和安全设置中。然而,尽管它在实证上取得了成功,但目前缺乏全面的理论框架。在本文中,我们通过形式化概念引导理论来弥补这一差距。首先,我们在转向和仿射概念擦除之间建立联系,证明消除不需要的行为的标准方法是 LEACE(仿射擦除的封闭形式方法)的一个特例。接下来,我们制定了概念切换的原理性理论框架 LEACE-Switch,并描述了它提供最佳仿射解决方案的假设。在此分析的基础上,我们随后引入了 MidSteer(最小干扰概念转向),这是一种更通用的概念操纵仿射框架,它放宽了这些假设并实现定向、最小干扰变换。我们证明了 MidSteer 在一系列任务、模式和架构中表现良好,包括视觉扩散模型和大型语言模型。