MidSteer：用于转向生成模型的最佳仿射框架

摘要

arXiv:2605.05220v1 Announce Type: new Abstract: Steering intermediate representations has emerged as a powerful strategy for controlling generative models, particularly in post-deployment alignment an

and for concept affine models

2026-05-08 1 阅读约1分钟阅读 Tatiana Gaintseva, Andrew Stepanov, Ziquan Liu, Martin Benning, Gregory Slabaugh, Jiankang Deng, Ismail Elezi

arXiv:2605.05220v1 公告类型：新摘要：引导中间表示已成为控制生成模型的强大策略，特别是在部署后对齐和安全设置中。然而，尽管它在实证上取得了成功，但目前缺乏全面的理论框架。在本文中，我们通过形式化概念引导理论来弥补这一差距。首先，我们在转向和仿射概念擦除之间建立联系，证明消除不需要的行为的标准方法是 LEACE（仿射擦除的封闭形式方法）的一个特例。接下来，我们制定了概念切换的原理性理论框架 LEACE-Switch，并描述了它提供最佳仿射解决方案的假设。在此分析的基础上，我们随后引入了 MidSteer（最小干扰概念转向），这是一种更通用的概念操纵仿射框架，它放宽了这些假设并实现定向、最小干扰变换。我们证明了 MidSteer 在一系列任务、模式和架构中表现良好，包括视觉扩散模型和大型语言模型。

订阅66必读