智能AI
morning
SafeGene:可重复使用的适配器,用于可转移的安全对准
2026-06-08
1 阅读
Yanghan Wang, Zhiqiang Kou, Fu Feng, Jing Wang, Xin Geng
arXiv:2606.06519v1 公告类型:新 摘要:开放权重法学硕士越来越多地微调为定制助手,但下游微调会削弱安全性,使模型更容易受到恶意提示,即使训练数据不是故意有害的。当目标模型使用新任务数据或用户交互反复更新时,这会产生反复出现的安全恢复问题。我们提出了 SafeGene,这是一种可重复使用的安全适配器模块,专为在每个架构兼容的模型系列中跨任务重复使用而设计。 SafeGene 并未将安全恢复视为特定于模型的修复步骤,而是将安全功能视为与特定于任务的更新分离的独立、可重用的适配器表示。这种表示是从对齐的降级模型差异中获得的,通过数据感知层选择细化为可转移的任务安全向量,并通过几次逐层系数重新校准在每个下游任务适应模型中表示。跨多个模型系列、下游任务和安全判断的实验表明,SafeGene 增强模型在保持下游性能的同时降低了有害响应率,在安全-效用权衡方面优于代表性的安全适应方法。