SafeGene：可重复使用的适配器，用于可转移的安全对准

摘要

arXiv:2606.06519v1 Announce Type: new Abstract: Open-weight LLMs are increasingly fine-tuned into customized assistants, but downstream fine-tuning can weaken safety alignment and make models more vul

safety task model downstream and

2026-06-08 1 阅读约1分钟阅读 Yanghan Wang, Zhiqiang Kou, Fu Feng, Jing Wang, Xin Geng

arXiv:2606.06519v1 公告类型：新摘要：开放权重法学硕士越来越多地微调为定制助手，但下游微调会削弱安全性，使模型更容易受到恶意提示，即使训练数据不是故意有害的。当目标模型使用新任务数据或用户交互反复更新时，这会产生反复出现的安全恢复问题。我们提出了 SafeGene，这是一种可重复使用的安全适配器模块，专为在每个架构兼容的模型系列中跨任务重复使用而设计。 SafeGene 并未将安全恢复视为特定于模型的修复步骤，而是将安全功能视为与特定于任务的更新分离的独立、可重用的适配器表示。这种表示是从对齐的降级模型差异中获得的，通过数据感知层选择细化为可转移的任务安全向量，并通过几次逐层系数重新校准在每个下游任务适应模型中表示。跨多个模型系列、下游任务和安全判断的实验表明，SafeGene 增强模型在保持下游性能的同时降低了有害响应率，在安全-效用权衡方面优于代表性的安全适应方法。

订阅66必读