智能AI morning

FuRA:利用光谱预处理进行全秩参数高效微调

2026-05-25 1 阅读 Yequan Zhao, Ruijie Zhang, Liyan Tan, Niall Moran, Tong Qin, Zheng Zhang
arXiv:2605.22869v1 公告类型:新 摘要:全微调(Full FT)和参数高效微调方法(例如 LoRA)都会引入权重更新,而无需考虑预训练期间建立的谱结构。因此,有限的微调数据产生的噪声梯度可能会扰乱鲁棒的预训练特征。我们将谱预处理确定为缺失的成分:通过其全秩奇异值分解(SVD)重新参数化每个权重矩阵,并冻结一个奇异基限制对预训练列空间的更新,从而产生一种预处理优化方案,该方案在相同的可训练参数计数下优于无约束的全FT。基于这一见解,我们提出了 FuRA(全秩自适应),这是一种基于块张量训练分解 W = LSR 的高效全秩自适应框架,其中大核心 L 固定在预训练的分块 SVD 基础上,而仅优化紧凑核心 R 和分块奇异值 S。该设计同时提供全秩谱预处理,保留全秩更新表达能力,并实现与 LoRA 相当的参数、内存和步进时间效率。 FuRA 在多个设置中始终优于 Full FT,包括 LLM 微调(LLaMA-3-8B 常识推理上 +1.37)、数学推理的 LLM 强化学习以及 VLM 的视觉指令调整。此外,4 位量化变体 QFuRA 也超越了 QLoRA。代码可在 https://github.com/olokevin/FuRA-NIPS 获取