超越 LoRA：稀疏性引发的适应是否更好？

arXiv：2606.13767v1 公告类型：新摘要：低秩适应（LoRA）及其变体为预训练模型的全面微调提供了一种内存和计算效率高的替代方案。然而，这些方法的相对普遍性以及对低秩更新的结构限制如何保持有效的适应性能仍然存在问题。我们提出了一个历史框架，涵盖过去（完全微调和原始 LoRA）、现在（LoRA 的不同变体），并通过在现有 LoRA 变体中引入稀疏性来提出更简单、更便宜、参数高效的扩展：便宜的 LoRA (cLA)，用另一个固定的（确定性的或随机变体中的随机变体）和链式循环变体 ${c}^3$LA 训练单个低秩因子。我们将 cLA 构建为非对称 LoRA 的结构化实例，作为完全微调的受控列子空间限制。我们推导了这些变体的信息论泛化误差界限，标志着该领域的首批努力之一。根据经验，我们评估了 10 个预训练模型和 14 个数据集的 11 种微调方法，并使用损失景观和谱分析等工具分析微调模型的性能和泛化能力。尽管微调模型对预训练模型、数据集和其他因素很敏感，但我们的研究表明，限制基于 LoRA 的 PEFT 方法对稀疏、结构化列空间的适应，在其参数匹配基线的任务中仍然具有竞争力，同时减少高达 10% 的训练时间和峰值 GPU 内存高达 15%，即使是简单的、非优化的稀疏实现。我们的理论和经验泛化措施为其经济有效的适应提供了更一致和原则性的方法概述和代码可在以下位置找到：https://elicaden.github.io/Beyond_LoRA/。

订阅66必读