GRASP：梯度对齐顺序参数传输，实现内存高效的多源学习

摘要

arXiv:2606.14900v1 Announce Type: new Abstract: Multi-source transfer learning faces a fundamental scalability bottleneck: existing approaches require either loading all K source models into memory si

source memory and models that

2026-06-16 1 阅读约1分钟阅读 Mary Isabelle Wisell, Nicholas Jacobs, Aayush Manandhar, Salimeh Yasaei Sekeh

arXiv:2606.14900v1 公告类型：新摘要：多源迁移学习面临根本的可扩展性瓶颈：现有方法要么需要在参数融合期间将所有 K 个源模型同时加载到内存中，需要 O(K) 内存，要么在推理时部署所有模型，使得生产部署不可行。我们提出了 GRASP（梯度对齐顺序参数传输），它通过三个关键创新实现了卓越的知识集成，同时保持 O(1) 内存消耗：(1) 顺序处理，一次将一个源合并到不断发展的目标模型中；(2) 参数梯度对齐，有选择地仅传输优化方向与目标域一致的参数，避免负迁移；(3) 迭代微调，在集成下一个源之前适应传输的知识。跨越 10 至 108 年时间分布变化和四种架构（1.3M 至 25.6M 参数）的三个连续学习基准（Yearbook、CLEAR-10、CLEAR-100）的广泛实验表明，GRASP 在所有数据集和架构上实现了 93.5% 的平均准确度，而集成方法的准确度为 71.7%，同时仅需要恒定内存，而标准多源的 K 模型融合。至关重要的是，GRASP 的顺序先前合并模型可以扩展到任意多个源，而无需内存增长，这使其特别适合资源受限的部署和不断发展的源域。

订阅66必读