智能AI
morning
GRASP:梯度对齐顺序参数传输,实现内存高效的多源学习
2026-06-16
1 阅读
Mary Isabelle Wisell, Nicholas Jacobs, Aayush Manandhar, Salimeh Yasaei Sekeh
arXiv:2606.14900v1 公告类型:新 摘要:多源迁移学习面临根本的可扩展性瓶颈:现有方法要么需要在参数融合期间将所有 K 个源模型同时加载到内存中,需要 O(K) 内存,要么在推理时部署所有模型,使得生产部署不可行。我们提出了 GRASP(梯度对齐顺序参数传输),它通过三个关键创新实现了卓越的知识集成,同时保持 O(1) 内存消耗:(1) 顺序处理,一次将一个源合并到不断发展的目标模型中;(2) 参数梯度对齐,有选择地仅传输优化方向与目标域一致的参数,避免负迁移;(3) 迭代微调,在集成下一个源之前适应传输的知识。跨越 10 至 108 年时间分布变化和四种架构(1.3M 至 25.6M 参数)的三个连续学习基准(Yearbook、CLEAR-10、CLEAR-100)的广泛实验表明,GRASP 在所有数据集和架构上实现了 93.5% 的平均准确度,而集成方法的准确度为 71.7%,同时仅需要恒定内存,而标准多源的 K 模型融合。至关重要的是,GRASP 的顺序先前合并模型可以扩展到任意多个源,而无需内存增长,这使其特别适合资源受限的部署和不断发展的源域。