HELLoRA：专家混合模型的热门专家层级低阶适应

arXiv:2605.18795v1 公告类型：新摘要：低秩适应 (LoRA) 主导着大型语言模型的参数高效微调，但大多数变体都针对密集架构。专家混合 (MoE) 模型以接近恒定的每个令牌计算来缩放参数，其稀疏激活模式为更有效的适应创造了未开发的机会。我们提出了 Hot-Experts Layer-level Low-Rank Adaptation (HELLoRA)，它将 LoRA 模块仅附加到每层最常激活的专家上。这种简单的机制减少了可训练参数和适配器引起的 FLOP，同时提高了下游性能，我们将这种效果归因于一种保留预训练专家专业化的结构化正则化形式。为了在极端参数预算下对 HELLoRA 进行压力测试，我们进一步将其与 LoRI 组合形成 HELLoRI，它冻结了上投影并稀疏化了下投影。在三个 MoE 主干（即 OlMoE-1B-7B、Mixtral-8x7B 和 DeepSeekMoE）以及涵盖数学推理、代码生成和安全对齐的三个任务系列中，HELLoRA 始终优于强大的 PEFT 基线。相对于 OlMoE 上的普通 LoRA，HELLoRA 使用了 15.7% 的可训练参数，将适配器 FLOP 减少了 38.7%，实现了 1.9 倍的训练吞吐量，并将准确性提高了 9.2%。在 DeepSeekMoE 上，HELLoRA 的性能优于 LoRA，同时仅使用了 23.2% 的可训练参数。这些结果表明，激活感知适配器放置是扩展 MoE 语言模型 PEFT 的有效且实用的途径。