用于结构 MoE 压缩的归因引导和覆盖最大化修剪

摘要

18304v1 Announce Type: new Abstract: Mixture-of-Experts (MoE) models scale compute efficiently, yet remain expensive to deploy due to their substantial memory footprint and inference overhead。

and MoE experts models pruning

2026-06-18 1 阅读约1分钟阅读 Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao

arXiv:2606.18304v1 公告类型：新摘要：专家混合 (MoE) 模型可以有效地扩展计算，但由于其大量的内存占用和推理开销，部署成本仍然很高。先前的压缩方法主要在专家级别运行，要么删除整个专家，要么通过粗粒度的重要性分数对专家进行排名。然而，这种专家明智的决策通常过于粗略，无法捕获细粒度的冗余，从而导致修剪预算分配不当和压缩有限。为了解决这个问题，我们观察到教育部专家内部的信息高度集中在一小部分渠道中，即使在被认为重要的专家中也留下了大量冗余。基于这一观察，我们提出了一个为 MoE 模型量身定制的结构修剪框架。我们的方法将修剪比率分配重新表述为通道分数覆盖最大化问题，并使用基于归因的近似有效地解决它。 DeepSeek 和 Qwen MoE 模型的实验表明，当与 4 位量化相结合时，我们的方法在 50% 或 25% 结构化剪枝下保留了模型精度。在 Qwen3-30B-A3B 上，我们的方法将内存占用减少了 5.27$\times$，并且在各种基准测试中始终优于最先进的基准。

订阅66必读