智能AI morning

用于结构 MoE 压缩的归因引导和覆盖最大化修剪

2026-06-18 1 阅读 Yifu Ding, Jiacheng Wang, Ge Yang, Yongcheng Jing, Jinyang Guo, Xianglong Liu, Dacheng Tao
arXiv:2606.18304v1 公告类型:新 摘要:专家混合 (MoE) 模型可以有效地扩展计算,但由于其大量的内存占用和推理开销,部署成本仍然很高。先前的压缩方法主要在专家级别运行,要么删除整个专家,要么通过粗粒度的重要性分数对专家进行排名。然而,这种专家明智的决策通常过于粗略,无法捕获细粒度的冗余,从而导致修剪预算分配不当和压缩有限。为了解决这个问题,我们观察到教育部专家内部的信息高度集中在一小部分渠道中,即使在被认为重要的专家中也留下了大量冗余。基于这一观察,我们提出了一个为 MoE 模型量身定制的结构修剪框架。我们的方法将修剪比率分配重新表述为通道分数覆盖最大化问题,并使用基于归因的近似有效地解决它。 DeepSeek 和 Qwen MoE 模型的实验表明,当与 4 位量化相结合时,我们的方法在 50% 或 25% 结构化剪枝下保留了模型精度。在 Qwen3-30B-A3B 上,我们的方法将内存占用减少了 5.27$\times$,并且在各种基准测试中始终优于最先进的基准。