MODE：MoE 多模态 LLM 的模态分解专家级混合精度量化

摘要

17118v1 Announce Type: new Abstract: Mixture-of-Experts Multimodal Large Language Models (MoE-MLLMs) offer remarkable performance but incur prohibitive GPU memory costs, making compression essential。

expert the MoE vision frequency

2026-06-17 1 阅读约1分钟阅读 Yuanteng Chen, Peisong Wang, Zhilei Liu, Nanxin Zeng, Yuantian Shao, Shiqiang Lang, Tao Liu, Chuangyi Li, Qinghao Hu, Gang Li, Jing Liu, Jian Cheng

arXiv:2606.17118v1 公告类型：新摘要：专家混合多模式大型语言模型 (MoE-MLLM) 提供卓越的性能，但会产生过高的 GPU 内存成本，因此压缩至关重要。在 PTQ 方法中，专家级混合精度量化已被证明对 MoE-LLM 有效，但由于专家重要性估计中的两个被忽视的偏差，在 MoE-MLLM 上遭受显着退化。（1）在跨模态层面，视觉token的数量优势导致专家选择频率被视觉token主导，掩盖了对文本模态至关重要的专家；（2）在视觉内部层面，大量的冗余视觉标记进一步扭曲了频率统计，模糊了对信息丰富的视觉内容至关重要的专家。为了弥补差距，我们提出了 MODE，一种用于 MoE-MLLM 的模态分解专家级混合精度量化框架，它按模态分解专家选择频率，过滤冗余视觉标记以获得去噪视觉频率，并进一步评估每个模态的量化灵敏度，作为基于频率估计的补充信号。这些信号被集成到整数线性规划公式中，以在给定预算下分配每个专家的位宽度。大量实验表明，MODE 特别适合 MoE-MLLM，将 W3A16 的平均性能损失限制在 2.9% 以内，并在极端 2 位设置下获得更大的增益。

订阅66必读