智能AI morning

MODE:MoE 多模态 LLM 的模态分解专家级混合精度量化

2026-06-17 1 阅读 Yuanteng Chen, Peisong Wang, Zhilei Liu, Nanxin Zeng, Yuantian Shao, Shiqiang Lang, Tao Liu, Chuangyi Li, Qinghao Hu, Gang Li, Jing Liu, Jian Cheng
arXiv:2606.17118v1 公告类型:新 摘要:专家混合多模式大型语言模型 (MoE-MLLM) 提供卓越的性能,但会产生过高的 GPU 内存成本,因此压缩至关重要。在 PTQ 方法中,专家级混合精度量化已被证明对 MoE-LLM 有效,但由于专家重要性估计中的两个被忽视的偏差,在 MoE-MLLM 上遭受显着退化。 (1)在跨模态层面,视觉token的数量优势导致专家选择频率被视觉token主导,掩盖了对文本模态至关重要的专家; (2)在视觉内部层面,大量的冗余视觉标记进一步扭曲了频率统计,模糊了对信息丰富的视觉内容至关重要的专家。为了弥补差距,我们提出了 MODE,一种用于 MoE-MLLM 的模态分解专家级混合精度量化框架,它按模态分解专家选择频率,过滤冗余视觉标记以获得去噪视觉频率,并进一步评估每个模态的量化灵敏度,作为基于频率估计的补充信号。这些信号被集成到整数线性规划公式中,以在给定预算下分配每个专家的位宽度。大量实验表明,MODE 特别适合 MoE-MLLM,将 W3A16 的平均性能损失限制在 2.9% 以内,并在极端 2 位设置下获得更大的增益。