智能AI morning

量化破坏一致性:压缩法学硕士在模型和精度水平上出现偏差

2026-05-18 1 阅读 Plawan Kumar Rath, Rahul Maliakkal
arXiv:2605.15208v1 公告类型:新 摘要:大型语言模型通常通过训练后量化进行压缩,以减少云和边缘部署的推理成本和内存占用,但这种压缩对模型质量的影响仍然知之甚少。现有的研究通常仅比较两种条件(全精度与单个量化变体),依赖于聚合偏差指标,并评估单个模型系列,从而无法区分逐渐退化与阈值相关的安全故障。我们对五个精度级别(BF16 到 3 位)的三种指令调整模型(Qwen2.5-7B、Mistral-7B、Phi-3.5-mini)对 5 个随机种子的 12,148 个 BBQ 偏差基准项目(总计 911,100 个推理记录)进行了受控实证研究。我们的结果表明,3 位量化会导致 6-21% 的先前无偏项出现新的刻板行为,遵循通过逻辑回归确认的清晰剂量反应模式,而模型选择“未知”答案的意愿下降了 17.4%。至关重要的是,这些项目级别的变化对于标准质量指标来说是不可见的:在所有三个模型中,8 位时的困惑度增加不到 0.5%,4 位时的困惑度增加不到 3%,但 2.5-5.6% 的项目已经在 4 位时产生了新的偏差。这些发现表明,总体评估指标系统地错过了公平性关键退化,强调了需要在部署之前明确测试偏差出现的质量感知压缩协议。