量化破坏一致性：压缩法学硕士在模型和精度水平上出现偏差

arXiv:2605.15208v1 公告类型：新摘要：大型语言模型通常通过训练后量化进行压缩，以减少云和边缘部署的推理成本和内存占用，但这种压缩对模型质量的影响仍然知之甚少。现有的研究通常仅比较两种条件（全精度与单个量化变体），依赖于聚合偏差指标，并评估单个模型系列，从而无法区分逐渐退化与阈值相关的安全故障。我们对五个精度级别（BF16 到 3 位）的三种指令调整模型（Qwen2.5-7B、Mistral-7B、Phi-3.5-mini）对 5 个随机种子的 12,148 个 BBQ 偏差基准项目（总计 911,100 个推理记录）进行了受控实证研究。我们的结果表明，3 位量化会导致 6-21% 的先前无偏项出现新的刻板行为，遵循通过逻辑回归确认的清晰剂量反应模式，而模型选择“未知”答案的意愿下降了 17.4%。至关重要的是，这些项目级别的变化对于标准质量指标来说是不可见的：在所有三个模型中，8 位时的困惑度增加不到 0.5%，4 位时的困惑度增加不到 3%，但 2.5-5.6% 的项目已经在 4 位时产生了新的偏差。这些发现表明，总体评估指标系统地错过了公平性关键退化，强调了需要在部署之前明确测试偏差出现的质量感知压缩协议。