推测生成的并行前缀验证

arXiv:2605.04263v1 公告类型：新摘要：我们引入了 PARSE（并行 pRefix 推测引擎），这是一种推测生成框架，可通过在语义级别上并行化前缀验证来加速大型语言模型 (LLM) 推理。现有的推测性解码方法从根本上受到令牌级等效性的限制：目标模型必须验证每个令牌，从而导致较短的接受长度和适度的加速。转向语义或段级验证可以大大增加接受粒度，但先前的方法依赖于顺序验证，从而引入显着的开销并限制实际收益。 PARSE 引入了并行前缀验证，无需顺序检查即可实现语义级验证。给定草稿模型的完整草稿，目标模型使用自定义注意掩码在一次前向传递中评估多个前缀的正确性，直接识别最大有效前缀。这消除了顺序段验证，并使验证计算效率更高。 PARSE 与令牌级推测解码正交，并且可以与其组合以获得额外的增益。在模型和基准测试中，PARSE 比目标模型提供了 1.25\times$ 至 $4.3\times$ 的吞吐量增益，与 EAGLE-3 组合时可实现 $1.6\times$ 到 $4.5\times$ 的吞吐量增益，所有的精度下降都可以忽略不计。这表明并行前缀验证是加速 LLM 推理的有效、通用方法。