Pythagoras-Prover：通过增强精益形式化推进高效的形式证明

arXiv:2606.12594v1 公告类型：新摘要：现代精益定理证明者只有通过大量训练和推理计算才能实现强大的性能，部分原因是经过验证的证明数据稀缺和形式证明搜索的长推理痕迹，这使得监督微调 (SFT) 和采样都变得昂贵。我们介绍 Pythagoras-Prover，这是一个计算高效的开源精益定理证明器系列，专为实际计算预算而构建。该系列跨越两代范式：4B 和 32B 参数的自回归模型，以及第一个基于概念验证的扩散证明器 (4B)，它在推理时迭代地完善精益证明。为了提高训练效率，我们为课程 SFT 构建了一个经过精益验证的语料库，分为简单、中等和困难问题，因此模型逐渐获得证明技能，从较短、较简单的证明到较长、较难的证明。在 SFT 期间，动态证明推理过滤方案保留了信息丰富的证明痕迹，同时将每个实例保持在 8k 代币上下文预算内。我们还引入了增强精益形式化（ALF），它将稀缺的经过验证的语料库扩展到正式陈述的变体，通过自我蒸馏来填充以获得额外的训练信号，而无需正式验证每个变异实例。通过扰乱已知问题，同时保留其形式特征，ALF 减少了对任何语句表面形式的依赖。根据经验，Pythagoras-Prover-4B 在 MiniF2F-Test 上的 pass@32 上超越了 DeepSeek-Prover-V2-671B（86.1% vs 82.4%），参数减少了约 167 倍，而 Pythagoras-Prover-32B 在 MiniF2F-Test 上将开源技术水平设置为 93.0%，并解决了 672 个 PutnamBench 中的 93 个问题问题。我们发布了 MiniF2F-ALF，这是一种 ALF 突变的污染敏感基准，每个评估的模型都会失去准确性；在这里，我们的 32B 仍然最强，我们的 4B 与之前最先进的 Goedel-Prover-V2-32B 相匹配。

订阅66必读