多少思考才足够？量化和理解法学硕士推理中的冗余

arXiv:2605.23926v1 公告类型：新摘要：具有推理能力的大型语言模型通过发出长链思维来解决难题，并在延迟、GPU 时间和能源方面付出巨大代价。对它们痕迹的随意检查揭示了广泛的重新表述、验证和循环自我反思，但这种深思熟虑实际上有多少必要性从未被大规模测量过或从首要原则解释过。本文弥补了这两个空白。我们直接根据推理模型本身形式化推理冗余：正确轨迹的冗余是其尾随分段步骤中可以截断的最大部分，而 $\pi$ 被迫终止思考并发出最终答案，仍然会产生正确答案。跨四个前沿推理模型和两个数学基准的大规模量化表明，步骤级冗余始终很高——在我们研究的 8 个（模型、基准）条件下，步级冗余度在 61% 到 93% 之间，中位关键前缀等于 8 个条件中的 6 个条件中的单个分段步骤——这一发现对于法官族的选择是稳健的，并且尽管 $\rho$ 随着 MATH-500 问题难度的增加而降低，但所有四个模型仍然基本上是冗余的（$\rho \in [46\%, 85\%]$) 即使是最难的 5 级问题。然后，我们证明这种冗余是与长度无关的结果奖励的结构性结果，而不是特定于模型的人工制品：在任何此类奖励下，没有有限的预期停止时间是最佳的。无论 RL 算法、基础模型、数据分布如何，或者策略是通过 RL 还是蒸馏获得，结果都成立；因此，过度思考并不是单个模型中需要修补的错误，而是当前推理模型训练方式的结构属性。代码：https://github.com/zhiyuanZhai20/how-much-thinking-is-enough

订阅66必读