超越固定预算：描述思想树推理策略的无弹性和局限性

arXiv:2606.20599v1 公告类型：新摘要：思想树（ToT）搜索已成为提高大型语言模型推理能力的一个有前途的方向，但在实践中部署这些方法提出了一个很少受到系统关注的问题：不同的搜索策略在不同的计算预算、模型大小和问题难度下表现如何？在这项工作中，我们评估了两种代表性的 ToT 方法； DPTS（一种基于蒙特卡罗树搜索的方法）和 SSDP（一种基于语义重复数据删除的方法）跨越两个数学推理基准（Math500 和 GSM8K）、两个模型规模（Llama-3B 和 Llama-8B）以及四个令牌预算（3k--10k）。我们的分析表明，这两种方法表现出相反方向的局限性。 DPTS 在低预算下遇到冷启动瓶颈：在其价值估计变得可靠之前，它需要充分的探索，这使得它不适合资源受限的环境，尽管在较高预算下具有强大的扩展行为。另一方面，SSDP 可以有效地找到候选解，但容易出现边界耗尽；它积极的节点合并永久地丢弃了未探索的路径，使其无论剩余多少预算都无法改进。总之，这些发现表明，固定的探索策略和固定的修剪策略都不足以跨越计算连续体。我们认为，有效搜索科学推理代理需要能够根据搜索进度和可用资源调整其行为的策略。