用于执行轨迹上的推理时间对齐的工具

摘要

arXiv:2605.21516v1 Announce Type: new Abstract: Harness engineering has emerged as an important inference-time technique for large language model (LLM) agents, aiming to improve long-term performance

and execution decomposition the task

2026-05-23 1 阅读约1分钟阅读 Boyuan Wang, Bochao Li, Minghan Wang, Yuxin Tao, Fang Kong

arXiv:2605.21516v1 公告类型：新摘要：线束工程已成为大型语言模型 (LLM) 代理的重要推理时间技术，旨在通过任务分解和引导执行来提高长期性能。然而，更复杂的工具并不总是更好：增加分解或指导有时可以提高执行力，但也会降低最终任务的成功率。我们通过推理时间轨迹对齐的角度来研究线束设计。这种视角将工具分为两种机制：任务分解（将任务构建为子目标）和引导执行（在执行过程中重塑局部操作分布）。这种分解使我们能够量化工作流粒度、重试预算和指导引起的操作重新权重如何影响线束设计的性能限制。它进一步揭示了具体的失败模式，包括过度分解、过度修剪和幻觉执行。我们通过受控合成实验和真实的终端代理基准来验证这些预测。受该理论的启发，我们进一步表明，有效的利用可以是部分的：仅指定初始步骤并将剩余的执行留给代理可以实现比完全结构化的工作流更高的通过率。

订阅66必读