打破求解器瓶颈：在可学习前沿训练任务生成器

摘要

arXiv:2606.18284v1 Announce Type: new Abstract: The limiting resource for training agents via reinforcement learning (RL) is increasingly frontier task supply: valid, solvable tasks just difficult eno

for the and solver generator

2026-06-18 1 阅读约2分钟阅读 Lorenz Wolf, Connor Watts, Roger Creus Castanyer, Geoffrey Bradway, Maxwill Lin, Augustine N. Mavor-Parker, Matthew Daborn-Sargent

arXiv:2606.18284v1 公告类型：新摘要：通过强化学习（RL）训练代理的限制资源越来越多地成为前沿任务供应：有效的、可解决的任务足以训练当前模型。随着推理和代理模型的改进，固定任务分配饱和，而天真的合成生成产生的任务是微不足道的、不可能的或不适定的。使用 RL 训练任务生成器以优化有效性和可学习性可以解决这一瓶颈，但直接优化需要针对每个候选者重复部署求解器。对于软件工程 (SWE) 任务，单次部署可能需要数十分钟；循环求解器生成器的训练很棘手。我们引入了 PROPEL，这是一种求解器摊销框架，用于以目标求解率训练任务生成器。 PROPEL 在生成的任务和求解器结果的一次性标记语料库上训练轻量级激活探针。该探针根据冻结的生成器参考模型预测目标求解器通过率，并在生成器优化期间充当求解率的代理，从而将生成器评估减少为单个前向传递。在多个模型规模的数学、代码和软件工程中，PROPEL 将生成转向目标解决率：对于编码，在可学习前沿生成的任务从 Qwen2.5-3B-Instruct 求解器的 $10.1\% \rightarrow 20.0\%$ 增加，从 Qwen2.5-7B-Instruct 求解器的 $5.3\% \rightarrow 12.6\%$ 增加。对于 SWE，PROPEL 将 Qwen3.5-27B 的目标解决率从 $9.8\% \rightarrow 19.6\%$ 提高到在探针和生成器训练期间未见的存储库上的生成份额。

订阅66必读