PopuLoRA：共同进化法学硕士群体的推理自我游戏

PopuLoRA：共同进化法学硕士群体的推理自我游戏作者 Roger Creus Castanyer、Geoffrey Bradway、Lorenz Wolf、Maxwill Lin、Augustine N. Mavor-Parker、Matthew James Sargent 描述我们介绍 PopuLoRA，一种基于群体的非对称自我游戏框架，用于法学硕士训练后可验证奖励 (RLVR) 的强化学习。外部链接 https://arxiv.org/abs/2605.16727v1 日期 2026 年 5 月 20 日附属机构 Vmax 具有可验证奖励的强化学习 (RLVR) 为大型语言模型（LLM；以下简称模型）提供了一种开发复杂推理行为的方法，而仅靠预训练无法可靠地产生这种行为：模型重复尝试其解决方案可以自动检查的任务，当这些尝试成功时，它们会得到强化。当模型生成的解决方案的正确性是可验证的时，奖励是异常干净的：模型编写的代码通过单元测试，找到与目标输出匹配的输入，用可检查的答案解决数学任务，或者在任何确定性验证器下取得成功。 RLVR 需要稳定地提供大规模的可验证任务：这些任务的解决方案可以被检查，其难度保持在模型的边界附近，并且其覆盖范围足够广泛以保持训练的有效性。如今，大多数系统仍然依赖于在训练开始之前选择的固定的、手工策划的任务分配。这些发行版可能会变得太容易、太窄或太慢而难以适应。合成 RLVR 任务可以使用手写生成器生成，这已经是扩展可验证训练数据的常用方法。但固定生成器仍然提前定义了大部分课程。自我对弈提供了一种更具适应性的途径：模型可以生成任务、尝试任务，并在训练展开时接收验证者的反馈。我们以这一工作为基础，询问任务生成是否可以成为随着模型学习而适应的在线课程。 PopuLoRA 是我们朝这个方向迈出的第一步。它训练共同发展的法学硕士教师和学生群体。教师生成可验证的任务，学生尝试解决这些任务，验证者提供奖励。随着学生的进步，教师必须寻找更艰巨、更广泛的任务；随着教师的多元化，学生会看到与他们一起不断变化的课程。自我博弈及其失败模式自适应生成数据的一种可行方法是单代理自我博弈：一个模型为自己提出任务，然后尝试解决它们。在我们研究的代码推理设置中，模型生成三种任务： code_o ，预测程序的输出； code_i ，它在其中找到产生目标输出的输入；和 code_f ，它完成输入输出示例中缺失的函数。沙盒 Python 执行器仅接受解析、执行和行为确定的程序。在实践中，我们发现单智能体自我对弈可以进行自我校准：任务生成收敛于其自己的求解器已经可以处理的有效任务，解决率攀升至 100%，并且课程崩溃为越来越简单的程序。奖励曲线看起来很健康，但训练分布已经停止推动模型。崩溃在生成的程序中可见。在单代理基线中，AST 深度、圈复杂度、代码行数和变量计数均呈下降趋势。 PopuLoRA 朝相反的方向发展：生成的任务在训练过程中变得更长、更深、结构更加多样化。 PopuLoRA PopuLoRA 将任务生成与任务解决分开。我们训练的不是一种自玩模型，而是由专门任务生成器（称为教师（T））和解决者（称为学生（S））组成的共同进化群体。在每一步中，都会有一名教师与一名学生进行匹配：教师提出任务，配对的学生在验证者的指导下尝试完成这些任务。教师会因匹配的学生未能解决的有效任务而获得奖励，因此难度是根据不同的模型而不是教师自己的能力来衡量的。这将困难变成了群体间的信号。教师和学生是不同的模型，并且两个亚群体在整个培训过程中都在不断变化。结果是由交叉评估驱动的自动课程，而不是由单一模型的任务难度的局部概念驱动。这些群体在共享的冻结基础模型上实现为 LoRA 适配器。每个成员仅训练一个小的低等级更新，而不是完整的模型副本，而主要的基本模型计算在教师和学生之间共享。这使得群体训练在单台机器上变得可行：内存随着适配器权重的总和进行扩展，多 LoRA 推理将批量请求路由到正确的适配器，而无需将基本模型换入和换出内存，并且 4T+4S 设置可训练 8 个适配器，而仅需 1.31 倍的挂钟开销。训练循环每个 PopuLoRA 步骤都有五个阶段。首先，教师和学生使用优先虚拟自我对战而不是 TrueSkill 评分进行匹配，这包括

订阅66必读