PopuLoRA:共同进化法学硕士群体的推理自我游戏

2026-05-20 1 阅读 AMavorParker
PopuLoRA:共同进化法学硕士群体的推理自我游戏 作者 Roger Creus Castanyer、Geoffrey Bradway、Lorenz Wolf、Maxwill Lin、Augustine N. Mavor-Parker、Matthew James Sargent 描述 我们介绍 PopuLoRA,一种基于群体的非对称自我游戏框架,用于法学硕士训练后可验证奖励 (RLVR) 的强化学习。外部链接 https://arxiv.org/abs/2605.16727v1 日期 2026 年 5 月 20 日 附属机构 Vmax 具有可验证奖励的强化学习 (RLVR) 为大型语言模型(LLM;以下简称模型)提供了一种开发复杂推理行为的方法,而仅靠预训练无法可靠地产生这种行为:模型重复尝试其解决方案可以自动检查的任务,当这些尝试成功时,它们会得到强化。当模型生成的解决方案的正确性是可验证的时,奖励是异常干净的:模型编写的代码通过单元测试,找到与目标输出匹配的输入,用可检查的答案解决数学任务,或者在任何确定性验证器下取得成功。 RLVR 需要稳定地提供大规模的可验证任务:这些任务的解决方案可以被检查,其难度保持在模型的边界附近,并且其覆盖范围足够广泛以保持训练的有效性。如今,大多数系统仍然依赖于在训练开始之前选择的固定的、手工策划的任务分配。这些发行版可能会变得太容易、太窄或太慢而难以适应。合成 RLVR 任务可以使用手写生成器生成,这已经是扩展可验证训练数据的常用方法。但固定生成器仍然提前定义了大部分课程。自我对弈提供了一种更具适应性的途径:模型可以生成任务、尝试任务,并在训练展开时接收验证者的反馈。我们以这一工作为基础,询问任务生成是否可以成为随着模型学习而适应的在线课程。 PopuLoRA 是我们朝这个方向迈出的第一步。它训练共同发展的法学硕士教师和学生群体。教师生成可验证的任务,学生尝试解决这些任务,验证者提供奖励。随着学生的进步,教师必须寻找更艰巨、更广泛的任务;随着教师的多元化,学生会看到与他们一起不断变化的课程。自我博弈及其失败模式 自适应生成数据的一种可行方法是单代理自我博弈:一个模型为自己提出任务,然后尝试解决它们。在我们研究的代码推理设置中,模型生成三种任务: code_o ,预测程序的输出; code_i ,它在其中找到产生目标输出的输入;和 code_f ,它完成输入输出示例中缺失的函数。沙盒 Python 执行器仅接受解析、执行和行为确定的程序。在实践中,我们发现单智能体自我对弈可以进行自我校准:任务生成收敛于其自己的求解器已经可以处理的有效任务,解决率攀升至 100%,并且课程崩溃为越来越简单的程序。奖励曲线看起来很健康,但训练分布已经停止推动模型。崩溃在生成的程序中可见。在单代理基线中,AST 深度、圈复杂度、代码行数和变量计数均呈下降趋势。 PopuLoRA 朝相反的方向发展:生成的任务在训练过程中变得更长、更深、结构更加多样化。 PopuLoRA PopuLoRA 将任务生成与任务解决分开。我们训练的不是一种自玩模型,而是由专门任务生成器(称为教师(T))和解决者(称为学生(S))组成的共同进化群体。在每一步中,都会有一名教师与一名学生进行匹配:教师提出任务,配对的学生在验证者的指导下尝试完成这些任务。教师会因匹配的学生未能解决的有效任务而获得奖励,因此难度是根据不同的模型而不是教师自己的能力来衡量的。这将困难变成了群体间的信号。教师和学生是不同的模型,并且两个亚群体在整个培训过程中都在不断变化。结果是由交叉评估驱动的自动课程,而不是由单一模型的任务难度的局部概念驱动。这些群体在共享的冻结基础模型上实现为 LoRA 适配器。每个成员仅训练一个小的低等级更新,而不是完整的模型副本,而主要的基本模型计算在教师和学生之间共享。这使得群体训练在单台机器上变得可行:内存随着适配器权重的总和进行扩展,多 LoRA 推理将批量请求路由到正确的适配器,而无需将基本模型换入和换出内存,并且 4T+4S 设置可训练 8 个适配器,而仅需 1.31 倍的挂钟开销。训练循环 每个 PopuLoRA 步骤都有五个阶段。首先,教师和学生使用优先虚拟自我对战而不是 TrueSkill 评分进行匹配,这包括