智能AI morning

GenAC:让价值模型重新“思考”的生成式Critic

2026-06-27 1 阅读 微软研究院AI
(本文阅读时间:9 分钟) 编者按:大模型时代的强化学习(RL)正在经历一场范式跃迁,从价值对齐到推理涌现,再到智能体自主决策,RL 的边界不断拓展。然而,一个经典难题始终如影随形——信用分配。当模型生成冗长的推理链后,稀疏的终端奖励如何精准归因到每一步?无价值方法看似简化了流程,实则是以牺牲细粒度学习信号为代价的权宜之计。 微软亚洲研究院与北京大学的研究团队重新审视了这一困境的根源:价值模型并非不堪一用,而是判别式架构在理论上就存在表达力鸿沟,用 TC⁰ 复杂度的前向传播去拟合 P-complete 的价值函数,注定是错配。研究员们提出的生成式 Critic GenAC 通过显式思维链推理、上下文策略感知和 SFT-RL 两阶段预训练,首次让价值估计具备了可推理性。GenAC 在数学推理任务上实现了 51.90% 的平均准确率,且优势随训练持续扩大而非衰减。 本文转载自公众号"机器之心",原文标题《 价值模型不是没用,是架构不对!生成式 Critic 重新定义 LLM 强化学习信用分配 》。 强化学习(RL)已经成为大语言模型(LLMs)后训练阶段最重要的技术之一。早期伴随着 ChatGPT 的出圈,价值对齐 RL 受到广泛关注;DeepSeek-R1 以大规模可验证 RL 激发了模型的推理能力,引领了推理 RL 的热潮;如今的智能体(agent)训练更是离不开 RL。可以说,大模型时代的能力演进,很大程度上是 RL 范式不断深化应用的过程。 然而,RL 有一个经典难题始终悬而未决: 信用分配 (credit assignment)。模型生成了一段长长的回答,最终收到一个奖励信号。但这段回答里,哪些步骤真正做出了贡献?哪些是冗余的,甚至引入了错误?信用分配不精准,训练信号就只能保持稀疏,模型的学习效率也就因此受限。 图1: 在一条具有代表性的轨迹上,无价值方法、PPO 与 GenAC 在优势估计方面的对比 经典 RL 算法 PPO(Proximal Policy Optimization)的解法是训练一个价值模型Critic ,估计序列中每个 token 的价值(Value),借此将信用精确分配到每一步。然而在 LLMs 的实践中,随着生成序列越来越长、任务越来越复杂,Critic 的训练逐渐变得不稳定,效果也难以保证。 于是,研究员们转向更简单的无价值方法例如 GRPO,利用奖励来构造每个轨迹的优势,再分配到每一步上,相当于将优化过程简化为一个多臂老虎机问题。尽管训练流程简洁了许多,但这种简化的代价是彻底放弃了细粒度的信用分配。随着推理链越来越长、agent 任务越来越复杂,这一代价也变得越来越难以接受。 这不禁让人重新审视一个根本问题: 价值模型真的不堪一用吗?还是我们一直没能正确地实现它? 对此,微软亚洲研究院联合北京大学的研究员们,给出了答案。 论文信息已整理于文末,欢迎点击相关链接,了解更多技术详情。 判别式 Critic 的根本局限 传统 Critic 本质上是判别式模型:输入一个状态,输出一个标量作为价值估计。这一设计看似自然,却暗藏着一个深层的架构矛盾。 研究员们将两个已知的结论结合,得出了一个颇具启发性的推论。其一,LLMs 生成过程所对应的马尔可夫链的价值函数的精确建模,在计算复杂度上属于 P-complete。其二,Transformer 单次前向传播的表达能力上界已被证明为 TC⁰,一个远弱于 P-complete 的复杂度类。 将这两个结论结合来看,判别式 Critic 在 LLMs 任务上的持续失败或许并非偶然:价值建模本质上依赖大量顺序推理,难以通过简单的并行前向传播实现。判别式 Critic 是在用一个表达能力受限的架构,去拟合一个理论上更复杂的函数。更关键的是,这一错配无法通过规模化来弥补,更多的参数、更多的数据或更多的计算,对于表达能力层面的鸿沟并无根本帮助。 图2:判别式 Critic 与生成式 Critic 近似性能的比较 研究员们通过实验印证了这一推断。固定一个目标价值函数,让判别式 Critic 去拟合,其误差与简单的平均奖励基线相比并无显著优势。更重要的是,将模型规模从 0.6B 扩展到 14B,拟合误差几乎没有改善。与此同时,判别式 Critic 在不同随机种子下表现出极大的波动,说明其表现高度依赖初始化,而非稳健地收敛。 不可扩展加上不稳定,共同指向同一个结论:判别式 Critic 的问题并非调参不当,而是 架构层面的固有不足 。 生成式 Critic:让价值估计变得可推理 既然判别式架构存在本质局限,那么换成生成式会怎样? 生成式 Critic 的核心思路是,不直接输出一个标量,而是先使用思维链推理,再给出价值的估计。这一思路与生成式奖励模型有相通之处,后者已在多项工作中被验证具有更强的鲁棒性和泛化能力。从理论上看,显式的推理链可以有效提升模型的表达能力,从而绕过 TC⁰的表达能力上界约束,为价值建模开辟新的空间。 但价值建模比奖励建模面临更深层的挑战,价值是与当前策略深度绑定的。同一个中间状态,对于能力较弱的策略而言可能价值很高,而对于能力更强的策略则已不值一提。奖励模型无需感知策略,但价值模型必须知道自己在评估谁。这一挑战在一个具体对比中体现得格外清晰:生成式奖励模型的训练通常以蒸馏强大的通用模型为起点,但对于价值建模而言,并不存在天然的「价值先知」可供蒸馏。 研究员们发现,即便是能力极强的通用大模型例如 GPT-5,直接被用作价值模型时,其拟合误差甚至远不如判别式 Critic。原因正在于它对被评估的策略一无所知,无从判断同一状态对当前策略意味着什么。 为此,研究员们引入了上下文条件注入(In-Context Conditioning)机制。在每次 Critic 推理时,将当前策略的模型规模与实时更新的滑动平均成功率一并注入上下文,使 Critic 能够感知并基于当前策略的能力水平开展分析。消融实验表明,这一简单机制能够有效降低价值估计误差。 图3: 提示词模板,ICC 提示信息以红色标示 在训练流程上,由于缺乏可供直接蒸馏的高质量标注,研究员们设计了包含 SFT 和 RL 的两阶段价值预训练方案。SFT 阶段作为热身,帮助模型建立以估计价值为目标的基本推理模式;RL 阶段则通过真实奖励信号对初始偏差进行矫正,将推理能力真正落地到准确的价值估计上。经过这两阶段预训练的生成式 Critic,可以作为可靠组件进入与策略的联合 RL 训练。 实验与分析 研究员们将使用生成式 Critic 的 PPO 命名为 GenAC,在数学推理任务上展开了实验,并通过 6 个评测标准进行了深度评测。为了比较价值函数的影响,研究员们比较了使用判别式 Critic 的 VC-PPO,以及两种主流的无价值方法 GRPO 和 RLOO。 表1 : 验证基准上的最终性能(准确率 %) GenAC 以 51.90% 的平均准确率领先所有基准方法。从训练动态来看,价值建模本身就能带来显著优势,VC-PPO 与 GenAC 在训练早期均表现出更高的样本效率,模型能力迅速提升,而无价值方法由于细粒度信用分配的缺失,早期学习相对缓慢。然而,VC-PPO 的领先优势随着