智能AI morning

token级,精准控制生成长度:3B模型击败GPT 5.4、Claude

2026-05-08 1 阅读 新智元
新智元报道 编辑:LRST 【新智元导读】 LenVM将长度建模提升到token级别,开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型;相同token预算下推理准确率提升10倍(63% vs 6%);沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining Token 是现代自回归模型的基本计算单元,每一个都意味着前向传播、KV缓存占用、延迟累积和能耗。随着长链推理(long-CoT)和智能体工作流(agentic workflow)的兴起,生成长度直接牵动两件事:它是 推理成本 的核心变量,也影响 推理质量 ——更多 token 带来更多思考空间,过多则造成浪费。 现有的长度控制方法, 全都太粗糙了 :训练时加序列级惩罚,模型生成途中对「还剩多少」毫无感知;prompt 指令本质是「祈求」模型遵守,没有任何硬约束;预解码长度预测器只做一次性判断,之后无法动态调整。它们的共同局限是: 都在序列层面操作,而解码本身是逐token发生的 ——现有框架从未在这个粒度上建模剩余长度。 更深层地看,价值函数(value function)在强化学习中早已被证明是对「未来回报」建模的强大工具,然而长度从未被当作一个值函数量来看待——既没有配套的训练范式,也没有经过验证的 scaling 路径。 来自UC Santa Barbara和Apple等机构的研究团队提出了 Length Value Model(LenVM) ,同时回答了两个问题: ① 如何进行token级长度建模? 将生成长度建模转化为强化学习中的 价值估计(value estimation) 问题:对每个生成的 token 分配固定负奖励,折扣累加得到「剩余生成长度」的有界单调代理信号。这样,模型在每一个解码步都拥有一个明确的「还剩多远」的量化估计。 ② 如何做到可扩展的价值预训练(scalable value pretraining)? 这一构造天然带来四个对大规模预训练极为友好的性质: 无需标注(annotation-free),信号密集(dense),无偏(unbiased),可扩展(scalable)。 这意味着LenVM的训练本质上是一种 自监督过程 ——无需任何额外的人工标注或奖励模型,像预训练语言模型一样,只需「喂数据」就能持续变强。 论文:https://arxiv.org/abs/2604.27039 代码:https://github.com/eric-ai-lab/Length-Value-Model 项目主页:https://length-value-model.github.io/ Demo:https://length-value-model.github.io/demo/index.html 技术方案详解 核心思想:把剩余长度变成一个值函数 LenVM的核心思路简洁而优雅: 把生成长度当成一种成本。 给每个token分配固定的负奖励,剩余长度就自然成为一个值函数预测问题。 具体地,对每个非终止解码步t,分配固定负奖励: 对应的折扣回报为: 其中L是序列总长度,γ∈(0,1) 是折扣因子。这个回报具有三个关键性质: 有界: ,无论序列多长,目标值始终在固定范围内 单调: 越接近终止, 越靠近0;剩余越多,越靠近-1。值的大小直接编码还要走多远 Bellman 一致: 满足 ,完全契合标准值函数框架 由此定义的token级TD残差 ,直接度量了 当前token如何改变对剩余生成长度的预期 ——这是一个此前从未存在过的信号。 为什么不直接预测原始token数? 生成长度从几个token到32k不等,动态范围极大,难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0),同时保持严格单调,折扣因子γ是分辨率的调节旋钮:较大的γ在生成早期分辨率更高,较小的γ在接近终止时更精细。 可扩展的价值预训练:免标注、三轴 Scaling 这是 LenVM 区别于所有现有长度控制方法的核心优势,也是这项工作最值得关注的地方。 传统价值模型的规模上限由标注成本和质量锁死。LenVM完全绕开了这些瓶颈。训练目标由 token 级均方误差构成: 这是在序列的每一个 token 位置用该位置实际观测到的折扣剩余长度 做蒙特卡洛回归。监督信号完全由采样的 completion 自动生成,具备四个关键性质: 监督信号完全由采样的completion自动生成,具备四个关键性质: 实验验证了LenVM沿 三个轴 同步scaling: 模型规模(0.5B → 32B): 更大的模型始终带来更低的验证损失 训练prompt数(10k → 100k): 更广泛的数据覆盖