token级，精准控制生成长度：3B模型击败GPT 5.4、Claude

新智元报道编辑：LRST 【新智元导读】 LenVM将长度建模提升到token级别，开辟可扩展价值预训练的新维度——3B开源模型精确长度控制全面击败GPT-5.4、Claude-Opus-4-6等顶级闭源模型；相同token预算下推理准确率提升10倍（63% vs 6%）；沿模型规模、数据量、采样数三轴无饱和scaling的value pretraining Token 是现代自回归模型的基本计算单元，每一个都意味着前向传播、KV缓存占用、延迟累积和能耗。随着长链推理（long-CoT）和智能体工作流（agentic workflow）的兴起，生成长度直接牵动两件事：它是推理成本的核心变量，也影响推理质量 ——更多 token 带来更多思考空间，过多则造成浪费。现有的长度控制方法，全都太粗糙了：训练时加序列级惩罚，模型生成途中对「还剩多少」毫无感知；prompt 指令本质是「祈求」模型遵守，没有任何硬约束；预解码长度预测器只做一次性判断，之后无法动态调整。它们的共同局限是：都在序列层面操作，而解码本身是逐token发生的 ——现有框架从未在这个粒度上建模剩余长度。更深层地看，价值函数（value function）在强化学习中早已被证明是对「未来回报」建模的强大工具，然而长度从未被当作一个值函数量来看待——既没有配套的训练范式，也没有经过验证的 scaling 路径。来自UC Santa Barbara和Apple等机构的研究团队提出了 Length Value Model（LenVM），同时回答了两个问题： ① 如何进行token级长度建模？将生成长度建模转化为强化学习中的价值估计（value estimation）问题：对每个生成的 token 分配固定负奖励，折扣累加得到「剩余生成长度」的有界单调代理信号。这样，模型在每一个解码步都拥有一个明确的「还剩多远」的量化估计。 ② 如何做到可扩展的价值预训练（scalable value pretraining）？这一构造天然带来四个对大规模预训练极为友好的性质：无需标注（annotation-free），信号密集（dense），无偏（unbiased），可扩展（scalable）。这意味着LenVM的训练本质上是一种自监督过程 ——无需任何额外的人工标注或奖励模型，像预训练语言模型一样，只需「喂数据」就能持续变强。论文：https://arxiv.org/abs/2604.27039 代码：https://github.com/eric-ai-lab/Length-Value-Model 项目主页：https://length-value-model.github.io/ Demo：https://length-value-model.github.io/demo/index.html 技术方案详解核心思想：把剩余长度变成一个值函数 LenVM的核心思路简洁而优雅：把生成长度当成一种成本。给每个token分配固定的负奖励，剩余长度就自然成为一个值函数预测问题。具体地，对每个非终止解码步t，分配固定负奖励：对应的折扣回报为：其中L是序列总长度，γ∈(0,1) 是折扣因子。这个回报具有三个关键性质：有界：，无论序列多长，目标值始终在固定范围内单调：越接近终止，越靠近0；剩余越多，越靠近-1。值的大小直接编码还要走多远 Bellman 一致：满足，完全契合标准值函数框架由此定义的token级TD残差，直接度量了当前token如何改变对剩余生成长度的预期 ——这是一个此前从未存在过的信号。为什么不直接预测原始token数？生成长度从几个token到32k不等，动态范围极大，难以直接回归。折扣回报变换将高度可变的原始长度映射到固定范围(-1, 0)，同时保持严格单调，折扣因子γ是分辨率的调节旋钮：较大的γ在生成早期分辨率更高，较小的γ在接近终止时更精细。可扩展的价值预训练：免标注、三轴 Scaling 这是 LenVM 区别于所有现有长度控制方法的核心优势，也是这项工作最值得关注的地方。传统价值模型的规模上限由标注成本和质量锁死。LenVM完全绕开了这些瓶颈。训练目标由 token 级均方误差构成：这是在序列的每一个 token 位置用该位置实际观测到的折扣剩余长度做蒙特卡洛回归。监督信号完全由采样的 completion 自动生成，具备四个关键性质：监督信号完全由采样的completion自动生成，具备四个关键性质：实验验证了LenVM沿三个轴同步scaling：模型规模（0.5B → 32B）：更大的模型始终带来更低的验证损失训练prompt数（10k → 100k）：更广泛的数据覆盖