跳过一层还是循环？法学硕士学习分层计划

摘要

06574v1 Announce Type: new Abstract: Large language models (LLMs) perform inference by following a fixed depth and order, non-recurrent execution of all layers。

layers that and the PoLar

2026-06-08 1 阅读约1分钟阅读 Ziyue Li, Yang Li, Tianyi Zhou

arXiv:2606.06574v1 公告类型：新摘要：大型语言模型（LLM）通过遵循固定深度和顺序、所有层的非循环执行来执行推理。我们揭示了免训练、灵活、动态的层程序（PoLar）的广泛存在，其中预训练层可以打包为模块，然后跳过或循环以形成每个输入的定制程序。对于大多数输入，更短的程序执行可以达到相同或更好的精度，而原始 LLM 的错误预测可以通过层数更少的替代程序来纠正。这些观察结果表明，推理允许超出标准前向传递的多个有效潜在计算。为了在实践中有效实现 PoLar，我们提出了一种轻量级 PoLar 预测网络，该网络学习生成执行程序，为每个输入动态跳过或重复预训练层。数学推理基准实验表明，与标准推理和先前的动态深度方法相比，Polar 持续提高了准确性，通常在执行更少的层时，并且这些增益在分布外评估下持续存在。我们的结果表明，固定深度执行只能捕获法学硕士潜在推理能力的一小部分。

订阅66必读