智能AI
morning
跳过一层还是循环?法学硕士学习分层计划
2026-06-08
1 阅读
Ziyue Li, Yang Li, Tianyi Zhou
arXiv:2606.06574v1 公告类型:新摘要:大型语言模型(LLM)通过遵循固定深度和顺序、所有层的非循环执行来执行推理。我们揭示了免训练、灵活、动态的层程序(PoLar)的广泛存在,其中预训练层可以打包为模块,然后跳过或循环以形成每个输入的定制程序。对于大多数输入,更短的程序执行可以达到相同或更好的精度,而原始 LLM 的错误预测可以通过层数更少的替代程序来纠正。这些观察结果表明,推理允许超出标准前向传递的多个有效潜在计算。为了在实践中有效实现 PoLar,我们提出了一种轻量级 PoLar 预测网络,该网络学习生成执行程序,为每个输入动态跳过或重复预训练层。数学推理基准实验表明,与标准推理和先前的动态深度方法相比,Polar 持续提高了准确性,通常在执行更少的层时,并且这些增益在分布外评估下持续存在。我们的结果表明,固定深度执行只能捕获法学硕士潜在推理能力的一小部分。