智能AI morning

通过全环路变压器简单地稳定环路

2026-05-20 1 阅读 Rao Fu, Zixuan Yang, Jiankun Zhang, Jing Ma, Hechang Chen, Yu Li, Yi Chang
arXiv:2605.18797v1 公告类型:新 摘要:扩展模型性能通常需要增加模型大小。 Looped Transformer 通过迭代地重用相同的 Transformer 块,在不增加参数数量或上下文长度的情况下,用额外的计算来提高性能,从而提供了一种引人注目的替代方案。由于循环迭代次数可以在推理时调整,因此它还提供了平衡性能和测试时计算的自然机制。然而,当循环迭代次数增加时,Looped Transformer 仍然会遇到训练不稳定的问题。我们的分析表明,这种不稳定性源于两个来源:梯度振荡和残余爆炸。为了解决这两个问题,我们提出了全循环变压器,它引入了两个无参数修改:(1)全循环架构,它将环路间信号分布在所有层上以减轻残留爆炸; (2)注意力注入,复用现有的注意力块来抑制梯度振荡。这些修改稳定了训练动态,使全循环 Transformer 能够稳定地训练最多 12 次循环迭代,而其他基线循环模型在此状态下崩溃。在 Looped Transformer 不会崩溃的较温和环境中,Fully Looped Transformer 仍可将平均下游任务性能提高高达 13.2%。总的来说,我们的实验表明,Fully Looped Transformer 提高了训练稳定性,增强了下游性能,并通过改变推理时的循环迭代,在不同的测试时间计算预算下提供了初步的适应性。