智能AI
morning
区分培训后的能力激发和能力创造:自由能视角
2026-05-12
1 阅读
Yuhao Li, Shengchao Liu
arXiv:2605.08368v1 公告类型:新 摘要:关于大型语言模型训练后的争论经常将监督微调(SFT)视为模仿,将强化学习(RL)视为发现。但这种区分太粗略了。重要的是训练过程是否增加了预训练模型已经产生的行为的概率,或者是否改变了模型实际上可以达到的目标。我们认为,培训后研究应该区分能力启发和能力创造。我们通过引入可访问支持的概念来使这种区别变得可操作:模型在有限预算下实际上可以产生的一组行为。在这种支持下重新衡量行为的培训后是能力启发;而改变支持本身就对应于能力的创造。我们通过训练后的自由能观点来阐述这一论点。 SFT 和 RL 都可以被视为对预训练的参考分布进行重新加权,只是使用不同的外部信号。演示信号定义了 SFT 的低能量行为,奖励信号定义了 RL 的低能量行为。当更新保持接近基本模型时,主要效果是局部重新加权,而不是能力创建。在这个框架内,核心问题不再是训练后是否被定义为 SFT 还是 RL,而是它是否重新衡量已经可以达到的行为,或者通过搜索、交互、工具使用或新信息的结合来扩展模型的可达到的行为空间。