区分培训后的能力激发和能力创造：自由能视角

arXiv:2605.08368v1 公告类型：新摘要：关于大型语言模型训练后的争论经常将监督微调（SFT）视为模仿，将强化学习（RL）视为发现。但这种区分太粗略了。重要的是训练过程是否增加了预训练模型已经产生的行为的概率，或者是否改变了模型实际上可以达到的目标。我们认为，培训后研究应该区分能力启发和能力创造。我们通过引入可访问支持的概念来使这种区别变得可操作：模型在有限预算下实际上可以产生的一组行为。在这种支持下重新衡量行为的培训后是能力启发；而改变支持本身就对应于能力的创造。我们通过训练后的自由能观点来阐述这一论点。 SFT 和 RL 都可以被视为对预训练的参考分布进行重新加权，只是使用不同的外部信号。演示信号定义了 SFT 的低能量行为，奖励信号定义了 RL 的低能量行为。当更新保持接近基本模型时，主要效果是局部重新加权，而不是能力创建。在这个框架内，核心问题不再是训练后是否被定义为 SFT 还是 RL，而是它是否重新衡量已经可以达到的行为，或者通过搜索、交互、工具使用或新信息的结合来扩展模型的可达到的行为空间。