智能AI
morning
将预测未来行为作为一项学习任务
2026-06-11
1 阅读
Mosh Levy, Yoav Goldberg, Asa Cooper Stickland
arXiv:2606.11445v1 公告类型:新 摘要:对人工智能系统的信任通常取决于对其工作原理的解释,然后使用该解释来预测其在新输入下的行为。对于大型推理模型(LRM),这种传统的路线特别难以遵循:单个标记生成的解释方法不能自然地推广到长轨迹,并且当作为自然语言阅读时,轨迹本身通常不忠实。我们提出了一种绕过解释步骤的替代方案:将行为预测视为一项可学习的任务,并训练在单一推理轨迹上运行的行为预测器,以做出人们通常从解释中寻求的相同预测。预测器的训练数据是通过查询 LRM 获得的,无需人工注释,并且其推理是在单次前向传递中完成的。我们在两个任务上实例化这种方法:LRM 在重新运行时重复其答案的可能性有多大,以及删除部分输入如何改变其答案。我们在三个不同的推理数据集上对这两项任务评估了这种方法,发现经过训练的行为预测器比 GPT-5.4 和 Claude Opus-4.6 更准确,它们与天真的读者读取相同的轨迹,而推理成本只是其一小部分。我们发现,端到端微调骨干网并从目标 LRM 初始化它对于获得强大的性能都是必要的。这些结果表明,推理轨迹携带的有关 LRM 未来行为的信息超出了天真的阅读所传达的信息。