将预测未来行为作为一项学习任务

摘要

11445v1 Announce Type: new Abstract: Trust in an AI system is often anchored by explanations of how it works, which one then uses to forecast its behavior on new inputs。

the and that its reasoning

2026-06-11 1 阅读约1分钟阅读 Mosh Levy, Yoav Goldberg, Asa Cooper Stickland

arXiv:2606.11445v1 公告类型：新摘要：对人工智能系统的信任通常取决于对其工作原理的解释，然后使用该解释来预测其在新输入下的行为。对于大型推理模型（LRM），这种传统的路线特别难以遵循：单个标记生成的解释方法不能自然地推广到长轨迹，并且当作为自然语言阅读时，轨迹本身通常不忠实。我们提出了一种绕过解释步骤的替代方案：将行为预测视为一项可学习的任务，并训练在单一推理轨迹上运行的行为预测器，以做出人们通常从解释中寻求的相同预测。预测器的训练数据是通过查询 LRM 获得的，无需人工注释，并且其推理是在单次前向传递中完成的。我们在两个任务上实例化这种方法：LRM 在重新运行时重复其答案的可能性有多大，以及删除部分输入如何改变其答案。我们在三个不同的推理数据集上对这两项任务评估了这种方法，发现经过训练的行为预测器比 GPT-5.4 和 Claude Opus-4.6 更准确，它们与天真的读者读取相同的轨迹，而推理成本只是其一小部分。我们发现，端到端微调骨干网并从目标 LRM 初始化它对于获得强大的性能都是必要的。这些结果表明，推理轨迹携带的有关 LRM 未来行为的信息超出了天真的阅读所传达的信息。

订阅66必读