通过示例预测符号和提示程序的性能

摘要

21515v1 Announce Type: new Abstract: LLM prompting is widely used for naturally stated tasks, yet it is unreliable it may succeed on a few test cases but fail at deployment time。

programs performance and tasks prompt

2026-05-23 1 阅读约1分钟阅读 Chengqi Zheng, Keya Hu, Shuzhi Liu, Tao Wu, Kevin Ellis, Yewen Pu

arXiv:2605.21515v1 公告类型：新摘要：LLM 提示广泛用于自然陈述的任务，但它并不可靠，它可能在一些测试用例上成功，但在部署时失败。我们研究性能预测：给定一个程序，无论是符号程序（例如Python）还是在LLM上执行的提示，以及一些域内示例，预测其在同一域中未见过的任务上的性能。我们使用一个简单的抛硬币模型，将每次通过/失败的程序执行视为伯努利随机变量，其成功概率是程序的未知性能。在此模型中，性能完全取决于：1）观察到的测试用例执行结果，2）先验性能。我们从不同程序和任务的语料库中编译了经验性能先验，发现符号程序（例如Python）的性能要么全有要么全无，而提示程序则与许多几乎正确的程序具有分散的先验。这种差异解释了为什么一些通过的测试可以验证符号程序但不能验证提示程序。基于这一见解，我们开发了 RAP（检索近似先验），它从现有语料库中检索相似的任务并提示程序来构建代理先验，然后用于预测性能。我们展示了 RAP 取得了扎实的表演。

订阅66必读