大型语言模型中的置信度校准

摘要

23909v1 Announce Type: new Abstract: We investigate the calibration of large language models' (LLMs') confidence across diverse tasks。

the calibration LLMs confidence across

2026-05-26 1 阅读约1分钟阅读 Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore

arXiv:2605.23909v1 公告类型：新摘要：我们研究了跨不同任务的大型语言模型（LLM）置信度的校准。我们预先注册的研究结果表明，目前的法学硕士和人一样，过于确信自己是对的：平均而言，信心超过了准确性。然而，重要的是，这种倾向受到强大的“难易效应”的影响，其中过度自信在困难的测试中最为明显。相比之下，简单的测试实际上显示出严重的不自信。我们开发了 LifeEval，这是一种用于评估不同难度级别的模型校准的测试。

订阅66必读