智能AI
morning
大型语言模型中的置信度校准
2026-05-26
1 阅读
Noam Michael, Daniel BenShushan, Jacob Bien, Don A. Moore
arXiv:2605.23909v1 公告类型:新 摘要:我们研究了跨不同任务的大型语言模型(LLM)置信度的校准。我们预先注册的研究结果表明,目前的法学硕士和人一样,过于确信自己是对的:平均而言,信心超过了准确性。然而,重要的是,这种倾向受到强大的“难易效应”的影响,其中过度自信在困难的测试中最为明显。相比之下,简单的测试实际上显示出严重的不自信。我们开发了 LifeEval,这是一种用于评估不同难度级别的模型校准的测试。