智能AI
morning
$ECUAS_n$:用于对不确定性增强系统进行原则评估的一系列指标
2026-05-22
1 阅读
Lautaro Estienne, Erik Ernst, Mat\'ias Vera, Pablo Piantanida, Luciana Ferrer
arXiv:2605.20490v2 公告类型:新 摘要:在高风险的自动化决策中,获取预测不确定性对于使用户(人类或下游系统)能够接受或拒绝基于特定于应用程序的成本权衡的预测至关重要。这种不确定性增强(UA)系统——即输出预测和不确定性分数的系统——目前在文献中以各种方式进行评估,使用单独的指标来评估预测和不确定性分数,设置具有固定拒绝成本的成本函数或在覆盖风险曲线上进行积分。我们认为这些评估方法不足以评估 UA 系统在不确定性下决策的整体性能,并提出了一个新的指标系列 $ECUAS_n$,它被制定为针对感兴趣的任务的适当评分规则。参数 $n$ 根据用例的需要控制错误预测的成本和不完美的不确定性之间的权衡。我们通过对各种分类和生成数据集(包括 TriviaQA 的手动注释子集)的实验,从理论和经验上证明了 $ECUAS_n$ 指标的优势。