智能AI
morning
CELEUS:通过电子流程进行可认证且高效的法学硕士评估
2026-06-23
1 阅读
Zhijian Zhou, Zesheng Ye, Zhaorun Chen, Bo Li, Feng Liu
arXiv:2606.20820v1 公告类型:新 摘要:我们可以相信评估分数能够反映法学硕士的真实表现吗?可认证的评估通过为LLM评估提供保证来回答这个问题。特别是,现有的方法依次策划评估样本并不断更新以高概率(例如,95%)覆盖真实性能的置信区间(CI),直到满足某些条件,例如 CI 宽度达到目标精度。然而,现有方法通常并非随时有效:当重复更新 CI 并用于决定何时停止时,所声称的覆盖率(例如 95%)可能会失败,从而在理论严谨性和实践之间留下差距。本文通过提出 Celeus 来弥补这一差距,Celeus 是一个用于高效 LLM 评估的可认证框架,它利用电子流程来构建随时有效的 CI。具体来说,我们提出了结合两种成分的信号:(i)不确定性引导采样来选择信息样本进行评估,以及(ii)针对未评估样本的替代辅助近似。我们证明,此类信号对于以过去为条件的评估分数保持无偏,从而实现基于统计且随时有效的 $e$ 流程 CI。更重要的是,这两种成分减少了估计方差,有助于以更少的评估样本达到目标精度。我们还证明了 Celeus 获得的 CI 可以以接近参数的速率收缩到对数因子,并分析了激发经验不确定性引导的预言机方差最优抽样规则。实验表明,Celeus 使用比基线少 54-62% 的评估样本达到了目标精度,同时保留了随时有效的覆盖范围。