指标匹配：评估法学硕士法官可靠性的子集选择方法

摘要

15029v1 Announce Type: new Abstract: LLM judges are used to reduce the need for costly human labor in evaluating open-ended text generation。

for reliability the human with

2026-06-16 1 阅读约2分钟阅读 Alyssa Unell, Natalie Dullerud, Naomi Boneh, Meena Jagadeesan, Tatsu Hashimoto, Nigam Shah, Sanmi Koyejo

arXiv:2606.15029v1 公告类型：新摘要：LLM 法官用于减少评估开放式文本生成时对昂贵人力的需求。然而，这些评委的可靠性很大程度上取决于他们与人类评分者的一致性——这一特性本身就依赖于昂贵的人类注释。 In this work, we develop a method (Metric Match) for estimating correlation-based reliability metrics of LLM judges from limited annotations.度量匹配选择样本子集进行人工注释，使得该子集与所获取的合成标签的群体可靠性度量相匹配。我们的经验表明，Metric Match 在 4 个不同的相关性指标和 15 个数据集上相对于随机子集选择的胜率达到 0.838，平均估计误差降低了 18.7%，注释需求减少了 32.5%。 We provide a cost model and highlight a medical case study where our method saves $1,041.67 compared to random selection for expert annotation.此外，我们将任务从可靠性估计转移到对给定法官是否高于部署阈值的可靠性分类，优于使用指标匹配的随机选择。 All project code is publicly available, and we additionally provide an installable package for ease of use.

订阅66必读