智能AI
morning
Elmes*:长尾教育场景中大型语言模型细粒度评估标准的自动构建
2026-06-08
1 阅读
Tao Liu, Ye Lu, Ruohua Zhang, Siyu Song, Wentao Liu, Aimin Zhou, Hao Hao
arXiv:2606.06546v1 公告类型:新 摘要:评估教育用大型语言模型 (LLM) 需要衡量模型的教学方式,而不仅仅是模型所知道的内容。现有的基准强调领域通用的正确性,或者依赖于手动设计的标准,这些标准很难适应长尾教学场景。我们引入 Elmes*,这是一个用于构建、完善和应用细粒度的特定场景规则的端到端框架。 Elmes* 将用于教师-学生-法官互动的声明性多智能体引擎与 SceneGen 相结合,SceneGen 是一个自我进化的模块,可共同优化评估标准和来自专家定义的教学维度的测试数据。我们使用 Elmes* 构建了 Edu-330,涵盖 11 个科目、3 个年级范围和 10 个任务类型的 330 个场景,拥有超过 1{,}000 个二级指标。 Edu-330 和四个专家编写的黄金标准场景的实验表明,教育能力是多维的:顶级法学硕士的差异主要在于创造力和价值观整合,知识强的模型可能会在苏格拉底脚手架上失败,而教育专业的 InnoSpark 取得了最佳的人类评估平均分。法学硕士法官保留了与人类可比的排名,评分方差要低得多,但表现出法官特有的偏见,例如自我偏好。消融表明,专家评分的小样本锚定改善了人类与法学硕士的对齐,而推理执行和贪婪解码则依赖于模型。因此,Elmes* 为基于教学的法学硕士评估提供了可扩展的诊断基础设施。