Elmes*：长尾教育场景中大型语言模型细粒度评估标准的自动构建

摘要

06546v1 Announce Type: new Abstract: Evaluating large language models (LLMs) for education requires measuring how models teach, not only what they know。

and for that Elmes models

2026-06-08 1 阅读约1分钟阅读 Tao Liu, Ye Lu, Ruohua Zhang, Siyu Song, Wentao Liu, Aimin Zhou, Hao Hao

arXiv:2606.06546v1 公告类型：新摘要：评估教育用大型语言模型 (LLM) 需要衡量模型的教学方式，而不仅仅是模型所知道的内容。现有的基准强调领域通用的正确性，或者依赖于手动设计的标准，这些标准很难适应长尾教学场景。我们引入 Elmes*，这是一个用于构建、完善和应用细粒度的特定场景规则的端到端框架。 Elmes* 将用于教师-学生-法官互动的声明性多智能体引擎与 SceneGen 相结合，SceneGen 是一个自我进化的模块，可共同优化评估标准和来自专家定义的教学维度的测试数据。我们使用 Elmes* 构建了 Edu-330，涵盖 11 个科目、3 个年级范围和 10 个任务类型的 330 个场景，拥有超过 1{,}000 个二级指标。 Edu-330 和四个专家编写的黄金标准场景的实验表明，教育能力是多维的：顶级法学硕士的差异主要在于创造力和价值观整合，知识强的模型可能会在苏格拉底脚手架上失败，而教育专业的 InnoSpark 取得了最佳的人类评估平均分。法学硕士法官保留了与人类可比的排名，评分方差要低得多，但表现出法官特有的偏见，例如自我偏好。消融表明，专家评分的小样本锚定改善了人类与法学硕士的对齐，而推理执行和贪婪解码则依赖于模型。因此，Elmes* 为基于教学的法学硕士评估提供了可扩展的诊断基础设施。

订阅66必读