智能AI morning

DisaBench:语言模型中残疾危害的参与式评估框架

2026-05-14 1 阅读 Eugenia Kim, Ioana Tanase, Christina Mallon
arXiv:2605.12702v1 公告类型:新 摘要:大型语言模型的通用安全基准不能充分评估与残疾相关的危害。我们介绍了 DisaBench:与残疾人和红队专家共同创建的 12 种残疾伤害类别的分类法,一种分类法驱动的评估方法,可将七个生活领域的良性和对抗性提示配对,以及包含 175 个提示的数据集,并在 525 个提示-响应对上带有人工注释的标签。四位具有残疾经验的评估员的注释揭示了三个发现:伤害率因残疾类型而异,并且会以非文本形式复合,术语驱动的伤害受文化和时间的限制,而不是普遍可评估的,标准安全评估发现了明显的失败,但忽略了只有领域专业知识才能识别的微妙伤害。残疾伤害同时是个人的、交叉的和社区定义的:它不能与一个人是谁的完整背景隔离开来,通用基准系统地忽略了它。我们将通过 Hugging Face 和开源红队框架发布数据集、分类法和方法,以便直接集成到现有安全管道中,无需额外的基础设施。