DisaBench：语言模型中残疾危害的参与式评估框架

2026-05-14 1 阅读 Eugenia Kim, Ioana Tanase, Christina Mallon

arXiv:2605.12702v1 公告类型：新摘要：大型语言模型的通用安全基准不能充分评估与残疾相关的危害。我们介绍了 DisaBench：与残疾人和红队专家共同创建的 12 种残疾伤害类别的分类法，一种分类法驱动的评估方法，可将七个生活领域的良性和对抗性提示配对，以及包含 175 个提示的数据集，并在 525 个提示-响应对上带有人工注释的标签。四位具有残疾经验的评估员的注释揭示了三个发现：伤害率因残疾类型而异，并且会以非文本形式复合，术语驱动的伤害受文化和时间的限制，而不是普遍可评估的，标准安全评估发现了明显的失败，但忽略了只有领域专业知识才能识别的微妙伤害。残疾伤害同时是个人的、交叉的和社区定义的：它不能与一个人是谁的完整背景隔离开来，通用基准系统地忽略了它。我们将通过 Hugging Face 和开源红队框架发布数据集、分类法和方法，以便直接集成到现有安全管道中，无需额外的基础设施。