法学硕士分布外对齐失败的基准测试和改进监视器

摘要

arXiv:2605.21602v1 Announce Type: new Abstract: Many safety and alignment failures of large language models (LLMs) occur due to out-of-distribution (OOD) situations: unusual prompt or response pattern

OOD that and model guard

2026-05-23 1 阅读约1分钟阅读 Dylan Feng, Pragya Srivastava, Cassidy Laidlaw

arXiv:2605.21602v1 公告类型：新摘要：大型语言模型 (LLM) 的许多安全和对齐失败是由于分布外 (OOD) 情况而发生的：模型开发人员无法预见的异常提示或响应模式。我们系统地研究了 LLM 监控管道是否可以通过引入称为分布失调 (MOOD) 的基准来检测这些 OOD 对齐失败。对于在大量安全数据集上训练的现成模型来说，很难找到真正 OOD 的故障。我们通过在 MOOD 中包含一个用于训练我们自己的监视器的受限训练集，以及在训练分布之外的具有不同对齐失败的七个测试集来回避这一点。使用 MOOD，我们发现防护模型（安全分类器）通常无法泛化 OOD。为了解决这个问题，我们建议将防护模型与 OOD 检测器相结合。我们测试了四种类型的 OOD 检测器，发现结合马氏距离的防护模型和基于困惑的 OOD 检测器可以将召回率从 39% 提高到 45%。我们还为结合了防护模型和 OOD 检测器的监视器建立了跨模型尺度的积极缩放趋势；我们发现，将 OOD 检测纳入监控可实现比使用参数多 20 倍的保护模型更高的召回增益。我们的工作表明，OOD 检测应该是 LLM 监控的重要组成部分，并为进一步解决这一重要问题奠定了基础。

订阅66必读