Geometry-Lite：通过分层边缘几何进行可解释的安全探测

arXiv:2605.20241v1 公告类型：新摘要：大型语言模型的提示级安全探针使用隐藏状态表示来分离安全和不安全的提示，但强大的平均检测性能并不能解释这种分离的几何结构。特别是，目前尚不清楚如何跨层形成安全证据，分层几何的哪些方面支持低误报决策，以及哪些几何偏差在基准变化下保持稳定。我们将其作为经验分解问题进行研究，并引入 Geometry-Lite，这是一种紧凑的提示级探针，它将每层的最终提示标记表示映射到质心、局部邻域和监督线性边界读数下的有符号边缘，然后通过边界位置、层间变化和粗略形状总结生成的边缘轮廓。通过九个指令调整的主干（$1.2$B--$70$B）和七个安全基准，Geometry-Lite 改进了单层探针，同时保持接近原始多层分数堆叠，使其成为分析多层安全信号的有用工具。分解表明，安全证据主要通过持久的边界位置几何来表达：最终或极值边界和不安全侧层占用主导着总体检测性能。相比之下，有限差分漂移和结构摘要对合并的 AUROC 几乎没有增加，尽管漂移可以在移动的低 FPR 阈值下提供小的面向召回的校正。在基准偏移下，优化的线性边界在训练混合物上很清晰，而类条件平均几何在预定义的硬保留子集上更可靠地保留分离。总体而言，即时级安全证据主要不是层间运动信号，而是持久的分层边缘几何结构，其有用组件和读出级偏差在决策关键制度中变得可见。

订阅66必读