了解具有可解释性的注释器安全策略

arXiv:2605.05329v1 公告类型：新摘要：安全策略定义了安全和不安全的人工智能输出的构成，指导数据注释和模型开发。然而，注释分歧普遍存在，可能源于多种原因，例如操作失败（注释者误解或错误执行任务）、政策模糊性（政策措辞留有解释空间）或价值多元化（不同注释者对安全持有不同观点）。区分这些来源很重要。例如，运营失败需要质量控制，模糊性需要政策澄清，多元化需要审议纳入不同的观点。然而理解注释者为何不同意是很困难的。直接询问注释者的推理成本高昂，大大增加注释负担，并且对于人类和法学硕士注释者来说都是不可靠的，因为自我报告的推理通常无法反映实际的决策过程。我们引入了注释器策略模型（APM），这是一种可解释的模型，仅通过标记行为来学习注释器的内部安全策略，使注释器推理可见且可比较，而无需额外的注释工作。我们验证 APM 能够准确地对注释器安全策略进行建模（>80% 的准确度），忠实地预测对反事实编辑的响应，并恢复受控设置中的已知策略差异。将 APM 应用于 LLM 和人工注释，我们展示了两个核心应用：（1）通过揭示注释者如何以不同方式解释安全指令来揭示政策模糊性，以及（2）通过揭示不同人口群体的安全优先级的系统差异来揭示价值多元化。这些功能共同支持更有针对性、透明和包容性的安全政策设计。