智能AI morning

了解具有可解释性的注释器安全策略

2026-05-09 1 阅读 Alex Oesterling, Donghao Ren, Yannick Assogba, Dominik Moritz, Sunnie S. Y. Kim, Leon Gatys, Fred Hohman
arXiv:2605.05329v1 公告类型:新 摘要:安全策略定义了安全和不安全的人工智能输出的构成,指导数据注释和模型开发。然而,注释分歧普遍存在,可能源于多种原因,例如操作失败(注释者误解或错误执行任务)、政策模糊性(政策措辞留有解释空间)或价值多元化(不同注释者对安全持有不同观点)。区分这些来源很重要。例如,运营失败需要质量控制,模糊性需要政策澄清,多元化需要审议纳入不同的观点。然而理解注释者为何不同意是很困难的。直接询问注释者的推理成本高昂,大大增加注释负担,并且对于人类和法学硕士注释者来说都是不可靠的,因为自我报告的推理通常无法反映实际的决策过程。我们引入了注释器策略模型(APM),这是一种可解释的模型,仅通过标记行为来学习注释器的内部安全策略,使注释器推理可见且可比较,而无需额外的注释工作。我们验证 APM 能够准确地对注释器安全策略进行建模(>80% 的准确度),忠实地预测对反事实编辑的响应,并恢复受控设置中的已知策略差异。将 APM 应用于 LLM 和人工注释,我们展示了两个核心应用:(1)通过揭示注释者如何以不同方式解释安全指令来揭示政策模糊性,以及(2)通过揭示不同人口群体的安全优先级的系统差异来揭示价值多元化。这些功能共同支持更有针对性、透明和包容性的安全政策设计。