智能AI morning

自动评分作为奖励:从隐式偏好到显式多模式生成标准

2026-05-12 1 阅读 Juanxi Tian, Fengyuan Liu, Jiaming Han, Yilei Jiang, Yongliang Wu, Yesheng Liu, Haodong Li, Furong Xu, Wanhua Li
arXiv:2605.08354v1 公告类型:新 摘要:将多模态生成模型与人类偏好保持一致需要尊重人类判断的组成、多维结构的奖励信号。流行的 RLHF 方法将这种结构简化为标量或成对标签,将细致入微的偏好压缩为不透明的参数代理,并暴露漏洞以奖励黑客攻击。虽然最近的评分标准作为奖励(RaR)方法试图通过明确的标准恢复这种结构,但生成同时可靠、可扩展和数据高效的评分标准仍然是一个悬而未决的问题。我们引入 Auto-Rubric 作为奖励(ARR),这是一个框架,它将奖励模型从隐式权重优化重新构建为显式的、基于标准的分解。在进行任何成对比较之前,ARR 将 VLM 的内化偏好知识外化为特定于提示的规则,将整体意图转化为独立可验证的质量维度。这种将隐式偏好结构转换为可检查、可解释的约束的方法大大抑制了包括位置偏差在内的评估偏差,从而在最小监督下实现了零样本部署和少样本调节。为了将这些收益扩展到生成训练中,我们提出了Rubric策略优化(RPO),它将ARR的结构化多维评估提炼为强大的二元奖励,用稳定策略梯度的Rubric条件偏好决策取代不透明的标量回归。在文本到图像生成和图像编辑基准上,ARR-RPO 优于成对奖励模型和 VLM 判断,表明将隐式偏好知识显式外化到结构化量规中可以实现更可靠、数据效率更高的多模态对齐,这表明瓶颈在于缺乏因子化接口,而不是知识缺乏。