自动评分作为奖励：从隐式偏好到显式多模式生成标准

arXiv:2605.08354v1 公告类型：新摘要：将多模态生成模型与人类偏好保持一致需要尊重人类判断的组成、多维结构的奖励信号。流行的 RLHF 方法将这种结构简化为标量或成对标签，将细致入微的偏好压缩为不透明的参数代理，并暴露漏洞以奖励黑客攻击。虽然最近的评分标准作为奖励（RaR）方法试图通过明确的标准恢复这种结构，但生成同时可靠、可扩展和数据高效的评分标准仍然是一个悬而未决的问题。我们引入 Auto-Rubric 作为奖励（ARR），这是一个框架，它将奖励模型从隐式权重优化重新构建为显式的、基于标准的分解。在进行任何成对比较之前，ARR 将 VLM 的内化偏好知识外化为特定于提示的规则，将整体意图转化为独立可验证的质量维度。这种将隐式偏好结构转换为可检查、可解释的约束的方法大大抑制了包括位置偏差在内的评估偏差，从而在最小监督下实现了零样本部署和少样本调节。为了将这些收益扩展到生成训练中，我们提出了Rubric策略优化（RPO），它将ARR的结构化多维评估提炼为强大的二元奖励，用稳定策略梯度的Rubric条件偏好决策取代不透明的标量回归。在文本到图像生成和图像编辑基准上，ARR-RPO 优于成对奖励模型和 VLM 判断，表明将隐式偏好知识显式外化到结构化量规中可以实现更可靠、数据效率更高的多模态对齐，这表明瓶颈在于缺乏因子化接口，而不是知识缺乏。