智能AI
morning
多模态大模型别盲目刷题!诊断-生成-强化闭环,找准盲点 | ICML'26
2026-05-18
1 阅读
新智元
新智元报道 【新智元导读】 多模态大模型越来越会「看图、读表、解题」,但一个关键问题长期存在:模型到底缺什么能力?下一轮训练又该重点补哪里? 过去,多数多模态大模型的训练方式更像「题海战术」——准备一批固定数据,不断重复训练;或者继续扩充题目,再进行新一轮微调。这样的方式确实能带来性能提升,但也存在两个明显问题。 首先,缺少对模型能力的精准诊断。模型可能在数学图表、OCR、空间推理等长尾任务上存在短板,但研究者往往很难准确定位这些问题,更难有针对性地补强。 其次,训练数据里的视觉内容长期缺乏真正扩展。很多工作虽然不断改写文本问题,但配套图像依然来自有限的数据集合,模型看到的「视觉世界」其实并没有变得更加丰富。 结果就是,模型在高频任务上越练越熟,在真正复杂、稀有、模型本身并不擅长的任务上却很容易停滞,甚至出现「越训练越退步」的现象。 针对这一问题,来自北京大学、山东大学的研究团队提出了一种新的多模态大模型训练框架: Diagnostic-driven Progressive Evolution(DPE), 该工作一经发布便引发广泛关注,并登上Hugging Face Daily Papers热度日榜第二,周榜第五。 论文链接:https://arxiv.org/abs/2602.22859 代码:https://github.com/hongruijia/DPE DPE的核心思想很直观: 不要让模型盲目刷题,而是先测试、找错因,再围绕短板生成训练数据,最后用强化学习做针对性提升。 换句话说,它把人类学习中的「查漏补缺」搬进了多模态大模型训练:模型每进化一轮,都要先接受诊断; 诊断系统会判断它在哪些能力维度上薄弱,比如数学公式、图表理解、OCR、医学图像、空间地图、多图对齐等; 随后,多智能体系统会根据这些诊断结果去检索、编辑和构造新的图像-问题-答案样本; 最后,模型基于这些更有针对性的样本完成强化学习更新,并进入下一轮诊断。 「诊断-造题-强化」的闭环 DPE的整体流程可以概括成三步: 诊断、生成、训练 。 第一步是诊断。 系统先让当前模型做一组覆盖不同能力维度的多模态题目,并分析失败样本。诊断模块会输出每一类任务的采样比例,也就是下一轮训练应该把更多数据预算投向哪些弱项。 具体而言,论文将多模态逻辑推理划分为 12 个能力维度,包括几何图像、医学图像、统计图表、文本密集图像、流程图、数学公式、空间地图、自然场景、日常物体、艺术作品、建筑图像以及其他类别。每一轮训练开始前,DPE 会从诊断池中抽取 200 个样本,让当前模型作答,再由诊断智能体对答案的推理步骤和最终结果进行评估。 诊断的目标不只是打分,而是生成一份结构化报告:哪些类别准确率低?错误主要集中在哪些模式?下一轮数据应该增加哪类样本?问题难度和答案格式又该如何设计? 例如,诊断系统可能发现模型在图表任务中经常忽略坐标轴单位,在 OCR 任务中容易漏掉细小文字,在数学题中会跳过关键推导步骤,在多图任务中常常把实体对应关系搞错。这些错误模式会被直接写入下一轮数据生成指令。 第二步是生成。 DPE 不是简单改写原有问题,也不是只在固定图像上换问法,而是引入一个多智能体问题生成系统。这个系统由四类智能体组成:Planner Agent、Image Selector Agent、Question Generator Agent 和 Validation Agent。 Planner Agent 负责把诊断报告转化成可执行的数据生成计划; Image Selector Agent 根据计划从外部图像池检索图片,并可借助图像编辑工具进行适度重组和增强; Question Generator Agent 负责围绕图像生成问题和参考答案; Validation Agent 则像一道质量闸门,检查样本是否类别一致、信息完整、答案可验证、格式合规。 这种设计解决了自进化训练中的一个关键瓶颈: 模型不能只在旧图上自问自答,而要不断接触新的视觉内容。 更重要的是,这套生成系统并不是让智能体「自由发挥」,而是把诊断结果转化成一组可执行约束:每一轮先确定各能力类别的生成配额,再由 Planner 规定图像需求、问题类型、答案格式和难度方向; Image Selector 从外部图像池检索、筛选,并在需要时进行裁剪、拼接和重组; Validation Agent 则对类别一致性、信息完整性、答案可验证性和格式合规性逐项把关。这样生成出来的样本既能对准模型当前弱项,又能控制质量和分布,避免新数据把训练带偏。 第三步是训练。 DPE 使用带可验证奖励的 GRPO 强化学习来更新目标多模态大模型。一个重要细节是,DPE 会过滤掉太简单或太难的样本,优先保留「中等难度」的题目。直观来说,模型已经会的题没有太大学习价值,完全不会的题又可能带来噪声;最适合训练的是那些模型有机会学会、但当前还不稳定的样本。 完成一轮更新后,模型会再次进入诊断环节。于是,DPE 形成了一个螺旋式迭代: 模型暴露盲点 -> 系统生成针对性数据 -> 强化学习修补短板 -> 再诊断新的盲点。 实验结果 能力全面提升、训练更稳、可迁移 研究团队在两个开源多模态大模型上验证了 DPE:Qwen2.5-VL-7B-Instruct 和 Qwen3-VL-8B-Instruct。评测覆盖 11 个具有挑战性的多模态基准,包括 STEM、视觉数学、OCR、多图理解和幻觉抑制等方向。 主实验结果可以概括为三点。 第一,DPE 带来了更全面的能力提升。 在 Qwen2.5-VL-7B-Instruct 上,DPE 经过三轮迭代后,整体平均分从 57.29 提升到 59.29。其中,MMMU 从 53.11 提升到 56.44,CharXivRQ 从 36.80 提升到 40.91,MathVista 从 65.50 提升到 69.50,覆盖 STEM、OCR 和视觉数学等多个方向。 第二,DPE 的训练动态更稳。 相比 VisPlay 在部分基准上出现波动甚至回退,DPE 在三轮迭代中整体趋势更平滑。例如在 Qwen2.5-VL-7B-Instruct 上,DPE 的 MMMU 从 54.44 连续提升到 55.33、56.44;CharXivRQ 也从 37.70、38.10 继续提升到 40.91。这说明诊断闭环不只是带来短期增益,也能降低自进化训练中常见的分布漂移和性能震荡。 第三,DPE 具有可迁移性。 在更强的 Qwen3-VL-8B-Instruct 上,DPE 仍然带来明显收益:整体平均分从 65.64 提升到 68.04,MMMU 从 65.44 提升到 69.11,MMStar 从 61.27 提升到 72.13。这意味着,DPE 并不是只适用于某一个基座模型,而是可以作为一种更通用的诊断驱动训练范式。 更值得注意的是,在论文报告的若干对比中,DPE 增强后的 Qwen3-VL-8B-Instruct 在所选 7 项指标上的平均分达到 64.39,高于 Qwen2.5-VL-72B 的 61.9 和 GPT-4o 的 56.1,也略高于 Claude4-Sonnet 的 64.1。这表明