多模态大模型别盲目刷题！诊断-生成-强化闭环，找准盲点

新智元报道【新智元导读】多模态大模型越来越会「看图、读表、解题」，但一个关键问题长期存在：模型到底缺什么能力？下一轮训练又该重点补哪里？过去，多数多模态大模型的训练方式更像「题海战术」——准备一批固定数据，不断重复训练；或者继续扩充题目，再进行新一轮微调。这样的方式确实能带来性能提升，但也存在两个明显问题。首先，缺少对模型能力的精准诊断。模型可能在数学图表、OCR、空间推理等长尾任务上存在短板，但研究者往往很难准确定位这些问题，更难有针对性地补强。其次，训练数据里的视觉内容长期缺乏真正扩展。很多工作虽然不断改写文本问题，但配套图像依然来自有限的数据集合，模型看到的「视觉世界」其实并没有变得更加丰富。结果就是，模型在高频任务上越练越熟，在真正复杂、稀有、模型本身并不擅长的任务上却很容易停滞，甚至出现「越训练越退步」的现象。针对这一问题，来自北京大学、山东大学的研究团队提出了一种新的多模态大模型训练框架： Diagnostic-driven Progressive Evolution（DPE），该工作一经发布便引发广泛关注，并登上Hugging Face Daily Papers热度日榜第二，周榜第五。论文链接：https://arxiv.org/abs/2602.22859 代码：https://github.com/hongruijia/DPE DPE的核心思想很直观：不要让模型盲目刷题，而是先测试、找错因，再围绕短板生成训练数据，最后用强化学习做针对性提升。换句话说，它把人类学习中的「查漏补缺」搬进了多模态大模型训练：模型每进化一轮，都要先接受诊断；诊断系统会判断它在哪些能力维度上薄弱，比如数学公式、图表理解、OCR、医学图像、空间地图、多图对齐等；随后，多智能体系统会根据这些诊断结果去检索、编辑和构造新的图像-问题-答案样本；最后，模型基于这些更有针对性的样本完成强化学习更新，并进入下一轮诊断。「诊断-造题-强化」的闭环 DPE的整体流程可以概括成三步：诊断、生成、训练。第一步是诊断。系统先让当前模型做一组覆盖不同能力维度的多模态题目，并分析失败样本。诊断模块会输出每一类任务的采样比例，也就是下一轮训练应该把更多数据预算投向哪些弱项。具体而言，论文将多模态逻辑推理划分为 12 个能力维度，包括几何图像、医学图像、统计图表、文本密集图像、流程图、数学公式、空间地图、自然场景、日常物体、艺术作品、建筑图像以及其他类别。每一轮训练开始前，DPE 会从诊断池中抽取 200 个样本，让当前模型作答，再由诊断智能体对答案的推理步骤和最终结果进行评估。诊断的目标不只是打分，而是生成一份结构化报告：哪些类别准确率低？错误主要集中在哪些模式？下一轮数据应该增加哪类样本？问题难度和答案格式又该如何设计？例如，诊断系统可能发现模型在图表任务中经常忽略坐标轴单位，在 OCR 任务中容易漏掉细小文字，在数学题中会跳过关键推导步骤，在多图任务中常常把实体对应关系搞错。这些错误模式会被直接写入下一轮数据生成指令。第二步是生成。 DPE 不是简单改写原有问题，也不是只在固定图像上换问法，而是引入一个多智能体问题生成系统。这个系统由四类智能体组成：Planner Agent、Image Selector Agent、Question Generator Agent 和 Validation Agent。 Planner Agent 负责把诊断报告转化成可执行的数据生成计划； Image Selector Agent 根据计划从外部图像池检索图片，并可借助图像编辑工具进行适度重组和增强； Question Generator Agent 负责围绕图像生成问题和参考答案； Validation Agent 则像一道质量闸门，检查样本是否类别一致、信息完整、答案可验证、格式合规。这种设计解决了自进化训练中的一个关键瓶颈：模型不能只在旧图上自问自答，而要不断接触新的视觉内容。更重要的是，这套生成系统并不是让智能体「自由发挥」，而是把诊断结果转化成一组可执行约束：每一轮先确定各能力类别的生成配额，再由 Planner 规定图像需求、问题类型、答案格式和难度方向； Image Selector 从外部图像池检索、筛选，并在需要时进行裁剪、拼接和重组； Validation Agent 则对类别一致性、信息完整性、答案可验证性和格式合规性逐项把关。这样生成出来的样本既能对准模型当前弱项，又能控制质量和分布，避免新数据把训练带偏。第三步是训练。 DPE 使用带可验证奖励的 GRPO 强化学习来更新目标多模态大模型。一个重要细节是，DPE 会过滤掉太简单或太难的样本，优先保留「中等难度」的题目。直观来说，模型已经会的题没有太大学习价值，完全不会的题又可能带来噪声；最适合训练的是那些模型有机会学会、但当前还不稳定的样本。完成一轮更新后，模型会再次进入诊断环节。于是，DPE 形成了一个螺旋式迭代：模型暴露盲点 -> 系统生成针对性数据 -> 强化学习修补短板 -> 再诊断新的盲点。实验结果能力全面提升、训练更稳、可迁移研究团队在两个开源多模态大模型上验证了 DPE：Qwen2.5-VL-7B-Instruct 和 Qwen3-VL-8B-Instruct。评测覆盖 11 个具有挑战性的多模态基准，包括 STEM、视觉数学、OCR、多图理解和幻觉抑制等方向。主实验结果可以概括为三点。第一，DPE 带来了更全面的能力提升。在 Qwen2.5-VL-7B-Instruct 上，DPE 经过三轮迭代后，整体平均分从 57.29 提升到 59.29。其中，MMMU 从 53.11 提升到 56.44，CharXivRQ 从 36.80 提升到 40.91，MathVista 从 65.50 提升到 69.50，覆盖 STEM、OCR 和视觉数学等多个方向。第二，DPE 的训练动态更稳。相比 VisPlay 在部分基准上出现波动甚至回退，DPE 在三轮迭代中整体趋势更平滑。例如在 Qwen2.5-VL-7B-Instruct 上，DPE 的 MMMU 从 54.44 连续提升到 55.33、56.44；CharXivRQ 也从 37.70、38.10 继续提升到 40.91。这说明诊断闭环不只是带来短期增益，也能降低自进化训练中常见的分布漂移和性能震荡。第三，DPE 具有可迁移性。在更强的 Qwen3-VL-8B-Instruct 上，DPE 仍然带来明显收益：整体平均分从 65.64 提升到 68.04，MMMU 从 65.44 提升到 69.11，MMStar 从 61.27 提升到 72.13。这意味着，DPE 并不是只适用于某一个基座模型，而是可以作为一种更通用的诊断驱动训练范式。更值得注意的是，在论文报告的若干对比中，DPE 增强后的 Qwen3-VL-8B-Instruct 在所选 7 项指标上的平均分达到 64.39，高于 Qwen2.5-VL-72B 的 61.9 和 GPT-4o 的 56.1，也略高于 Claude4-Sonnet 的 64.1。这表明