智能AI
morning
上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代
2026-05-18
1 阅读
听雨
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 上交x创智x瑞金联合发布CX-Mind:胸片诊断进入“可验证推理”时代 听雨 2026-05-18 14:57:10 来源: 量子位 五项维度全部排名第一 CX-Mind团队 投稿 量子位 | 公众号 QbitAI 胸片AI进入了一个新阶段: 不再只给诊断,开始给推理 。 过去的医学影像AI更像“分类器”,擅长回答有没有病、像不像某种病。 但真实临床需要的是一条能被医生复核的推理路径。 上海交通大学、上海创智学院与瑞金医院联合发布的 CX-Mind ,是目前首个将胸片诊断推进为 「可验证推理链」 的多模态大模型—— 从看到异常,到解释为什么、排除了什么、结论怎么来的,每一步都有影像证据支撑。 在横跨23个数据集、708,473张影像的评测中,它在视觉理解、报告生成和时空对齐三大能力域平均提升25.1%。 而在真实世界测试集Rui-CXR上,多中心医生主观评估五项维度全部 排名第一 。 为什么这项工作重要:医学AI的关键矛盾正在改变 胸部X光是临床最常用的影像检查之一,也是医学多模态大模型最重要的真实场景。 它的难点并不止于识别某个病灶,而在于把影像观察、病灶定位、共病判断、报告生成、历史比较和临床语义整合到同一个诊断链条中。 这也是过去很多胸片AI难以真正进入临床核心工作流的原因。 模型可以给出一个看似准确的标签,但医生仍然会追问: 依据是什么?排除了哪些可能?结论是否与报告 findings 一致?如果模型错了,错误发生在观察、鉴别还是总结阶段? CX-Mind试图解决的,正是这个更深层的问题。 它不是把思维链写得更长,也不是让模型生成一段听起来合理的解释,而是把医学推理拆成可解析的 think-answer交错单元 : 每一步先围绕影像证据进行观察和推断,再输出阶段性答案,随后继续完成鉴别、定位、报告生成或病程判断。 换句话说,CX-Mind把医学影像大模型的目标从“给出答案”推进为“给出可审查的答案形成过程”。 这使模型不再只是一个黑箱阅片工具,而更接近医生可以协作、追问和复核的临床推理伙伴。 △ CX-Mind 总体框架 CX-Mind的三重突破 第一重突破:重新定义胸片大模型的输出范式 传统医学视觉模型大多遵循one-shot judgment路线:输入影像,输出标签、选项或报告。 即便引入CoT,也常常变成一整段难以验证的长文本。 这样的解释看似完整,却很难判断哪些中间步骤真正来自影像,哪些只是语言模型生成的“医学叙事”。 CX-Mind的关键设计是 interleaved reasoning 。 在封闭式问题中,它逐项评估候选答案,给出保留或排除的证据;在开放式问题中,它先提出可能疾病,再围绕每一种疾病进行证据核验,最后形成诊断结论。 这种输出方式更接近真实阅片:先观察征象,再形成假设,再进行鉴别,最后写出结论。 这项工作的突破性不在于“让模型解释自己”,而在于让解释成为训练和奖励的一部分。 可解释性不再是事后附加的说明,而是模型学习诊断能力时必须满足的结构约束。 第二重突破:用CX-Set构建胸片专家能力谱系 要训练一个真正面向胸片诊断的大模型,仅靠疾病标签远远不够。 CX-Mind团队构建了大规模胸片指令数据集 CX-Set —— 整合 23个胸片相关公开数据集 ,形成 708,473张影像 与 2,619,148条指令样本 ,并进一步构建 42,828条 由真实放射学报告监督的高质量交错式推理样本。 CX-Set的设计遵循一个清晰问题:一个胸片专家到底需要哪些能力? 论文将其拆解为三大能力域: Visual Understanding 用于疾病识别、单病判断和多病共存诊断; Text Generation 用于findings、impression和summary; Spatiotemporal Alignment 用于影像-文本匹配、体位识别、疾病进展判断和病灶定位。 因此,CX-Mind学到的不只是“某个标签是否存在”,而是一套完整的胸片诊断工作流: 看图、定位、比较、鉴别、总结、生成报告 。 这也是它相较于单点分类模型更具基础模型价值的原因。 第三重突破:CuRL-VPR 让强化学习同时约束答案与路径 医学诊断任务的强化学习难度远高于一般选择题。 开放式答案空间复杂,疾病可能共存,医学表达存在多种等价写法;更重要的是,最终答案正确并不代表中间推理可靠。 只奖励final answer,容易造成奖励稀疏、credit assignment困难和医学幻觉。 CX-Mind提出 CuRL-VPR ,即curriculum-based reinforcement learning with verifiable process rewards。 它的意思是,先从简单题练起,逐步加难;训练时不只看最终答案对不对,还用真实放射科报告来核查每一步推理是否有影像证据支撑。 整个训练流程包括医学文本warm-up、大规模胸片指令微调、交错式推理cold-start,以及基于GRPO的课程强化学习。 在奖励机制上,CX-Mind同时使用format reward(格式奖励)、final-result reward(最终结果奖励)和process reward(过程奖励)。 模型不仅需要输出格式正确、最终答案正确,还需要让中间think-answer步骤与真实放射学报告中的证据保持一致。 这意味着强化学习不再只盯着终点,而是开始关注路径质量。 对于医学场景而言,这一点极其关键: 一个来自错误证据的正确结论仍然不可接受,一段没有报告证据支撑的解释仍然可能是幻觉 。 同时,CX-Mind采用closed-to-open课程学习策略:先在二分类和选择题等封闭式任务上建立稳定可验证奖励,再迁移到开放式诊断任务。 这种训练节奏更符合临床任务难度梯度,也让开放式医学推理的RL过程更稳定。 △ CX-Mind四阶段训练管线 结果:越接近真实诊断,交错式推理越显优势 视觉理解:多病共存和开放式诊断中优势更突出 CX-Mind在二分类、单疾病识别、多疾病共存识别和开放式疾病识别中整体领先。 论文显示,相比胸片专用模型,CX-Mind在三大能力域上取得25.1%平均性能提升。 在更接近真实临床的复杂任务中,这一优势更加明显。 单疾病识别任务中,CX-Mind相比CheXagent和ChestX-Reasoner平均提升19.5%和21.0%;在多病共存诊断中,相应提升达到63.5%和21.2%。 这说明interleaved reasoning的价值不只是改善简单分类,而是在多异常、多证据、多候选诊断同时存在时,帮助模型更稳定地完成临床鉴别。 △ 视觉理解评测 报告生成:从“识别异常”走向“专业表达” 临床可用的胸片AI不能只给标签,还需要把影像发现转化为规范、清晰、可修改的医学语言。 CX-Mind在findings generation、impression generat