智能AI
morning
AI诊断真实病例准确率超医生,哈佛团队称医学评估标准或应重新改写
2026-05-08
1 阅读
刘雅坤
随着能力的提升,AI 在某个医疗基准数据集上获得 SOTA 已不足为奇。但现在,研究人员证明 AI 在真实病例场景下表现出与医生相当或更高的准确率。这意味着,AI 不是在训练过的场景下背诵标准答案,而是在临床实战中给出诊断推理。 近日,哈佛医学院、斯坦福大学等研究团队在 Science 发布了一项迄今最大规模 AI 医疗对比研究[1],并首次用真实的患者病历来检验 AI 的推理能力,真实场景意味着可能存在病历混乱、信息不全的情况。 研究人员让 OpenAI 的 o1 模型与几百名医生在六种不同场景中进行诊断 比对。结果表明,AI 在多项临床推理任务中的准确率与医生持平甚至更高,包括急诊决策、诊断以及为患者制定下一步的治疗方案。 该研究结果预示着一个重要的转折点:随着模型能力越来越强,传统的医学评估基准和人工设计的测试案例可能正面临失效。“过去可用多项选择题来评估模型的能力,现在它们的得分已长期接近 100%,对于进一步追踪进展并无太大意义。”该论文共同第一作者、哈佛医学院研究员 Peter Brodeur 说。 研究人员强调,AI 或许能给出更准确的的文本建议、避免一些不必要的检查,以及减少漏诊和误诊,但并不意味着 AI 已经能够独立行医,特别是在生死悠关的急诊情景。并且,医生在处理影像、听诊、面部表情等方面具有不可替代的优势。研究团队还呼吁,需尽早开展前瞻性试验,以在真实的患者护理环境中评估相关技术。 图丨相关论文(来源:Science) 研究团队设计了不同方面的实验,来考察 AI 的临床推理能力。在第一组实验中,研究人员使用了 The New England Journal of Medicine(NEJM)自 20 世纪 50 年代开始作为“金牌标准”的临床病理会议病例。 在 2012 年至 2024 年期间的 143 个临床病例中,o1-preview 覆盖了 78.3% 的正确病因,其给出的首个诊断即是正确答案的比例占 52%。如果将“非常接近”的诊断也看作正确答案,该比例则进一步提升至 97.9%。 研究人员还将 GPT-4 与 o1-preview 进行了性能对比。结果显示,GPT-4 在同一批病例上的准确率是 72.9%,而 o1-preview 在 70 个重叠病例中,24.3% 的病例表现优于 GPT-4,仅 7.1% 的病例表现落后。 值得关注的是,在 136 例诊断检查选择测试中,o1-preview 选择检查项目的正确率是 87.5%。评审医生认为,AI 提出的检查建议中有 11% 具备临床价值,仅 1.5% 的建议无帮助。 图丨 2012 至 2024 年间,鉴别诊断生成器与大型语言模型在 NEJM 临床病理会诊中的表现(来源:Science) 在临床推理的书写质量评估中,差距进一步凸显。研究团队采用 20 个来自 NEJM Healer 课程的教学病例,该项能力采用经过验证的 R-IDEA 量表评分。 o1-preview 在 80 次评分中 78 次获得满分,与之对比的是,GPT-4 仅获得 47 次满分,而主治医师和住院医师得到满分的次数分别是 28 次和 16 次。在高风险误诊项识别上,o1-preview 的中位命中率是 92%。但需要了解的是,尽管其在数值上比人类更高,但与医生并未达到统计学显著差异的水平。 图丨 o1-preview、GPT-4 与医师在诊疗决策与诊断推理能力方面的比较(来源:Science) 管理决策能力的测试结果同样值得关注。研究团队使用了五个基于真实病例开发的临床场景,并在每个场景下设置了一系列治疗决策问题。结果显示,o1-preview 的中位得分是 89%,GPT-4 为 42%,将 GPT-4 作为辅助工具的医生则获得 41% 的中位得分,而使用传统资源制定方案的医生得分仅 34%。 图丨 o1-preview、GPT-4 与临床医师在诊断推理能力方面的比较(来源:Science) 此外,为防止模型“刷题”,研究人员还使用了 6 个从未公开发布的标志性诊断病例进行实验。结果发现,尽管 o1-preview 获得了 97% 的中位得分,但与 GPT-4 的 92% 以及人类医师的 74% 相比,统计学的优势并不显著。这也从侧面上说明,大模型能力的提升并非在所有任务上都保持同一幅度。 在最接近真实临床环境实验中,研究人员以波士顿一家医院急诊室的 76 名患者作为研究对象,并设置了三个临床决策节点从早期分诊、接诊后以及决定收入病房。 标准电子病历涵盖了生命体征数据、人口统计信息以及对患者就诊原因的简要描述等信息。与此前研究不同,研究人员提供给模型的信息未进行预处理,而是直接来源于真实的电子病历。模型基于这些数据,生成相关诊断结果,并提出下一步治疗建议。 结果显示,