智能AI evening

AI看病成为医患新包袱?补上「多轮追问」,通用AI才迈得过医疗关

2026-06-18 1 阅读 Jay
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> AI看病成为医患新包袱?补上「多轮追问」,通用AI才迈得过医疗关 Jay 2026-06-18 21:46:04 来源: 量子位 M4是大脑,百小医是身体 衡宇 Jay 发自 凹非寺 量子位 | 公众号 QbitAI 应该不只是我家里的长辈天天抱着AI“看病”吧? 这年头,大家是越来越习惯把症状、化验单、病历丢给AI了。 正所谓春江水暖鸭先知,身处一线的医生们就对这个事情深有体会。越来越多患者带着AI生成的“自我判断结果”去医院问诊,有些医生甚至反馈,门诊里不少人带着同一套AI结论来求证。 患者过度依赖大模型诊断,导致医患沟通成本增加。界面新闻采访的三甲医院医生就非常无奈: “上午看了30个号,25个病人是带着AI结论来的。” 虽然许多官媒时不时也提醒公众,通用AI用于医疗场景存在明显的不可靠性,但随着AI技术精进、使用人群越来越广泛,AI确实正在进入医疗决策的前置环节。 于是一个分化开始变得明显起来。 一边是通用大模型正在成为健康信息的第一入口,另一边是医疗行业不断强调,通用模型不适合直接承担医疗判断。 所以 我们讨论的话题应该再进一步,聚焦在“哪一种AI有资格靠近医疗”?“我们到底需要什么样的医疗AI”? 走向“能被病人托付”的医疗增强大模型M4 落地医疗场景的AI,必须要基于通用大模型做结构性重构与医疗专项增强,方可真正服务医疗。 而百川智能推出的Baichuan-M4,正是在这个方向上的一次回答。 一直以来,百川在这方面的路径清晰,从M1到M4,它 始终在推动通用大模型在医疗场景的能力边界。 到了M3阶段,这条路线开始真正收敛成体系,形成了一条清晰的能力基线,从而构筑起由评测领先、范式原创、贴近临床与外部验证四大要素共同支撑的信任体系。 M4在这条基线上的进一步推进 。 我们可从最新发布的技术报告中一探究竟。 在最新评测体系中,M4继续保持全球领先。 HealthBench综合得分提升至68.6,Hard任务提升至49.7,幻觉率进一步下降至3.3%。 在更贴近真实临床环境的HealthBench Professional评测中,M4在基础推理(不接外部工具)得分55.1,显著高于GPT-5.5的51.8分。 但如果只看分数,这仍然只是连续优化的结果。 M4真正的变化发生在能力结构上,它开始从“单点问答优化”走向“医疗过程能力重构”。 这一变化,可以拆成四层升级。 会提问,从单轮问诊走向深度诊疗 真实问诊是个持续追问与信息补全的过程。 基于SCAN-bench 2.0体系,M4将训练场景从单次标准化问诊扩展到多轮访视与复杂患者画像,使模型能够在信息不完整的情况下持续推进诊疗路径。 在动态问诊评测SCAN-bench中,M4初诊得分79.0、复诊74.7,均明显领先其他顶尖模型;长上下文临床记忆得分86.9,较上一代M3提升 21.1 分,为同类最高。 在 搭载了M4的百川C端产品百小医 上,能非常直观地体现这项技能点的重要性。 张先生半夜突然急性脚痛,打开APP后,百小医连续追问了10轮,逐步锁定了痛风风险。 敲黑板, “连续追问10轮” 。 不是闲聊,它在通过连续追问补齐病史信息,逐渐缩小风险范围。 模型在多轮对话中会持续追问TA的饮食结构、发作频率、用药历史以及近期指标变化,系统逐步收敛风险判断路径,更接近真实门诊的复诊过程。 会循证,从内容生成走向证据驱动 “有没有依据”是医疗判断的关键。 在循证这一层,M4构建了原子化临床路径体系,将复杂医学指南拆解为1000余个可复用临床决策单元,覆盖200余种常见疾病的完整诊疗流程。 在此基础上,研究团队还 引入了更严格的证据锚定机制,使模型输出稳定对齐医学证据 。 很多通用模型也会在结论后甩一串文献,但点进去常常对不上——要么引用编号在、内容却是两回事,要么文献本身没错、被引的那段跟结论不沾边。 证据锚定要做的,是让每一句结论都能精确落到原文的具体段落,顺着就能查到出处。 在Baichuan-EBM评测中,循证引用精度达到90.0,显著高于GPT-5.5的54.7。 拥有Harness调度能力,持续提供健康管理服务 如果说问诊解决的是单次决策问题,循证解决的是正确性问题,那么调度与记忆解决的是时间问题。 M4引入了Harness架构。有了这个神经中枢, 何时追问、何时检索证据、何时调出既往病史,均由模型自主决定,无需人工逐步指令 。 面对文献检索、长病史梳理这类繁重任务,它会拆分成子任务并行处理,让模型专注于整体诊疗路径的判断;而每一步动作,都在实时的安全约束下完成。 它会当场拦下违规的工具调用、越权的数据访问、不合临床规范的操作等不安全的行为。 更重要的是,这套系统不是一次成型,而是在真实诊疗中持续迭代:线上的疑难案例、用户的追问、医生的纠偏,经脱敏与归因后回流,成为模型继续改进的依据。 问诊、记忆、循证由此被编排成一个完整的整体,M4也从一个最强的医疗大脑,成为能独立完成连续诊疗的医疗智能体。 全病程记忆,掌握患者上下文 真实的诊疗,很少在一次问诊里就结束。 一次化验结果、一次用药后的反应、一个新冒出来的症状,都会随病情推进不断改写医生的判断——这意味着,能记住一个人完整的病史,才能给到患者更为准确的建议。 针对这一点,M4推出了 “全病程记忆” ,打通历史病历、多轮问诊、化验趋势与用药反馈,让模型在多次对话中始终掌握患者是谁、既往有过哪些疾病、各项指标如何变化,而不必每次从零开始。 在长上下文临床记忆评测中,M4取得86.9分,为同类最高,较上一代M3提升21.1分。 记住一个人完整的病程是精准医疗的前提,好多关键价值都藏在不起眼的随口闲聊里。 先举个比较aha-moment的例子。 提前内测的张强(化名),和父母分居两地。某次家庭群聊天时,老人随口提了一句“最近走一圈就喘”。 基于M4模型的百小医BOT随后结合长期健康记录与既往病史,提醒可能存在早期心功能不全风险。 然后打了波王牌辅助,轻松几段话,就劝服张强妈妈就医了。 换作只记短时对话的通用大模型,根本抓不住这种细碎线索。 在此背景下,百小医这类C端产品形态的价值,开始出现。 张强妈妈最近很容易喘,百小医在参考历史上下文给出健康提醒后,帮助张强说服老人去了医院。 后续的院内检查结果,进一步印证了此次就医决策的必要性。 百小医拿到报告后,还在继续帮助张强管理家人的身体健康。 它把医生之外那95%的诊室外时间无缝衔接了:提醒、记录、追问、预警,并在需要时把人重新推回线下就医。 “主动关心”这项技能点对医疗而言非常重要。 在中国医学科学院肿瘤医院的75个患者群测试中,多个群内在27天里共产生6944条对话,百小医安全性达到99.6%,深度互动率达到60%-73%。 通过如此高频的交互,百小医能沉淀足够多的健康上下文,让M4在后续问诊、提醒和风险识别中更有连续性。 某种程度上,这体现了百川想长期做的事情: 用M4提供专业大脑,用百小医在家庭场景建立长期、