智能AI evening

困住医疗AI的死循环,终于有国产玩家跑通了

2026-06-17 1 阅读 一水
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 困住医疗AI的死循环,终于有国产玩家跑通了 一水 2026-06-17 16:13:50 来源: 量子位 在多项关键医疗测评上打败了GPT-5.5 「智能是平等的,但是context是不平等的。」 Sam Altman不久前说了一句话,大意是:智能终将像水电一样成为基础设施,人人都能调用。但他也指出,AI当前最大的瓶颈不在智能,在 「 context gap 」 ——系统没法持续理解用户的真实场景。 a16z在今年3月的一篇分析里说得更直接:没有正确context的AI Agent,基本无用。 这两个判断叠在一起,恰好解答了一个困扰我很久的疑惑: 为什么有些很火的垂直赛道,迟迟未能形成马太效应?比如医疗 。 AI发展到现在,通用大模型的格局已经很清楚了。头部三五家吃下绝大多数市场,后来者连牌桌都很难上。 强者恒强,几乎是常识。 但医疗偏偏是个例外。这条赛道热了好几年,上百家公司涌进来,论文一茬接一茬,评测榜单你追我赶。 可奇怪的是,似乎没有人真正拉开明显差距。为什么? 如果从context的角度进行思考,答案很可能是: 不是大家实力接近,恰恰相反,是因为整个行业卡在了同一个结构性死结里—— 数据、模型、场景,三者的闭环断了 。 闭环怎么断的 先说数据。 数据在医疗行业的角色有点像「萧何」,成也它,败也它。 看起来数据足够丰富,病历、影像、检验结果几乎无处不在,所以早期大家一窝蜂涌进来。 但真正进来之后才发现:数据确实不缺了,但没法直接用啊。 很多厂商手里的确有大量原始医疗数据, 但由于缺乏专业的标准化治理能力 ,所以难以转化为有效训练素材。 说白了,专业的事交给专业的人。医疗数据的标准化处理,需要懂医学的人来干。 懂医学的人从哪来? 像DeepMind这样的顶级实验室还能自搭内部医学团队,但对大多数公司来说,他们往往只能依赖外部医学标注团队或医院合作方,通过「外包」来补齐能力缺口。 走外包当然没问题,问题是高质量的医学治理资源本身就是稀缺品,而且很难规模化复制。 通俗点,能接这种活的团队就那么多,排队都排不过来。 所以结果就变成: 原始数据看起来很多,但真正经过专业治理、能稳定喂进训练流程的,其实非常有限 。 说到底,原始数据不等于context。没经过治理的数据,是噪音,不是信号。 △图片由AI生成 再说场景。 很多人的想法是,虽然高质量数据少了点,但只要把模型扔进真实环境跑起来,不就能持续获取新数据、形成数据飞轮了吗? 思路没错,但飞轮恰恰卡在了这一步。 问题出在产品形态 。 绝大多数医疗AI产品仍停留在「问答助手」阶段,能回答问题,却无法深度嵌入医生的工作流。 一个问答机器人哪怕每天被问一万次,沉淀下来的也只是「用户问了什么、AI怎么答的」,而真正有价值的数据,来自诊疗过程本身—— 医生如何诊断、如何开药、如何调整治疗方案,以及患者最终恢复得怎么样。 进不去这些核心环节,就拿不到有效增量数据。 拿不到有效增量数据,模型当然还能靠公开文献和语料继续「刷分」,但这种提升更多停留在知识层面,而非临床决策与工作流层面。 结果就是一个很矛盾的现象: 评测很强,但医院里的实际使用频率并不高 。 于是死循环形成了: 产品进不了临床→拿不到真实诊疗数据→模型迭代没有燃料→产品更进不去 。 △图片由AI生成 而现实的发展轨迹,几乎就是这个循环的真实写照。 据动脉智库统计,截至去年5月,国内累计发布的医疗大模型已达到288个,仅半年就新增133个。但与模型数量的快速增长形成鲜明对比的是,行业整体渗透率仍不足10%~20%。 所以说,现在整个行业面临的困境是: 不是智能不够,是context攒不起来 。 而当一个系统既无法持续积累真实临床context,又无法嵌入真实决策流程时,这个死结,本质上就已经被写死了。 问题只剩下一个: 有没有人,能把它重新解开? 答案是:还真有 环顾四周,讯飞医疗刚发布的 「星火医疗大模型V3.5」 就这样进入了我的视野。 除了比较「新」这个因素外,它身上有两点瞬间吸引了我: 一是在多项关键医疗测评上打败了GPT-5.5,虽说有「主场优势」,但能和OpenAI如今最强的模型过招,至少说明模型底子没问题。 二是众所周知讯飞一直 深耕医院场景 ,如果说有人有机会打破前面那个死循环,那么讯飞大概是最有可能的一个。 而接下来的资料,也印证了我的判断。 查完一圈发现,它和赛道里其他玩家明显不同的地方在于: 不只是评测能打,而且是真落地了 。 评测方面 。IDC《中国医疗大模型技术评估,2026》综合实力行业第一,15项核心指标中12项领跑;MedBench智能体评测98.9分登顶;医疗知识问答、医疗语言理解、诊断治疗推荐、医疗文书生成、医疗多模态交互、医疗多轮交互等多项关键临床任务综合能力,超越GPT-5.5最高推理档(Extra High)。 不过说实话,评测第一在这个赛道不稀奇,毕竟榜单轮流坐庄,今天你第一明天他第一,大家早就看习惯了。 真正稀缺的,是评测成绩和临床价值能对上账 。 而摆在我眼前的是这样几个数字: 在多家头部三甲医院的真实应用中, 使用星火医疗大模型V3.5生成病历的医生采纳率达到91%,病历书写时间缩短52% 。 翻译翻译,超过九成的病历医生看过能签字,一天下来就省出几小时。 影像端同样跨过了实用门槛,X线、MR报告生成的医生采纳率75%,质控达到专家会诊水准 。 而这些,还只是我看到的,模型能力的冰山一角。病历内涵质控、智能用药审核、跨专科辅助诊断、居民端的体检报告解读和慢病管理——多个刚需场景都已经跑起来了。 在国内医疗大模型赛道,评测和临床两面同时对上账的玩家,目前屈指可数。 而讯飞医疗,至少已经用成绩站到了前排。 讯飞医疗的context是怎么攒起来的 但成绩单本身仍不是重点,重点是: 同一个死循环,讯飞医疗凭什么跑通? 答案,依旧要回到context身上寻找。 而差距正在于context—— 讯飞医疗的context,不是天上掉下来的,是十年一步一步跑出来的 。 十年下来,讯飞医疗已经构建起了一套「场景→数据→治理→模型→更广场景」的自强化循环体系。 它做的第一件事,是把场景铺到足够广 。 不是挑几家医院做试点,是从基层卫生院到三甲医院到影像云平台的全域覆盖。 什么样才能称得上「全域」?看一组数字你就明白了: 目前讯飞医疗已经覆盖全国806个区县、7.7万余家基层医疗机构,累计辅助诊断超12亿次。同时携手600多家等级医院,其中包括50余家百强医院和7家十强医院。 这个覆盖密度,在行业里并不常见。 而且不是接入了就完事,病历生成、处方审核、影像初筛,这些产品是直接嵌进医生每天的工作流里的。 但光铺医院还不够,一个患者的就医过程,不是只发生在医院里 。 现在大家遇到头疼脑热都习惯先在手机上问一问症状,如果拿不准可能会去小区诊所或基层卫生院做个基础诊断,严重一点再转到大医院做进一步诊疗,出院之后也没结束,还要做康复随访、慢病管理这些