困住医疗AI的死循环，终于有国产玩家跑通了

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 困住医疗AI的死循环，终于有国产玩家跑通了一水 2026-06-17 16:13:50 来源：量子位在多项关键医疗测评上打败了GPT-5.5 「智能是平等的，但是context是不平等的。」 Sam Altman不久前说了一句话，大意是：智能终将像水电一样成为基础设施，人人都能调用。但他也指出，AI当前最大的瓶颈不在智能，在「 context gap 」 ——系统没法持续理解用户的真实场景。 a16z在今年3月的一篇分析里说得更直接：没有正确context的AI Agent，基本无用。这两个判断叠在一起，恰好解答了一个困扰我很久的疑惑：为什么有些很火的垂直赛道，迟迟未能形成马太效应？比如医疗。 AI发展到现在，通用大模型的格局已经很清楚了。头部三五家吃下绝大多数市场，后来者连牌桌都很难上。强者恒强，几乎是常识。但医疗偏偏是个例外。这条赛道热了好几年，上百家公司涌进来，论文一茬接一茬，评测榜单你追我赶。可奇怪的是，似乎没有人真正拉开明显差距。为什么？如果从context的角度进行思考，答案很可能是：不是大家实力接近，恰恰相反，是因为整个行业卡在了同一个结构性死结里—— 数据、模型、场景，三者的闭环断了。闭环怎么断的先说数据。数据在医疗行业的角色有点像「萧何」，成也它，败也它。看起来数据足够丰富，病历、影像、检验结果几乎无处不在，所以早期大家一窝蜂涌进来。但真正进来之后才发现：数据确实不缺了，但没法直接用啊。很多厂商手里的确有大量原始医疗数据，但由于缺乏专业的标准化治理能力，所以难以转化为有效训练素材。说白了，专业的事交给专业的人。医疗数据的标准化处理，需要懂医学的人来干。懂医学的人从哪来？像DeepMind这样的顶级实验室还能自搭内部医学团队，但对大多数公司来说，他们往往只能依赖外部医学标注团队或医院合作方，通过「外包」来补齐能力缺口。走外包当然没问题，问题是高质量的医学治理资源本身就是稀缺品，而且很难规模化复制。通俗点，能接这种活的团队就那么多，排队都排不过来。所以结果就变成：原始数据看起来很多，但真正经过专业治理、能稳定喂进训练流程的，其实非常有限。说到底，原始数据不等于context。没经过治理的数据，是噪音，不是信号。 △图片由AI生成再说场景。很多人的想法是，虽然高质量数据少了点，但只要把模型扔进真实环境跑起来，不就能持续获取新数据、形成数据飞轮了吗？思路没错，但飞轮恰恰卡在了这一步。问题出在产品形态。绝大多数医疗AI产品仍停留在「问答助手」阶段，能回答问题，却无法深度嵌入医生的工作流。一个问答机器人哪怕每天被问一万次，沉淀下来的也只是「用户问了什么、AI怎么答的」，而真正有价值的数据，来自诊疗过程本身—— 医生如何诊断、如何开药、如何调整治疗方案，以及患者最终恢复得怎么样。进不去这些核心环节，就拿不到有效增量数据。拿不到有效增量数据，模型当然还能靠公开文献和语料继续「刷分」，但这种提升更多停留在知识层面，而非临床决策与工作流层面。结果就是一个很矛盾的现象：评测很强，但医院里的实际使用频率并不高。于是死循环形成了：产品进不了临床→拿不到真实诊疗数据→模型迭代没有燃料→产品更进不去。 △图片由AI生成而现实的发展轨迹，几乎就是这个循环的真实写照。据动脉智库统计，截至去年5月，国内累计发布的医疗大模型已达到288个，仅半年就新增133个。但与模型数量的快速增长形成鲜明对比的是，行业整体渗透率仍不足10%～20%。所以说，现在整个行业面临的困境是：不是智能不够，是context攒不起来。而当一个系统既无法持续积累真实临床context，又无法嵌入真实决策流程时，这个死结，本质上就已经被写死了。问题只剩下一个：有没有人，能把它重新解开？答案是：还真有环顾四周，讯飞医疗刚发布的「星火医疗大模型V3.5」就这样进入了我的视野。除了比较「新」这个因素外，它身上有两点瞬间吸引了我：一是在多项关键医疗测评上打败了GPT-5.5，虽说有「主场优势」，但能和OpenAI如今最强的模型过招，至少说明模型底子没问题。二是众所周知讯飞一直深耕医院场景，如果说有人有机会打破前面那个死循环，那么讯飞大概是最有可能的一个。而接下来的资料，也印证了我的判断。查完一圈发现，它和赛道里其他玩家明显不同的地方在于：不只是评测能打，而且是真落地了。评测方面。IDC《中国医疗大模型技术评估，2026》综合实力行业第一，15项核心指标中12项领跑；MedBench智能体评测98.9分登顶；医疗知识问答、医疗语言理解、诊断治疗推荐、医疗文书生成、医疗多模态交互、医疗多轮交互等多项关键临床任务综合能力，超越GPT-5.5最高推理档（Extra High）。不过说实话，评测第一在这个赛道不稀奇，毕竟榜单轮流坐庄，今天你第一明天他第一，大家早就看习惯了。真正稀缺的，是评测成绩和临床价值能对上账。而摆在我眼前的是这样几个数字：在多家头部三甲医院的真实应用中，使用星火医疗大模型V3.5生成病历的医生采纳率达到91%，病历书写时间缩短52% 。翻译翻译，超过九成的病历医生看过能签字，一天下来就省出几小时。影像端同样跨过了实用门槛，X线、MR报告生成的医生采纳率75%，质控达到专家会诊水准。而这些，还只是我看到的，模型能力的冰山一角。病历内涵质控、智能用药审核、跨专科辅助诊断、居民端的体检报告解读和慢病管理——多个刚需场景都已经跑起来了。在国内医疗大模型赛道，评测和临床两面同时对上账的玩家，目前屈指可数。而讯飞医疗，至少已经用成绩站到了前排。讯飞医疗的context是怎么攒起来的但成绩单本身仍不是重点，重点是：同一个死循环，讯飞医疗凭什么跑通？答案，依旧要回到context身上寻找。而差距正在于context—— 讯飞医疗的context，不是天上掉下来的，是十年一步一步跑出来的。十年下来，讯飞医疗已经构建起了一套「场景→数据→治理→模型→更广场景」的自强化循环体系。它做的第一件事，是把场景铺到足够广。不是挑几家医院做试点，是从基层卫生院到三甲医院到影像云平台的全域覆盖。什么样才能称得上「全域」？看一组数字你就明白了：目前讯飞医疗已经覆盖全国806个区县、7.7万余家基层医疗机构，累计辅助诊断超12亿次。同时携手600多家等级医院，其中包括50余家百强医院和7家十强医院。这个覆盖密度，在行业里并不常见。而且不是接入了就完事，病历生成、处方审核、影像初筛，这些产品是直接嵌进医生每天的工作流里的。但光铺医院还不够，一个患者的就医过程，不是只发生在医院里。现在大家遇到头疼脑热都习惯先在手机上问一问症状，如果拿不准可能会去小区诊所或基层卫生院做个基础诊断，严重一点再转到大医院做进一步诊疗，出院之后也没结束，还要做康复随访、慢病管理这些

订阅66必读