上个月翻到一期 NEJM Catalyst 的专刊,整期主题叫 From Promise to Practice: The Next Era of AI in Health Care——从承诺到实践,医疗AI的下一个时代。我坐在那儿看了大半天,有点感慨,因为这个问题我在自己的工作里已经撞了好几年了。
做了二十年软件和系统,又在儿童健康科技方向泡了十年,我见过的医疗 AI demo 多到记不清了。有些真的做得很漂亮,精度高,界面好,给投资人看完当场鼓掌。但这些东西进了医院之后怎么样,那是另一个故事——很多就安安静静地消失了,没有人提,没有人问,就像从来没有存在过一样。
最开始我以为是技术不行。做了几个实际落地的项目之后才发现,技术其实不是最大的坑。
鞋里的石子
NEJM 这期专刊里,梅奥诊所的首席临床信息官 Edwina Bhaskaran 说了一个我觉得特别贴切的比喻。她把那些"在会议室里设计得很完美、到了临床一线根本没人用"的 AI 工具,叫做"鞋里的石子"(pebbles in the shoe)。不是大问题,不会把你绊倒,就是一直在那硌着,最后人们选择脱鞋——把这个工具彻底放弃掉。
梅奥自己就踩过这个坑。他们上线过一套败血症早期预测的 AI,预测准确率在技术层面完全过关,部署也顺利完成了。但实际发生的事情是:系统报警,医生不知道该做什么,护士没有接受过配套培训,临床流程没有做任何调整来响应这个新工具。于是这个在技术上"算对了"的系统,在实际场景里就这么失效了。不是因为它错了,是因为周围什么都没变,只有它变了。
我们当年做生长发育监测设备的时候也遇到过类似的事。给某地区妇幼保健院接入了一套智能追踪系统,数据精度比传统方式高很多,报告自动生成,省去了不少手工操作。但用了三个月,医生还是照样把数字抄到纸质档案里,还是按原来的流程走。问过之后才知道,系统填完了还得手动录进另一个平台,加在一起反而比原来多花时间。
这就是真实情况。工具本身没问题,流程没跟着动,工具就变成了一个额外的负担。
NEJM 专刊里说得很直接:
"Well-designed tools only drive value when they are thoughtfully integrated into clinical workflows through iterative refinement with operational engagement."
精心设计的工具,只有在通过持续迭代和运营协同、真正融入临床工作流之后,才能产生实际价值。
拆开来说就是:光把产品做好没用,你得把整个工作流程一起改,而且要反复改,不是上线就可以交差的事。
两次看诊之间,那段没人管的时间
这期里有一个案例,我觉得切到了一个很真实但很少被讨论的问题。
Waymark 是一家做社区医疗管理的公司,服务对象是美国 Medicaid 的患者,基本都是病情复杂、经济条件差、慢性病叠着慢性病的人群。他们有一批现场工作人员,每天上门走访,记录情况,写的是非结构化的日常笔记——大意就是"今天去了某某家,他说最近胸口发闷,冰箱里快没吃的了,情绪看起来不太对"这类东西。
以前这些记录就堆在系统里,没有人系统地看,等到下次门诊可能已经是两周之后了,中间发生什么事完全是个黑箱。Waymark 做了一个叫"AI Oracle"的系统,持续分析这些日常记录,主要识别三类信号:需要立即响应的安全红旗、可以提前干预的预防机会,以及每月给团队出一份反馈报告,帮工作人员知道自己哪些地方做对了、哪些地方可以改。
原文说的是:
"The oracle has three functions: (1) to identify urgent safety red flags; (2) to surface opportunities for preventive care; (3) to generate monthly, strengths-based feedback to foster a learning health system."
本质上就是让 AI 守住患者两次就诊之间的空档——而那段时间,偏偏是最危险的,因为没有人在盯着,等出了事才发现已经晚了。
我在想这个逻辑放到国内其实更加紧迫。很多社区卫生服务站,一个医生名下挂了几千个慢病患者,靠人工根本不可能做到日常追踪。但现在国内的数字化医疗建设,大量精力还是花在建档、填表、系统对接上,真正能实时"读懂"患者日常变化的分析能力,基本还是空白。
效率提升了,钱反而少了——这个逻辑得想清楚
斯坦福医学院在这期专刊发了一篇,题目直接得有点意思:Artificial Intelligence in the Clinic: Don't Pay for the Tool, Pay for the Care,别为工具付钱,为医疗结果付钱。
美国的情况是,现有的医保报销体系按时间计费。医生用了 AI,效率提高了,看诊时间短了,结果被扣钱——因为"时间短"本身就意味着报销减少。AI 帮医生省出来的时间,在支付体系里变成了对医生的惩罚,这个逻辑荒谬,但确实是 AI 工具在美国一线诊所推广缓慢的一个真实原因。
国内的纠结方式不太一样,但同样存在。DRG/DIP 按病种付费改革铺开之后,医院从"多做多收"切换到"控成本、控住院天数",这个时候 AI 辅助诊断和临床路径管理工具才真正开始被认真对待——因为跟院长的 KPI 挂上钩了,能降误诊率,能缩短住院日,这是看得见的数字。
但我发现,很多医院现在买 AI 工具的评价标准还停留在"有没有"这一层,而不是"效果到底怎样"。Gartner 2026 年初的医疗技术成熟度报告里有一个很说明问题的数字:AI 在挂号、导诊这类外围业务的渗透率已经到了 85%,但在重症诊疗、手术规划这类核心业务的实际落地率不足 12%。
容易做的地方已经饱和,难做的地方几乎没有人真正进去。这不完全是技术问题,更多是责任和利益的问题——核心诊疗环节一旦出了事,到底谁来担,这件事说不清楚之前,大家都选择绕着走。
AI 帮你写病历,听起来美好,实际上有点复杂
这期专刊还专门讨论了 Ambient AI Scribe,也就是环境式 AI 听诊记录——AI 实时监听医患对话,自动生成病历,医生问诊时不需要低头敲键盘,可以专心看着病人说话。
美国这边已经有比较成熟的应用了,有医生说文书工作减少了将近七成,而且问诊的感觉明显变了,不再是一边说话一边分心盯着屏幕,交流质量上来了。
国内三甲医院这两年也在做类似的系统,基于语音识别和大模型,能实时剔除闲聊,生成符合 ICD-11 编码标准的结构化电子病历。理论上能把医生 30% 到 40% 的文书时间省出来,听着很诱人。
但北京协和医院信息中心主任周翔说了一个很扎实的观察:医生接诊本来就很紧张,强制推新工具反而增加摩擦;患者那边,很多人其实更倾向于直接跟医生说话,不喜欢提前在平板上填一堆预问诊表格。结果大多数医院的 AI 预问诊使用率不到 20%,投入和效果完全不成比例。
这和"鞋里的石子"说的是同一件事——工具本身不差,但没有真正嵌进实际的使用场景里,最后就变成一个没人主动用的功能,慢慢被遗忘掉。
张文宏那件事,我觉得被误读了
2026 年初,张文宏公开表态反对把 AI 引入医生的病历书写系统,很多人把这理解成"保守"或者"反技术"。我当时看了他具体说的内容,觉得逻辑完全是另一回事。
他担心的是一个很具体的问题:2025 年有行业调研显示,部分实习医生在写病历、做鉴别诊断时,对 AI 生成内容的依赖度已经超过了 60%。这意味着临床思维的训练过程正在被跳过。AI 帮他们省掉了需要自己想、自己推理的环节,表面上效率提升了,实际上是把培养判断力的机会给省掉了。出了问题,责任怎么算,也没有人说清楚。
这不是反对 AI,是在问 AI 应该在哪个位置出现、以什么方式出现。这两件事差很多。
NEJM 专刊的编者 Sara Murray 医生说,AI 未来的方向是:
"reimagining clinical care delivery, while preserving the art and heart of medicine."
重新想象临床医疗的方式,同时保留医学的艺术和温度。
我认为这句话说得很到位。医疗 AI 如果只是把医生变成一个核对 AI 输出的操作员,那从一开始方向就跑偏了,不管技术做得多好都没有意义。
说说我自己的判断
UCSF 的 Bob Wachter 医生在这期专刊里估计,未来五年,10% 到 25% 的临床工作会被自动化,但他同时说,庞大的未被满足的医疗需求会确保对人类医生的持续需求。
这个判断放到国内,我觉得同样成立,而且某种程度上更迫切。中国的医疗资源分布太不均了,三甲医院人满为患,县域医院和乡镇卫生院缺人缺设备缺能力,两端之间的落差大得惊人。在这个背景下,AI 真正应该做的事,不是帮协和的专家再多看几个病人,而是把顶级医院的诊断能力以某种方式往下传——让偏远地方的基层医生在遇到拿不准的情况时,能得到一个靠谱的辅助参考,而不是只能靠自己猜。
这件事如果做到了,才是真正的从承诺到实践,才是医疗 AI 值得花这么多钱、这么多时间去做的理由。
我们离这个目标还有距离。但方向没有错,速度也比以前快了。
原文来源:NEJM Catalyst Innovations in Care Delivery, Vol. 7, No. 3(March 2026 AI Implementation Theme Issue)
原文链接:https://catalyst.nejm.org/toc/catalyst/7/3