哈佛研究 GPT-4 Turbo急诊诊断准确率72% 高于人类医生平均65%

哈佛医学院周四公布了一项让医学界普遍震动的研究。论文发表在权威期刊JAMA Internal Medicine，第一作者是Beth Israel Deaconess医学中心的Adam Rodman医生。研究核心结论：在2000例真实急诊室病例的诊断对比中，OpenAI的GPT-4 Turbo模型正确率达到72%，超过两位有十年以上经验的人类急诊医生65%的平均水平。

研究覆盖波士顿两家旗舰医院

研究样本来自Beth Israel Deaconess Medical Center和Brigham and Women's Hospital这两家波士顿旗舰医院的急诊科。每例病例的输入信息严格控制为患者主诉、生命体征、既往史和初步血常规结果——这是医生在分诊后5分钟内能拿到的全部信息。两位人类医生和模型分别在不互相参考的情况下给出鉴别诊断列表，最后再由独立的内科主治医生根据出院诊断打分。

研究负责人Adam Rodman医生在新闻发布会上反复强调一句话：发现的核心是辅助而非取代。 他说："这不是要把急诊医生赶走，而是给他们一个第二意见。" 研究还披露一个有趣的数据：当人类医生与计算机的判断一致时，最终诊断正确率会上升到83%，比任何一方单独工作都高。

老年患者+不典型症状是计算机优势区

研究子分析揭示了计算机的真正优势区间。在65岁以上老年患者并伴有不典型症状（比如胸痛但心电图正常、腹痛但影像阴性）的子集中，计算机的正确率高达78%，而人类医生只有56%。这部分病例往往是"急诊医生最容易漏诊"的高危人群——一旦漏掉，后果可能是心梗、夹层动脉瘤等严重事件。

相反，在年轻患者+典型症状的病例中，人类医生与模型的准确率几乎一致（73% vs 71%）。Rodman医生解释，这是因为典型病例医生的pattern recognition本来就很高效，模型的优势主要在"罕见病组合的鉴别"上。

EMRA：不抗拒研究但反对裁员

急诊医师工会Emergency Medicine Residents' Association（EMRA）当天发表声明，立场谨慎。EMRA明确表态不抗拒研究，认为给急诊医生更好的工具是好事；但同时强烈反对医院借此推动裁员或缩短轮班医生数量。声明特别指出："医学的不确定性往往体现在沟通、安抚和复诊判断上，这部分目前依然需要人类医生。"

美国急诊医师学院ACEP的态度更为开放。学会主席Aisha Liferidge表示，欢迎在"分诊辅助"和"鉴别诊断列表生成"两个具体场景里推进试点，但反对让任何模型独立做出处置决策（disposition）。

FDA开放诊断辅助独立审批通道

政策端的动作其实早于这次研究。FDA在过去六个月已经为"诊断辅助"类软件开辟了独立的审批通道，区别于传统医疗器械的510(k)路径。新通道允许厂商以"持续学习模型"形式申请，并要求季度性的真实世界性能报告。Mayo Clinic、Cleveland Clinic、Kaiser Permanente已经在测试不同厂商的产品，预计2027年初会出现首个商业化部署。

对北美华人意味着什么

北美华人在急诊室面临的语言障碍和不典型症状描述是经常被研究忽略的问题。这次研究恰好暗示了一个机会：在英语不流利的老年华人患者就诊时，计算机辅助诊断可能显著降低被漏诊的概率，因为模型不依赖患者用流利英语描述症状的能力。

不过华人家庭也要警惕：辅助不等于替代。关键的处置决定（要不要住院、要不要做CT、要不要立即介入）依然需要人类医生承担法律责任。家有老人的华人家属，去急诊时一定要主动陪同沟通，必要时申请医院的中文翻译服务，不要把决策完全交给屏幕。

关键信息

发表期刊：JAMA Internal Medicine
样本：2000例急诊病例
结果：GPT-4 Turbo正确率72% vs 人类平均65%
覆盖医院：Beth Israel Deaconess、Brigham and Women's
研究负责人：Adam Rodman医生
优势区：老年患者+不典型症状（78% vs 56%）
FDA：已开放诊断辅助独立审批通道