哈佛研究：AI急诊诊断准确率72%胜过人类医生65%，旧金山医疗圈反应剧烈

5月3日（周日）凌晨，哈佛医学院在JAMA Internal Medicine发表的一项2000例急诊诊断对照研究在湾区医疗AI圈被反复转发。研究结果一句话概括：在受控条件下，OpenAI的GPT-4 Turbo面对2000例真实急诊病例摘要做诊断，正确率达到72%；与之对照的两名持证人类急诊医生平均正确率为65%。

UCSF前急诊主任Wachter：人类与机器协作而非对立

UCSF医学院前急诊主任、被业内称为医疗AI"温和派"的Robert Wachter周日中午接受TechCrunch电话采访，直言这次哈佛研究"证据级别比此前任何一项小样本研究都要高"。但他强调一点："读完研究我更加确信——未来的急诊不是机器替代医生，而是医生在每个病例上多一双机器的眼睛。让人类与机器协作，而不是对立。"

Wachter补充指出，哈佛研究的对照组只有两名医生，样本仍然偏小，且病例摘要由AI预先整理，并非完整电子病历。"在真实急诊里，医生处理的是会喘气、会哭、会撒谎的病人，不是一段干净文本。"

硅谷Glass Health股价当日+22%，SF General Hospital表态参与多中心研究

研究消息发布后，旧金山SoMa创业园区的医疗AI公司Glass Health股价周一开盘前的盘前交易就已飙升，正式开盘后单日涨幅+22%，市值站上12亿美元。Glass Health的产品正是面向急诊与全科医生的AI诊断辅助。CEO Dereck Paul周日下午发声明称，将在未来90天内向UCSF与SF General Hospital同时部署最新版本，开放给临床医生免费试用三个月。

SF General Hospital急诊主任Christopher Colwell周日傍晚通过医院公关办公室回应：医院已与哈佛研究团队建立联系，将参与下一轮多中心扩展研究。Colwell本人态度审慎："看到72%我也很惊讶，但我更想看到这套系统在我们医院真实环境下的300例数据，再判断要不要常规部署。"

Stanford HAI主任Fei-Fei Li警示：研究表明潜力但实际部署需慎重

湾区AI伦理研究所、斯坦福大学HAI（以人为中心AI研究院）主任Fei-Fei Li周日下午在自己的X账号上对哈佛研究做了一段较为冷静的回应："研究表明大模型在受控条件下展示了真实潜力，但实际部署需要慎重对待责任归属、误诊保险、隐私保护、医生工作流嵌入这四个仍未被很好回答的问题。"

Fei-Fei Li还在回帖里@了FDA数字医疗中心，呼吁监管部门尽快出台针对"诊断辅助型大模型"的分类指南，避免行业在监管真空里自由扩张。HAI研究院计划在5月底召开一场公开论坛，邀请哈佛研究团队与FDA官员同台讨论。

本地华人医生协会CAMA讨论：实操怎么走

湾区华人医生协会CAMA（Chinese American Medical Association）旧金山分会约500名医生周日晚组织线上讨论。分会长、Sutter Health内科医生陈志明说，会员们关心的不是"AI会不会取代我"，而是更具体的三个实操问题：第一，AI辅助诊断在病历中如何记录、是否影响医生承担的医疗责任；第二，加州医疗委员会MBC是否会出台医生使用AI的执业指引；第三，医院电子病历系统Epic何时把这类工具原生集成进诊断界面。

会上多名华人急诊医生表示，在SF General与Kaiser Permanente急诊轮班时，已经有同事私下用ChatGPT对照疑难病例。"现在哈佛研究公开发表，我们至少不用偷偷摸摸了。"一位不愿具名的Kaiser急诊主治医生说。

哈佛AI急诊诊断研究关键数字

72%：GPT-4 Turbo在2000例急诊病例中的诊断正确率
65%：两名持证人类急诊医生平均正确率
+22%：医疗AI公司Glass Health股价当日涨幅
12亿美元：Glass Health当日收盘市值
90天：Glass Health承诺向UCSF与SF General部署最新版本时限