美国麻省总医院MESH孵化器团队最新发表于权威医学期刊《JAMA Network Open》的研究,针对当前主流生成式AI的临床推理能力展开了系统性测试。研究团队选取了包括ChatGPT、DeepSeek、Claude在内的21种主流大语言模型,通过29个真实临床病例模拟动态诊疗过程,结果显示当前生成式AI虽在最终诊断上有不错表现,但核心的鉴别诊断环节短板明显,尚不具备独立承担临床诊疗任务的能力。
这项研究没有采用静态考题测试AI的医疗能力,而是刻意贴近临床真实场景设计实验:研究人员选取29个已经得到确诊的典型临床病例,逐步向AI模型释放患者症状、实验室检查数据以及影像结果,完整还原医生接诊时逐步获取信息、逐步推理的动态过程。本次测试共覆盖21款主流大语言模型,囊括了ChatGPT、DeepSeek、Claude、Gemini、Grok等市场知名度最高的头部产品。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录