登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

最新研究:生成式AI尚无法独立承担临床推理诊疗任务

美国麻省总医院MESH孵化器团队最新发表于权威医学期刊《JAMA Network Open》的研究,针对当前主流生成式AI的临床推理能力展开了系统性测试。研究团队选取了包括ChatGPT、DeepSeek、Claude在内的21种主流大语言模型,通过29个真实临床病例模拟动态诊疗过程,结果显示当前生成式AI虽在最终诊断上有不错表现,但核心的鉴别诊断环节短板明显,尚不具备独立承担临床诊疗任务的能力。

这项研究没有采用静态考题测试AI的医疗能力,而是刻意贴近临床真实场景设计实验:研究人员选取29个已经得到确诊的典型临床病例,逐步向AI模型释放患者症状、实验室检查数据以及影像结果,完整还原医生接诊时逐步获取信息、逐步推理的动态过程。本次测试共覆盖21款主流大语言模型,囊括了ChatGPT、DeepSeek、Claude、Gemini、Grok等市场知名度最高的头部产品。

实验数据呈现出十分矛盾的结果:当AI模型获得患者的全部临床信息后,所有模型给出正确最终诊断的准确率都超过了90%,这一表现已经接近合格执业医师的水平。但在临床推理最核心的鉴别诊断环节,结果却不尽如人意。

超过80%的参测模型无法完成系统性的鉴别诊断流程,既不能合理列出所有需要排除的潜在疾病,也无法结合已有信息逻辑清晰地完成病因筛选,本质上还是靠“关键词匹配”给出结论,没有形成符合医学规范的推理链条。为了量化不同模型在临床推理上的差距,研究团队还专门引入了PrIME-LLM综合评价指标,为后续行业优化模型能力提供了统一的评估标准。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创