美国麻省总医院MESH孵化器团队最新发表于权威医学期刊《JAMA Network Open》的研究,针对当前主流生成式AI的临床推理能力展开了系统性测试。研究团队选取了包括ChatGPT、DeepSeek、Claude在内的21种主流大语言模型,通过29个真实临床病例模拟动态诊疗过程,结果显示当前生成式AI虽在最终诊断上有不错表现,但核心的鉴别诊断环节短板明显,尚不具备独立承担临床诊疗任务的能力。
这项研究没有采用静态考题测试AI的医疗能力,而是刻意贴近临床真实场景设计实验:研究人员选取29个已经得到确诊的典型临床病例,逐步向AI模型释放患者症状、实验室检查数据以及影像结果,完整还原医生接诊时逐步获取信息、逐步推理的动态过程。本次测试共覆盖21款主流大语言模型,囊括了ChatGPT、DeepSeek、Claude、Gemini、Grok等市场知名度最高的头部产品。
实验数据呈现出十分矛盾的结果:当AI模型获得患者的全部临床信息后,所有模型给出正确最终诊断的准确率都超过了90%,这一表现已经接近合格执业医师的水平。但在临床推理最核心的鉴别诊断环节,结果却不尽如人意。
超过80%的参测模型无法完成系统性的鉴别诊断流程,既不能合理列出所有需要排除的潜在疾病,也无法结合已有信息逻辑清晰地完成病因筛选,本质上还是靠“关键词匹配”给出结论,没有形成符合医学规范的推理链条。为了量化不同模型在临床推理上的差距,研究团队还专门引入了PrIME-LLM综合评价指标,为后续行业优化模型能力提供了统一的评估标准。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
2026年4月,谷歌正式在印度市场推出Gemini个人智能功能,该功能允许印度用户授权绑定Gmail、Google Photos等自有谷歌账号,可基于用户留存的个人数据生成高度定制化的问题回答。本次落地是谷歌Gemini大模型生态向新兴市场下沉的重要动作,印度作为全球用户规模第二、增速最快的互联网市场,此举也被看作谷歌抢占个人AI助理赛道的关键布局。

2 小时前
美国宾夕法尼亚大学认知科学研究团队近日完成一项针对ChatGPT、Google Gemini、GPT-4等主流大语言模型聊天机器人的专项研究,结果显示超82%的测试场景中,AI会根据用户提问内容产生隐性人格评判,这种评判进一步导致输出内容出现不公平偏差,涉及个人背景、价值取向的提问中偏差率高达61%。本文梳理研究核心发现,探讨AI隐性偏见对普通用户的实际影响。

2 小时前
4月13日消息,创业孵化器YC总裁加里·谭(Garry Tan)开源了一款名为GBrain的AI记忆外挂工具,项目上线仅3天就在代码托管平台GitHub收获约7100个星标,目前已迭代至0.9.0版本。该工具可统一整理索引用户多场景个人数据,帮助开发者低成本搭建个人专属mini AGI,上线后迅速引发开源AI社区热捧。

4 小时前
谷歌近日面向全球智能家居控制应用Google Home推送一系列功能升级,核心围绕谷歌自研大语言模型Gemini优化人与智能家居的交互体验,本次升级覆盖复杂指令识别、跨设备联动、上下文记忆三大模块,预计两周内逐步推送给所有开通Gemini服务的Google Home用户,覆盖全球超200个国家和地区的消费级用户。

6 小时前
2026年4月14日,国内大模型厂商MiniMax对旗下MiniMax Agent桌面端推出两项重磅功能更新,正式开放Beta版Pocket功能,同时解锁了此前备受业内关注的Computer Use能力。Pocket可深度接入飞书、微信等主流办公通讯软件,让用户无需切换界面即可调用AI智能体,此次更新被视为Agent落地日常办公场景的关键一步。

7 小时前
2026年4月,谷歌AI研究团队正式推出基于大语言模型(LLM)的新型技能测评方法Vantage,瞄准教育领域长期存在的痛点——协作、创造力、批判性思维等“持久技能”一直缺乏可扩展、严谨有效的评估工具。Vantage通过大语言模型模拟真实团队互动,平衡了测评的真实感与可重复性,弥补了传统测试及过往方案的不足,为软技能评估提供了新的技术路径。

8 小时前
2026年4月,一份OpenAI首席营收官德尼丝・德雷塞尔的四页内部备忘录被曝光,内容直指竞争对手Anthropic此前官宣的300亿美元年化收入数据严重注水。OpenAI指出Anthropic采用总额法统计收入虚增约80亿美元,按行业通用净额法计算其真实收入约220亿美元,仍低于OpenAI自身的250亿美元,同时直指对手存在产品体验缺陷,引发AI行业热议。

8 小时前
2026年4月,一份OpenAI内部备忘录流出,公司首席营收官丹尼斯·德莱瑟披露,OpenAI计划在2026年第二季度推出代号为Spud的新一代大语言模型,市场普遍推测该模型为GPT-5o或GPT-5.5,将直接对标竞争对手Anthropic的Claude Mythos。新模型采用英伟达Blackwell架构训练,早期测试已收获客户对推理性能的积极反馈。