中国平安旗下平安科技研发的医疗大模型3.5,近日在OpenAI推出的全球权威医疗AI评测子集HealthBench Hard中,以57.27分的成绩登顶全球第一,超越Meta、OpenAI等国际AI巨头。该评测由来自60个国家的262名医生共同构建,包含5000组高仿真复杂临床对话,核心测试大模型的临床推理能力。
不同于多数医疗AI评测依赖结构化的公开病历数据,本次HealthBench Hard评测从出题阶段就贴合临床真实需求。评测团队联合全球60个国家的262名临床医生,整理出5000组覆盖疑难杂症、多症状交叉场景的高仿真医患对话,专门筛选出通用大模型容易出错的高难度考题,核心考察大模型在真实诊疗环节的逻辑推理与判断能力,结果认可度远高于普通行业测试。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录