登录体验完整功能(收藏、点赞、评论等) — 已累计有 12022 人加入

OpenAI推出生命科学测评基准LifeSciBench 最强模型通过率仅36.1%

详情页推荐

OpenAI于近期正式推出面向生命科学研究领域的AI模型测评基准LifeSciBench,该基准包含750项由生命科学领域专家打造的真实研究场景任务,配套统一的专家评分规则,现有全球性能最强的大模型在该基准测试中的通过率仅为36.1%。该基准填补了垂直领域AI能力通用测评标准的空白,为相关AI应用落地提供了权威参考。

配图

近年来,大模型在药物分子设计、基因序列解读、临床研究分析等生命科学场景的应用规模快速增长,但此前行业始终缺乏一套能够真实还原科研工作流的统一测评体系,不同机构公布的AI生命科学能力参数往往和实际落地效果存在较大差距。

此前业内针对AI大模型的生命科学能力测评,大多停留在基础知识点考核、虚拟场景模拟等层面,很少涉及真实科研流程中需要多步推理、跨领域知识整合的复杂任务。
不少药企、科研机构在选择适配AI工具时,往往需要自行搭建测试场景,不仅耗时耗力,也很难横向对比不同模型的真实能力边界。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。