OpenAI推出生命科学测评基准LifeSciBench 最强模型通过率仅36.1%

AI创作导航管理员 LV4 资深连续登录7天萌新

2 天前

风向

OpenAI于近期正式推出面向生命科学研究领域的AI模型测评基准LifeSciBench，该基准包含750项由生命科学领域专家打造的真实研究场景任务，配套统一的专家评分规则，现有全球性能最强的大模型在该基准测试中的通过率仅为36.1%。该基准填补了垂直领域AI能力通用测评标准的空白，为相关AI应用落地提供了权威参考。

近年来，大模型在药物分子设计、基因序列解读、临床研究分析等生命科学场景的应用规模快速增长，但此前行业始终缺乏一套能够真实还原科研工作流的统一测评体系，不同机构公布的AI生命科学能力参数往往和实际落地效果存在较大差距。

此前业内针对AI大模型的生命科学能力测评，大多停留在基础知识点考核、虚拟场景模拟等层面，很少涉及真实科研流程中需要多步推理、跨领域知识整合的复杂任务。
不少药企、科研机构在选择适配AI工具时，往往需要自行搭建测试场景，不仅耗时耗力，也很难横向对比不同模型的真实能力边界。

OpenAI 人工智能大模型测评 LifeSciBench 生命科学AI

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

OpenAI推出生命科学测评基准LifeSciBench 最强模型通过率仅36.1%

最新文章

X社区 · 无限公约

二狗PPT

研究首次披露AI编码智能体配置坏味道多问题拉低可靠性推高成本

Elastic拟最高8500万美元收购AI代码质检初创DeductiveAI

AI推理初创Baseten拟筹15亿美元估值130亿距上轮仅数月

Snap拆分内部AI视频团队成立独立公司Dotmo专注AI视频研发

热门文章

OpenCut

小云雀AI

抖音创作者中心

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

OpenAI推出生命科学测评基准LifeSciBench 最强模型通过率仅36.1%

最新文章

X社区 · 无限公约

二狗PPT

研究首次披露AI编码智能体配置坏味道 多问题拉低可靠性推高成本

Elastic拟最高8500万美元收购AI代码质检初创DeductiveAI

AI推理初创Baseten拟筹15亿美元 估值130亿距上轮仅数月

Snap拆分内部AI视频团队 成立独立公司Dotmo专注AI视频研发

热门文章

OpenCut

小云雀AI

抖音创作者中心

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

研究首次披露AI编码智能体配置坏味道多问题拉低可靠性推高成本

AI推理初创Baseten拟筹15亿美元估值130亿距上轮仅数月

Snap拆分内部AI视频团队成立独立公司Dotmo专注AI视频研发