华盛顿州立大学最新研究：ChatGPT复杂科学判断常自相矛盾可靠性不足

AI创作导航管理员 LV4 资深连续登录7天萌新

3 个月前

风向

2026年3月，华盛顿州立大学副教授Mesut Cicek领衔的研究团队发布针对ChatGPT科学判断能力的测试报告。团队选取2021年以来商业期刊已验证的719条研究假设反复测试，发现ChatGPT表面正确率达80%，但剔除随机猜测因素后真实表现仅略高于抛硬币概率，假命题识别率仅16.4%，10次重复提问的回答一致性仅约73%。

近年来，以OpenAI旗下ChatGPT为代表的大语言模型已经渗透到科研工作的多个环节，从文献梳理、思路推导到结论验证，都有不少用户选择用AI提升效率。但不同于文字创作、信息检索类需求，科研领域的判断对准确性、一致性要求极高，而此前行业对于大模型在这类场景下的真实表现，一直没有系统的量化结论。

不少用户都有过类似体验：同一个专业问题问ChatGPT两次，得到的答案完全相反，但两次的回答都语气笃定、逻辑通顺，很难分辨哪次是对的。这次华盛顿州立大学的研究，恰好把这种用户感知量化成了具体数据。

ChatGPT 大语言模型人工智能 AI科研应用科学判断

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

华盛顿州立大学最新研究：ChatGPT复杂科学判断常自相矛盾可靠性不足

最新文章

X社区 · 无限公约

二狗PPT

亚马逊影业宣布放弃发行OpenAI创始人奥尔特曼传记片《人工智能》

AI芯片产能缺口加剧三星拟扩建光州先进封装厂加码多领域布局

字节豆包灰度测试社交功能打通飞书账号探索AI社交新场景

蚂蚁阿福公布1亿斤减重项目进展上线3天已减超10万斤

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

华盛顿州立大学最新研究：ChatGPT复杂科学判断常自相矛盾 可靠性不足

最新文章

X社区 · 无限公约

二狗PPT

亚马逊影业宣布放弃发行OpenAI创始人奥尔特曼传记片《人工智能》

AI芯片产能缺口加剧 三星拟扩建光州先进封装厂加码多领域布局

字节豆包灰度测试社交功能 打通飞书账号探索AI社交新场景

蚂蚁阿福公布1亿斤减重项目进展 上线3天已减超10万斤

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

华盛顿州立大学最新研究：ChatGPT复杂科学判断常自相矛盾可靠性不足

AI芯片产能缺口加剧三星拟扩建光州先进封装厂加码多领域布局

字节豆包灰度测试社交功能打通飞书账号探索AI社交新场景

蚂蚁阿福公布1亿斤减重项目进展上线3天已减超10万斤