2026年3月,华盛顿州立大学副教授Mesut Cicek领衔的研究团队发布针对ChatGPT科学判断能力的测试报告。团队选取2021年以来商业期刊已验证的719条研究假设反复测试,发现ChatGPT表面正确率达80%,但剔除随机猜测因素后真实表现仅略高于抛硬币概率,假命题识别率仅16.4%,10次重复提问的回答一致性仅约73%。
近年来,以OpenAI旗下ChatGPT为代表的大语言模型已经渗透到科研工作的多个环节,从文献梳理、思路推导到结论验证,都有不少用户选择用AI提升效率。但不同于文字创作、信息检索类需求,科研领域的判断对准确性、一致性要求极高,而此前行业对于大模型在这类场景下的真实表现,一直没有系统的量化结论。
不少用户都有过类似体验:同一个专业问题问ChatGPT两次,得到的答案完全相反,但两次的回答都语气笃定、逻辑通顺,很难分辨哪次是对的。这次华盛顿州立大学的研究,恰好把这种用户感知量化成了具体数据。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录