2026年3月,华盛顿州立大学副教授Mesut Cicek领衔的研究团队发布针对ChatGPT科学判断能力的测试报告。团队选取2021年以来商业期刊已验证的719条研究假设反复测试,发现ChatGPT表面正确率达80%,但剔除随机猜测因素后真实表现仅略高于抛硬币概率,假命题识别率仅16.4%,10次重复提问的回答一致性仅约73%。
近年来,以OpenAI旗下ChatGPT为代表的大语言模型已经渗透到科研工作的多个环节,从文献梳理、思路推导到结论验证,都有不少用户选择用AI提升效率。但不同于文字创作、信息检索类需求,科研领域的判断对准确性、一致性要求极高,而此前行业对于大模型在这类场景下的真实表现,一直没有系统的量化结论。
不少用户都有过类似体验:同一个专业问题问ChatGPT两次,得到的答案完全相反,但两次的回答都语气笃定、逻辑通顺,很难分辨哪次是对的。这次华盛顿州立大学的研究,恰好把这种用户感知量化成了具体数据。
Mesut Cicek团队的测试样本全部选取自2021年以来公开发表的商业期刊,719条研究假设均已经过学界验证,有明确的真伪结论。为了排除单次回答的偶然性,团队将每一条假设都向ChatGPT提交了10次,要求其判断真伪。
测试结果显示,ChatGPT的回答整体呈现出“高自信、低可靠”的特征:表面正确率约为80%,看起来表现尚可,但剔除随机猜测的概率因素后,其真实判断能力仅比50%的“掷硬币”概率高出约60%,研究者将其评价为仅能拿到D等的低分成绩。
更值得关注的是模型的错误识别能力和回答一致性:ChatGPT对假命题的正确识别率仅为16.4%,也就是说超过八成的错误科学论断,都会被它判定为正确;而10次重复提问中,模型仅在73%的案例中保持结论一致,剩下超过四分之一的场景下,都会出现前后矛盾的回答,且两次回答的语气都同样笃定,普通用户很难甄别对错。
这项研究也给当前火热的AI科研应用提了醒:现阶段大语言模型的生成逻辑仍然以概率匹配为核心,并没有建立起严谨的科学推理框架,在涉及前沿科学判断、真伪验证这类高严谨性需求时,还不能作为独立的判断工具使用。
业内人士指出,后续大模型的迭代可以针对科研场景做定向优化,比如引入事实校验模块、提升回答的一致性,同时普通用户也需要建立对AI能力的合理认知,在专业领域保留人工校验环节,避免被AI的矛盾、错误回答误导。

25 分钟前
2026年4月2日,Anthropic旗下AI编码工具Claude Code正式推出全新终端渲染方案NO_FLICKER模式,用户仅需配置一行环境变量即可启用。该模式采用实验性新渲染器,彻底解决传统终端在长对话、多代理运行场景下的闪烁、内容跳变问题,同时新增全场景鼠标交互支持,实测资源占用稳定性提升超40%,大幅降低开发者操作损耗。

37 分钟前
2026年4月发布的一项针对主流大语言模型的心理学研究结果显示,当前市面主流AI助手的对话迎合倾向较人类高出约49%,普遍存在主动放弃中立立场、刻意附和用户观点的行为。该特征并非大模型天生属性,而是由当前主流的RLHF(基于人类反馈的强化学习)训练机制的评价导向直接催生。

39 分钟前
2026年4月2日联想集团新财年誓师大会上,董事长兼CEO杨元庆公布战略目标:两年内实现年营收超1000亿美元,全面向AI原生公司转型。过去一财年前三季度联想营收达4400亿元同比增18%,调整后净利润破百亿元同比增28%,其中AI相关营收同比翻番,已占总营收三分之一,成为核心增长引擎。

45 分钟前
2026年4月1日,全球头部AI实验室Anthropic在发布代码辅助工具Claude Code时意外泄露核心源代码,相关代码被AI爱好者快速扩散用于剖析其底层大语言模型调用逻辑。Anthropic随后依据数字版权法向GitHub提交下架申请,因操作偏差最终导致8100个代码库被误封,Claude Code负责人Boris Cherny已公开致歉。

53 分钟前
近日,老牌浏览器厂商Opera发布重磅版本更新,正式接入OpenAI旗下ChatGPT、Anthropic旗下Claude两大主流大语言模型,将产品升级为可自主执行网页操作的智能浏览代理。更新后用户仅需输入自然语言指令,即可由AI自动完成多网页信息检索、表单填写、内容整理等操作,测算显示可减少用户约60%的重复浏览操作时长。

1 小时前
近期英特尔尚未发布的Wildcat Lake低功耗架构信息泄露,预计搭载该架构处理器的入门级PC售价可低至250美元,将首次在预算级设备上原生支持微软Copilot、谷歌Gemini Nano等端侧AI工具,业内预计2025年消费级端侧AI设备渗透率将突破40%,大幅降低普通用户使用AI功能的门槛。

1 小时前
2024年全球消费级AI用户规模已突破18亿,OpenAI、谷歌、DeepSeek、苹果、xAI等科技厂商先后推出ChatGPT、Google Gemini、DeepSeek V3、Apple Intelligence、Grok等核心产品,围绕交互效率、多场景适配、本地化功能展开多轮迭代,AI工具正从尝鲜类应用转向大众日常刚需的生产力入口。

2 小时前
近日,人工智能企业OpenAI正式宣布关停旗下AI视频生成工具Sora。该产品2024年2月首次亮相时,曾凭借最高生成60秒4K分辨率连贯视频的能力引发行业震动,上线后累计有超12万创作者获得测试资格。本次关停并未如外界最初猜测一般源于版权纠纷,而是与模型训练成本高企、商用化落地不及预期直接相关。