2026年4月,国产大模型开发团队DeepSeek推出的V4系列模型,在第三方测评机构SuperCLUE的中文大模型综合评测中取得领跑成绩。其中DeepSeek-V4-Pro以70.98分的综合得分重夺国内中文大模型第一,DeepSeek-V4-Flash以68.82分紧随其后,本次测评覆盖六大核心能力维度,两款模型得分均显著领先国内同类开源模型,验证了国产开源大模型的技术进阶。
本次SuperCLUE开展的中文大模型测评,围绕当前大模型落地最受关注的六大核心能力维度设计,分别是数学推理、科学推理、代码生成、智能体任务规划、指令遵循和幻觉控制,全方位覆盖了通用大模型从日常对话到专业场景的能力表现。
和上一代V3.2版本相比,DeepSeek-V4-Pro的提升幅度远超行业平均水平:智能体能力提升超过20分,数学推理提高近10分,指令遵循得分增加近12分,曾经困扰开源模型的幻觉问题也得到了明显优化,两款模型的得分均显著高于国内其他同类参赛模型。
DeepSeek V4系列本次能取得领跑成绩,核心得益于底层技术架构的全新升级。该系列模型采用了重新设计的全新注意力机制,不仅实现了百万级长上下文的稳定处理能力,还针对性降低了推理过程中的算力与显存占用。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
2026年4月30日,小红书宣布启动新一轮组织架构升级,正式设立AI一级部门“Dots”及企业智能部,强化人工智能技术投入。Dots部门覆盖AI模型研发、基础设施、工程落地、产品应用全链路,直接向新任总裁柯南(丁玲)汇报。本次调整同步整合社区、电商、商业化业务线,明确核心管理层分工,为AI驱动业务增长铺路。

1 小时前
2026年4月,小红书宣布启动重大组织升级:任命柯南(本名丁玲)为总裁,统管社区、电商、商业化三大核心业务,向CEO星矢(本名毛文超)汇报;同时成立Dots、企业智能部两大AI一级部门,加码AI技术落地。目前其技术团队已研发出对话式剪辑AI智能体OpenStoryline,支持通过提示词+素材快速生成符合平台风格的视频内容。

2 小时前
2026年4月30日,小红书发布全员内部信宣布启动新一轮组织架构升级,任命柯南(丁玲)为公司总裁全面负责核心业务,直接向CEO星矢汇报。同步设立AI一级部门“Dots”,将AI提升至最高战略优先级,构建覆盖模型研发到产品应用的全链路AI体系,配套成立企业智能部搭建适配AI时代的组织底座,海外部Rednote也同步完成架构落地。

2 小时前
2026年4月30日,OpenAI旗下尚未正式发布的GPT-5.5模型系统提示词意外曝光,相关信息来自其最新开源的Codex CLI代码包。这份长达3500多词的基础指令集中,包含两条重复的高权重禁令:除非用户查询存在绝对明确关联性,否则严禁讨论哥布林、小精灵等生物,业内判断该规则为抑制模型特定幻觉的针对性补丁。

2 小时前
2026年4月OpenAI旗下Codex CLI代码开源,意外泄露尚未正式发布的下一代大模型GPT-5.5的底层运行规则。据Ars Technica披露,其3500余词的系统提示词中设置罕见禁令:无绝对必要关联时,严禁模型提及哥布林、巨魔等6种特定生物,该禁令重复出现2次,优先级与禁止执行破坏性命令等核心规范持平。

4 小时前
百度旗下大语言模型文心一言5.1预览版近日登陆国际权威大模型盲测平台LMSYS Chatbot Arena,最新竞技数据显示其位列总榜第13位。该版本的上线标志着百度核心大模型进入新一轮快速迭代周期,正式接受全球用户的实战质量检验,也成为国产大模型通过国际主流评价体系验证能力的重要信号。

5 小时前
AI大模型产品Claude的开发商Anthropic正推进IPO前最后一轮私募融资,本轮融资规模预计达400亿至500亿美元,为AI行业史上最高私募融资,公司估值被推高至8500亿至9000亿美元。若融资落地,Anthropic估值将在数月内翻倍,有望超过核心竞争对手OpenAI今年2月创下的8520亿美元估值,凸显全球AI赛道资本热度持续攀升。

5 小时前
2026年4月29日举办的第九届数字中国建设峰会上,国务院国资委正式发布十项代表央企最高水平的数字技术成果,覆盖工业软件、核心电子元器件、人工智能等前沿战略领域。其中中国电信推出的星辰大模型实现全模态、全尺寸、全国产化,全技术链条自主可控,另有港口数字孪生智能体拟真决策平台等落地成果同步亮相,标志我国关键数字领域自主可控能力再迈坚实一步。