2026年4月,腾讯正式推出新一代AI大模型混元3.0(内部代号Hy3),在AI专家姚顺雨带领的研发团队推动下,其编程能力实现突破性提升,SWE-Bench编程测试得分达74.4%,较上一代混元2.0提升超40%,目前该模型以Hy3preview名义在OpenRouter平台免费开放体验,已跻身国内大模型第一梯队。
国内大模型赛道的竞争正在从通用能力比拼,转向垂直场景的硬核能力卡位,其中开发场景的代码生成、调试能力,已经成为2026年头部厂商竞速的核心赛点。腾讯此次推出的混元3.0,正是瞄准这一赛道缺口交出的最新答卷。
根据公开的SWE-Bench编程能力测试数据,混元3.0的得分达到74.4%,而此前发布的混元2.0得分仅为53.0%,性能提升幅度超过40%。这一成绩已经接近智谱AI推出的GLM-4.7,尽管距离最新的GLM-5仍有一定差距,但已经足以让混元3.0进入国内代码能力最强的大模型第一阵营。
架构层面,混元3.0采用了当下主流的MoE(混合专家)架构,设置三个不同级别的推理档位,支持最长262K的上下文窗口,能够处理长代码文件的全量解析、跨模块调试等复杂开发需求,对中大型项目的开发辅助能力远高于上一代产品。
混元3.0的性能大幅跃升,与腾讯此前引入的AI专家姚顺雨直接相关。作为深耕大模型性能优化、代码专项训练领域的资深研究者,姚顺雨加盟腾讯后,牵头重构了混元大模型的代码训练数据集、优化了模型微调策略,直接解决了此前混元系列代码能力偏弱的短板。
业内人士指出,头部科技企业对核心AI研发人才的争夺,正在直接影响大模型产品的迭代速度,人才的流动已经成为决定大模型赛道竞争格局的核心变量之一。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
10 小时前
2026年4月24日,中国AI创业公司DeepSeek正式推出全新迭代的V4大语言模型,长期关注全球AI产业的撰稿人Caiwei Chen指出,这款千呼万唤的新一代大模型,在推理效率上实现显著提升,并且深度适配国产AI芯片架构,被业内认为是既能够降低AI落地的算力成本,也为国产芯片厂商商业化打开新增长空间的标志性产品。

11 小时前
2026年4月,AI领域最新人才流动动态显示,此前Meta曾从独立AI研发机构Thinking Machines Lab挖走多名核心大模型研发人才,近期这一流动出现双向反转,已有至少7名原任职于Meta GenAI部门的资深研究员加入Thinking Machines Lab。业内认为,这反映出头部大厂与独立AI实验室的人才博弈出现新变化,核心人才争夺进入更复杂的新阶段。

14 小时前
2026年4月,全球科技巨头谷歌已敲定对AI初创公司Anthropic的最新投资计划,总规模最高可达400亿美元,涵盖现金与算力资源支持。Anthropic刚有限发布面向网络安全领域的大模型Mythos,全球头部AI玩家正加速囤积算力、争抢头部创业项目,以在通用与垂直AI赛道竞争中占据优势,行业洗牌速度进一步加快。

15 小时前
近日,前OpenAI研究科学家主导研发的全新生成式AI大模型正式推出,该项目由腾讯支持落地。与此同时,国内大模型创业公司DeepSeek也发布了迭代升级的全新旗舰大模型。近期国内生成式AI赛道动作频频,头部科技企业与前沿创业机构同步推进技术更新,行业产品迭代速率明显加快,竞争格局正迎来新的变化。

15 小时前
2026年4月,苹果旗下紧凑型台式电脑Mac mini因成为个人用户运行本地AI大模型的热门选择,市场需求暴增后出现全渠道缺货情况。第三方交易平台eBay现已出现大量加价转卖的Mac mini货源,多款全新、二手机型溢价幅度明显高于常规二级市场水平,这一缺货现象也侧面反映出个人本地AI部署需求的快速增长。

17 小时前
2026年4月,专注AI编程赛道的初创公司Cursor启动新一轮大额融资,给出500亿美元的预期估值。此前SpaceX曾传出有意以600亿美元整体收购Cursor,但此次融资对接中,包括Iconiq在内的多家顶级后期投资机构均明确拒绝投资,业内将遇冷归因于全球AI资本已完成向OpenAI、Anthropic等头部巨头的初期布局,投资情绪整体转向审慎。

17 小时前
2026年4月24日,国产AI领军企业DeepSeek正式发布新一代旗舰大模型DeepSeek V4,本次发布采用细分化产品策略,推出DeepSeek-V4-Flash、DeepSeek-V4-Pro双版本,分别覆盖轻量高频应用与复杂推理两类核心场景,整合了原有deepseek-chat与deeps...

17 小时前
2026年4月24日,中国大模型开发商深度求索(DeepSeek)正式发布全新DeepSeek-V4系列大语言模型预览版,并同步开放源码。该系列实现了1M(百万字)超长上下文能力的标准化,分为Pro、Flash双版本覆盖不同需求,其中1.6T总参数的Pro版性能对标顶级闭源模型,整体推理、Agent协作能力处于国内及开源领域领先位置。