2026年4月SuperCLUE-VLM视觉语言大模型评测报告正式发布,在对全球17款主流多模态产品的深度横评中,字节跳动旗下Doubao-Seed-2.0-Pro-260215以90.66分力压谷歌Gemini-3.1-Pro-Preview登顶总榜,阿里Qwen3.5、商汤SenseNova、智谱GLM等多款国产模型跻身第一梯队,国产阵营综合得分整体反超海外顶尖产品。
作为国内最具权威性的大模型第三方评测体系之一,SuperCLUE-VLM的季度评测素来以覆盖维度广、测试场景贴近实际落地需求著称,本次榜单的变动也被业内视为中文多模态领域的标志性拐点。
本次评测共覆盖了全球范围内17款最新迭代的主流视觉语言大模型,最终结果打破了过去两年海外模型长期霸榜的格局。字节跳动旗下的Doubao-Seed-2.0-Pro-260215以90.66分的综合得分位列总榜第一,比此前排名榜首的谷歌Gemini-3.1-Pro-Preview高出1.31分。
除了登顶的豆包模型外,阿里Qwen3.5系列、商汤SenseNova、智谱GLM等多款国产模型均进入榜单前六位,整体构成第一梯队。反观海外阵营,OpenAI GPT-5.4、X.AI旗下Grok等知名产品仅位列中游,在中文相关测试项上得分差距明显。
本次评测设置了基础认知、复杂推理、场景落地三大核心维度,其中接近40%的测试项针对中文语境设计,包括本土文化内容识别、中文多轮图文交互、行业场景中文指令响应等。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
9 分钟前
2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。

12 分钟前
2026年4月29日,腾讯旗下智能工作台ima正式推出个人知识Agent copilot。该产品搭载包含人设、用户档案、长期记忆、经验技巧四大模块的自主进化记忆系统,可实现全场景感知、多端数据联动,将原有AI搜索工具升级为可持续进化的个人知识伙伴,标志着消费级AI应用正式从单次对话工具向长效智能体转型。

40 分钟前
2026年4月29日,蚂蚁集团正式开源百灵大模型系列新品Ling-2.6-flash。该模型总参数达104B、激活参数仅7.4B,同步推出BF16、FP8、INT4三类精度版本适配不同硬件环境,大幅降低部署门槛。该模型此前曾以“Elephant Alpha”匿名在OpenRouter平台完成两周测试,优化后中英文切换、编程框架适配能力均有显著提升。

42 分钟前
2026年4月29日消息,国产AI厂商月之暗面宣布将于今年第三季度正式推出下一代主力大模型Kimi K3,该模型参数规模达2.5万亿,超过DeepSeek V4 Pro的1.6万亿、百度文心5.0的2.4万亿,有望登顶国产大模型参数榜,同时其标志性的长文本处理能力也将迎来升级,或将进一步拉高国内大模型竞争门槛。

1 小时前
2026年4月28日,伦敦帝国理工学院、互联网档案馆与斯坦福大学联合发布研究报告,对2022至2025年33个月的网页样本分析显示,截至2025年中期全球35%新发布网站内容全部或部分由AI生成,较2022年底ChatGPT发布前的近乎零占比实现爆发式增长,AI内容语义相似度较人类原创高33%,正深度改变互联网话语体系。

1 小时前
2026年4月29日,欧盟各国代表与欧洲议会立法者经过12小时磋商,仍未就全球最严AI监管法案达成一致,谈判将在下月重启。该法案原计划2024年8月生效,属欧盟数字综合法案组成部分,重点监管生物识别、医疗等高危AI场景。欧盟轮值主席国塞浦路斯官员证实谈判搁浅,荷兰议员金・范・斯帕伦塔克公开表达失望,认为监管空窗或让科技巨头受益。

1 小时前
2026年4月28日,商汤科技正式开源旗下“日日新SenseNova U1”原生理解生成统一多模态大模型。该产品基于商汤2026年3月自主研发的NEO-unify架构打造,突破传统多模态模型视觉、语言模块拼接导致的信息损耗瓶颈,实现单框架内理解、推理、生成能力深度融合,标志着国产多模态AI技术路径实现重要创新。

1 小时前
2026年4月28日,商汤科技正式发布并开源日日新SenseNova U1系列原生多模态模型,该产品基于商汤2026年3月自主研发的NEO-unify架构,摒弃主流拼接式设计,去除视觉编码器与变分自编码器,首次在单一框架下实现多模态理解、推理与生成的深度统一,标志着多模态AI从“集成式”向“原生统一”的核心技术跨越。