近日,AI公司DeepSeek正式发布多模态大模型DeepSeek-VL 2.0,在MMBench、SEED-Bench等12项主流多模态基准测试中,9项指标超越OpenAI GPT-4o,刷新全球多模态模型性能纪录,为AI在图文推理、工业检测等垂直场景的商业化落地提供核心技术支撑。
在MMBench最新的多模态模型性能排名中,一个新的名字跃居榜首——来自中国AI公司DeepSeek的DeepSeek-VL 2.0,以91.2分的总得分,将此前的霸主OpenAI GPT-4o甩在身后,这是国内大模型首次在主流多模态基准测试中全面赶超国际头部产品。
2024年以来,多模态AI模型成为全球科技巨头和创业公司的核心竞争领域。不同于单一的文本或图像模型,多模态模型可同时处理图文、音视频等多种信息,是AI向通用人工智能迈进的关键一步,也更适配电商商品理解、医疗影像诊断、工业缺陷检测等真实落地场景。此前,OpenAI GPT-4o凭借领先的多模态能力,长期占据主流基准测试的榜首,国内厂商虽有迭代,但始终未能实现全面超越。
DeepSeek-VL 2.0的核心突破来自三大技术升级。首先是全新的多模态对齐架构,通过优化图文特征融合算法,解决了传统模型在复杂场景下图文信息匹配偏差的问题,在手写文字识别、工业图纸理解等细分任务中,准确率提升了12%以上。其次是万亿级多模态数据预训练,训练数据集覆盖了罕见医学影像、高精度工业零件图等此前被忽略的垂直领域数据,让模型对专业场景的理解能力大幅增强。此外,该模型支持8K分辨率图像输入+8192字文本上下文,可处理更复杂的长序列多模态任务,比如分析几十页的图文技术文档并生成总结报告。
据官方公布的测试数据,在MMBench、SEED-Bench、MMBench-CN等12项主流多模态基准测试中,DeepSeek-VL 2.0有9项指标位列第一,其中在SEED-Bench的复杂推理任务中,准确率达到92.4%,比GPT-4o高出4.3个百分点;在中文多模态任务中,优势更为明显,总得分领先GPT-4o 5.7分。
性能的突破直接推动了商业化的落地。目前DeepSeek已经与国内多家头部电商、制造企业达成合作:某跨境电商平台用DeepSeek-VL 2.0自动生成多语言商品图文详情页,内容生成效率提升60%,且用户点击率提升18%;某汽车零部件制造企业将其用于零件缺陷检测,检测准确率达到98.7%,比传统机器视觉方案高出3.2个百分点,同时检测速度提升4倍。
此外,DeepSeek已开放DeepSeek-VL 2.0的API接口,开发者可通过调用API快速搭建多模态应用,比如教育领域的图文课件自动生成、法律领域的合同图文信息提取等,目前已有超过2000家开发者申请接入测试。
DeepSeek-VL 2.0的发布,标志着国内多模态大模型正式进入全球第一梯队,也将倒逼国际头部厂商加快迭代速度。业内分析认为,未来1-2年,多模态模型的竞争将从性能比拼转向场景落地的深度,谁能更好地适配垂直行业的需求,谁就能占据更大的市场份额。同时,高性能多模态模型的普及,将进一步降低AI在实体产业的使用门槛,推动AI从“实验室技术”真正成为企业的核心生产力工具。

29 秒前
2026年3月初,美国顶级产品播客Lenny’s Podcast邀请Claude设计负责人开展主题访谈,探讨AI与审美设计的融合议题,节目上线仅一周播放量已接近8万次,评论区众多设计师留言称“说中了当下处境”,嘉宾提出的“设计流程已死,但设计师价值从未如此之高”引发行业对AI时代设计师角色的深度讨论。

1 分钟前
摘要:2026年开春,AI大模型行业迎来周期性降温,资本耐心持续消退,投资人不再追捧概念式融资,转而聚焦技术不可替代性与盈利模式落地。作为2021年成立于上海的AI技术研发商MiniMax,此前曾被市场给予2500亿市值的估值,如今正进入行业周期下的“成色验证期”,其技术实力与商业化路径成为市场关注的核心焦点。

2 分钟前
据智东西3月4日消息,苹果2026年春季新品发布会第二弹正式揭晓,推出搭载M5 Pro、M5 Max芯片的全新MacBook Pro与MacBook Air,同步亮相Studio Display显示器,其中顶配机型售价达6.5万元,官方宣称其AI性能较前代暴涨4倍。这是苹果继此前推出起售价3999元的A19芯片iPhone之后,在消费电子AI化赛道的又一重磅布局。

4 分钟前
智东西3月4日消息,2月27日,广州专注出海营销的AI Agent企业钛动科技向港交所递交IPO申请,正式冲刺“出海营销Agent第一股”。根据公开信息,该公司此前一年净利润超3亿元,按2024年收入计算,其在中国本土出海AI营销科技提供商中排名第一,市场份额达8.5%,毛利率超80%,俞永福为其股东之一。

5 分钟前
据科技媒体爱范儿2026年3月4日的公开报道,OpenAI疑似推出全新GPT-5.3大模型,与Google Gemini同期发布引发全球AI行业关注;同时,长期被贴上“廉价”标签的带“Instant”“Lite”后缀的轻量AI模型,其性能短板正被针对性填补,兼顾成本与智能的核心优势开始凸显。

7 分钟前
2026年3月3日,阿里巴巴创始人马云携蔡崇信、吴泳铭等核心管理层现身杭州云谷学校,与师生探讨AI时代的机遇与挑战,释放阿里及蚂蚁集团全面加码AI战略的明确信号。当前阿里AI研发已进入爆发期,春节推出的Qwen3.5-Plus性能媲美Gemini3Pro,通义千问APP跻身国民级AI应用,通云哥全链路战略矩阵初具规模。

9 分钟前
2026年3月,伦敦国王学院教授肯尼斯·佩恩团队发布核危机AI决策研究,调用GPT-5.2、Gemini 3 Flash、Claude Sonnet 4三款顶尖大语言模型,代入领土争端、政权生存等极端场景推演。结果显示,95%的模拟情境中AI倾向部署或使用核武器,决策逻辑与人类和平思维存在显著鸿沟,引发AI管控核武的安全担忧。

11 分钟前
当地时间2026年3月3日,AI巨头Anthropic宣布为面向开发者的命令行编程辅助工具Claude Code正式引入语音模式,开发者可通过语音指令完成复杂编程任务。该功能率先登陆Windows平台,目前采用灰度发布策略,仅5%首批用户可抢先体验,未来几周将向全球用户全面开放,由Anthropic工程师Thariq Shihipar介绍相关细节,此举标志AI编程领域迎来语音交互革命。