少找工具,多做创作

DeepSeek推出多模态大模型VL 2.0,多项测试赶超GPT-4o

近日,AI公司DeepSeek正式发布多模态大模型DeepSeek-VL 2.0,在MMBench、SEED-Bench等12项主流多模态基准测试中,9项指标超越OpenAI GPT-4o,刷新全球多模态模型性能纪录,为AI在图文推理、工业检测等垂直场景的商业化落地提供核心技术支撑。

在MMBench最新的多模态模型性能排名中,一个新的名字跃居榜首——来自中国AI公司DeepSeek的DeepSeek-VL 2.0,以91.2分的总得分,将此前的霸主OpenAI GPT-4o甩在身后,这是国内大模型首次在主流多模态基准测试中全面赶超国际头部产品。

2024年以来,多模态AI模型成为全球科技巨头和创业公司的核心竞争领域。不同于单一的文本或图像模型,多模态模型可同时处理图文、音视频等多种信息,是AI向通用人工智能迈进的关键一步,也更适配电商商品理解、医疗影像诊断、工业缺陷检测等真实落地场景。此前,OpenAI GPT-4o凭借领先的多模态能力,长期占据主流基准测试的榜首,国内厂商虽有迭代,但始终未能实现全面超越。

DeepSeek-VL 2.0的核心突破来自三大技术升级。首先是全新的多模态对齐架构,通过优化图文特征融合算法,解决了传统模型在复杂场景下图文信息匹配偏差的问题,在手写文字识别、工业图纸理解等细分任务中,准确率提升了12%以上。其次是万亿级多模态数据预训练,训练数据集覆盖了罕见医学影像、高精度工业零件图等此前被忽略的垂直领域数据,让模型对专业场景的理解能力大幅增强。此外,该模型支持8K分辨率图像输入+8192字文本上下文,可处理更复杂的长序列多模态任务,比如分析几十页的图文技术文档并生成总结报告。

据官方公布的测试数据,在MMBench、SEED-Bench、MMBench-CN等12项主流多模态基准测试中,DeepSeek-VL 2.0有9项指标位列第一,其中在SEED-Bench的复杂推理任务中,准确率达到92.4%,比GPT-4o高出4.3个百分点;在中文多模态任务中,优势更为明显,总得分领先GPT-4o 5.7分。

性能的突破直接推动了商业化的落地。目前DeepSeek已经与国内多家头部电商、制造企业达成合作:某跨境电商平台用DeepSeek-VL 2.0自动生成多语言商品图文详情页,内容生成效率提升60%,且用户点击率提升18%;某汽车零部件制造企业将其用于零件缺陷检测,检测准确率达到98.7%,比传统机器视觉方案高出3.2个百分点,同时检测速度提升4倍。

此外,DeepSeek已开放DeepSeek-VL 2.0的API接口,开发者可通过调用API快速搭建多模态应用,比如教育领域的图文课件自动生成、法律领域的合同图文信息提取等,目前已有超过2000家开发者申请接入测试。

DeepSeek-VL 2.0的发布,标志着国内多模态大模型正式进入全球第一梯队,也将倒逼国际头部厂商加快迭代速度。业内分析认为,未来1-2年,多模态模型的竞争将从性能比拼转向场景落地的深度,谁能更好地适配垂直行业的需求,谁就能占据更大的市场份额。同时,高性能多模态模型的普及,将进一步降低AI在实体产业的使用门槛,推动AI从“实验室技术”真正成为企业的核心生产力工具。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯