DeepSeek推出多模态大模型VL 2.0，多项测试赶超GPT-4o

AI创作导航 2 个月前

风向

近日，AI公司DeepSeek正式发布多模态大模型DeepSeek-VL 2.0，在MMBench、SEED-Bench等12项主流多模态基准测试中，9项指标超越OpenAI GPT-4o，刷新全球多模态模型性能纪录，为AI在图文推理、工业检测等垂直场景的商业化落地提供核心技术支撑。

在MMBench最新的多模态模型性能排名中，一个新的名字跃居榜首——来自中国AI公司DeepSeek的DeepSeek-VL 2.0，以91.2分的总得分，将此前的霸主OpenAI GPT-4o甩在身后，这是国内大模型首次在主流多模态基准测试中全面赶超国际头部产品。

2024年以来，多模态AI模型成为全球科技巨头和创业公司的核心竞争领域。不同于单一的文本或图像模型，多模态模型可同时处理图文、音视频等多种信息，是AI向通用人工智能迈进的关键一步，也更适配电商商品理解、医疗影像诊断、工业缺陷检测等真实落地场景。此前，OpenAI GPT-4o凭借领先的多模态能力，长期占据主流基准测试的榜首，国内厂商虽有迭代，但始终未能实现全面超越。

DeepSeek-VL 2.0的核心突破来自三大技术升级。首先是全新的多模态对齐架构，通过优化图文特征融合算法，解决了传统模型在复杂场景下图文信息匹配偏差的问题，在手写文字识别、工业图纸理解等细分任务中，准确率提升了12%以上。其次是万亿级多模态数据预训练，训练数据集覆盖了罕见医学影像、高精度工业零件图等此前被忽略的垂直领域数据，让模型对专业场景的理解能力大幅增强。此外，该模型支持8K分辨率图像输入+8192字文本上下文，可处理更复杂的长序列多模态任务，比如分析几十页的图文技术文档并生成总结报告。

据官方公布的测试数据，在MMBench、SEED-Bench、MMBench-CN等12项主流多模态基准测试中，DeepSeek-VL 2.0有9项指标位列第一，其中在SEED-Bench的复杂推理任务中，准确率达到92.4%，比GPT-4o高出4.3个百分点；在中文多模态任务中，优势更为明显，总得分领先GPT-4o 5.7分。

多模态大模型 DeepSeek GPT-4o 人工智能 AI商业化

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

DeepSeek

深度求索旗下开源大模型与AI服务平台

文心

百度旗下全场景AI智能助手

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具

Fxroom AI

面向创作者的AI图像视频创意工