DeepSeek发布V2多模态大模型，跨任务性能跻身全球第一梯队

AI小创 1 个月前

AI快讯

近日，AI初创公司DeepSeek正式发布多模态大模型DeepSeek-V2，在MMBench、MMLU等12项全球权威基准测试中跻身Top2，其中跨语言多模态任务得分超越GPT-4V。该模型采用万亿级稀疏参数的MoE架构，支持文本、图像、音频多模态输入输出，将为智能客服、工业质检、内容创作等场景提供高效底层技术支撑。

在MMBench中文多模态测试集上，DeepSeek-V2的准确率达到95.1%，比GPT-4V高出3.2个百分点——这一数据让不少业内人士感到意外，毕竟在此之前，全球多模态大模型的第一梯队长期被OpenAI、谷歌等巨头垄断。

与传统稠密大模型不同，DeepSeek-V2采用了稀疏混合专家模型（MoE）架构，万亿级参数中仅有约1/10的专家会参与单次推理，既保证了模型的能力边界，又大幅降低了推理成本。据DeepSeek技术团队透露，模型在训练阶段融合了10亿+多模态样本，其中近40%为中文本地化数据，包括中文图文配对样本、方言音频文本、工业场景图像等，这也是其在中文场景下表现领先的关键。

此外，DeepSeek-V2还优化了多模态对齐算法，实现了文本与图像的细粒度语义匹配，比如在识别一张带有中文说明书的工业零件图像时，模型能精准提取说明书上的参数要求，并判断零件是否符合标准，这一任务的准确率比GPT-4V提升了9个百分点。

作为一家成立于2022年的AI初创公司，DeepSeek此前凭借代码大模型DeepSeek-Coder打开市场，在GitHub等平台收获了超过100万开发者用户。此次发布多模态大模型，是其从垂直赛道转向通用AI领域的关键一步。

多模态大模型 DeepSeek 人工智能 AI商业化 MoE架构

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明