近日,AI初创公司DeepSeek正式发布多模态大模型DeepSeek-V2,在MMBench、MMLU等12项全球权威基准测试中跻身Top2,其中跨语言多模态任务得分超越GPT-4V。该模型采用万亿级稀疏参数的MoE架构,支持文本、图像、音频多模态输入输出,将为智能客服、工业质检、内容创作等场景提供高效底层技术支撑。
在MMBench中文多模态测试集上,DeepSeek-V2的准确率达到95.1%,比GPT-4V高出3.2个百分点——这一数据让不少业内人士感到意外,毕竟在此之前,全球多模态大模型的第一梯队长期被OpenAI、谷歌等巨头垄断。
与传统稠密大模型不同,DeepSeek-V2采用了稀疏混合专家模型(MoE)架构,万亿级参数中仅有约1/10的专家会参与单次推理,既保证了模型的能力边界,又大幅降低了推理成本。据DeepSeek技术团队透露,模型在训练阶段融合了10亿+多模态样本,其中近40%为中文本地化数据,包括中文图文配对样本、方言音频文本、工业场景图像等,这也是其在中文场景下表现领先的关键。
此外,DeepSeek-V2还优化了多模态对齐算法,实现了文本与图像的细粒度语义匹配,比如在识别一张带有中文说明书的工业零件图像时,模型能精准提取说明书上的参数要求,并判断零件是否符合标准,这一任务的准确率比GPT-4V提升了9个百分点。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录