登录体验完整功能(收藏、点赞、评论等)

DeepSeek发布V2多模态大模型,跨任务性能跻身全球第一梯队

近日,AI初创公司DeepSeek正式发布多模态大模型DeepSeek-V2,在MMBench、MMLU等12项全球权威基准测试中跻身Top2,其中跨语言多模态任务得分超越GPT-4V。该模型采用万亿级稀疏参数的MoE架构,支持文本、图像、音频多模态输入输出,将为智能客服、工业质检、内容创作等场景提供高效底层技术支撑。

在MMBench中文多模态测试集上,DeepSeek-V2的准确率达到95.1%,比GPT-4V高出3.2个百分点——这一数据让不少业内人士感到意外,毕竟在此之前,全球多模态大模型的第一梯队长期被OpenAI、谷歌等巨头垄断。

与传统稠密大模型不同,DeepSeek-V2采用了稀疏混合专家模型(MoE)架构,万亿级参数中仅有约1/10的专家会参与单次推理,既保证了模型的能力边界,又大幅降低了推理成本。据DeepSeek技术团队透露,模型在训练阶段融合了10亿+多模态样本,其中近40%为中文本地化数据,包括中文图文配对样本、方言音频文本、工业场景图像等,这也是其在中文场景下表现领先的关键。

此外,DeepSeek-V2还优化了多模态对齐算法,实现了文本与图像的细粒度语义匹配,比如在识别一张带有中文说明书的工业零件图像时,模型能精准提取说明书上的参数要求,并判断零件是否符合标准,这一任务的准确率比GPT-4V提升了9个百分点。

作为一家成立于2022年的AI初创公司,DeepSeek此前凭借代码大模型DeepSeek-Coder打开市场,在GitHub等平台收获了超过100万开发者用户。此次发布多模态大模型,是其从垂直赛道转向通用AI领域的关键一步。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创