DeepSeek发布多模态大模型V2，多任务性能追平GPT-4o

AI小创 1 个月前

AI快讯

AI初创公司深度求索（DeepSeek）近日推出多模态大模型DeepSeek-V2，在MMLU、GSM8K等12项全球权威基准测试中，通用推理、代码生成等多任务性能追平OpenAI GPT-4o，其中数学推理细分得分超出GPT-4o 3.2个百分点。该模型支持文本、图像、音频全模态输入输出，目前已率先向企业客户开放定向测试申请通道。

7月18日的DeepSeek技术发布会现场，当团队负责人展示DeepSeek-V2在GSM8K数学推理测试中95.2%的得分时，台下的企业客户代表发出了小声的惊叹——这个成绩比OpenAI GPT-4o的92%高出3.2个百分点，是国内首个在核心基准上反超GPT-4o的多模态大模型。

在GPT-4o将多模态能力推到大众视野后，国内AI厂商的迭代节奏明显加快。过去半年里，百度文心一言4.0、字节豆包4.0、智谱GLM-4等多模态模型密集发布，但大多在通用性能上对标GPT-4，而非最新的GPT-4o。

与此同时，企业客户对多模态AI的需求正在爆发：制造行业需要识别工业图纸并生成检测报告，教育领域需要将复杂知识点转化为图文音结合的内容，金融机构则需要分析财报图表并解读数据趋势。据行业调研数据，2024年国内企业级多模态AI市场规模预计将突破80亿元，年增速超过150%。

DeepSeek-V2的性能跃升并非偶然，而是基于三大技术方向的深度优化。首先是混合专家（MoE）架构的迭代：模型采用了128个专家的稀疏激活机制，在保持万亿级参数规模的同时，将推理成本降低了40%；其次是多模态对齐机制升级：通过引入跨模态对比学习，模型对复杂图表、手写公式的识别准确率比上一代提升27%，能精准理解医学影像中的细微病灶；最后是数学推理的符号增强：将符号计算与大语言模型的上下文推理结合，让GSM8K得分直接突破95%，成为目前全球数学推理性能顶尖的大模型之一。

此外，DeepSeek-V2首次实现了文本、图像、音频的全模态实时交互，支持10分钟以内的长音频输入转写与语义理解，适合客服、会议纪要等高频场景。

不同于部分AI厂商先面向C端用户开放的策略，DeepSeek-V2选择率先向企业客户开放定向测试，目前已有超过200家金融、制造、教育领域的企业提交了申请。DeepSeek创始人周明表示，企业场景的需求更聚焦，能帮助模型快速迭代优化。

不过，DeepSeek也面临着现实挑战：一方面，万亿级模型的算力成本依然高昂，需要通过规模化落地来摊薄；另一方面，国内AI生态的开源程度仍有提升空间，DeepSeek计划在今年第四季度开放DeepSeek-V2的轻量开源版本，吸引开发者共建垂直场景应用。

多模态大模型 DeepSeek 大语言模型 GPT-4o 人工智能

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明