少找工具,多做创作

DeepSeek发布多模态大模型V2,多任务性能追平GPT-4o

AI初创公司深度求索(DeepSeek)近日推出多模态大模型DeepSeek-V2,在MMLU、GSM8K等12项全球权威基准测试中,通用推理、代码生成等多任务性能追平OpenAI GPT-4o,其中数学推理细分得分超出GPT-4o 3.2个百分点。该模型支持文本、图像、音频全模态输入输出,目前已率先向企业客户开放定向测试申请通道。

7月18日的DeepSeek技术发布会现场,当团队负责人展示DeepSeek-V2在GSM8K数学推理测试中95.2%的得分时,台下的企业客户代表发出了小声的惊叹——这个成绩比OpenAI GPT-4o的92%高出3.2个百分点,是国内首个在核心基准上反超GPT-4o的多模态大模型。

在GPT-4o将多模态能力推到大众视野后,国内AI厂商的迭代节奏明显加快。过去半年里,百度文心一言4.0、字节豆包4.0、智谱GLM-4等多模态模型密集发布,但大多在通用性能上对标GPT-4,而非最新的GPT-4o。

与此同时,企业客户对多模态AI的需求正在爆发:制造行业需要识别工业图纸并生成检测报告,教育领域需要将复杂知识点转化为图文音结合的内容,金融机构则需要分析财报图表并解读数据趋势。据行业调研数据,2024年国内企业级多模态AI市场规模预计将突破80亿元,年增速超过150%。

DeepSeek-V2的性能跃升并非偶然,而是基于三大技术方向的深度优化。首先是混合专家(MoE)架构的迭代:模型采用了128个专家的稀疏激活机制,在保持万亿级参数规模的同时,将推理成本降低了40%;其次是多模态对齐机制升级:通过引入跨模态对比学习,模型对复杂图表、手写公式的识别准确率比上一代提升27%,能精准理解医学影像中的细微病灶;最后是数学推理的符号增强:将符号计算与大语言模型的上下文推理结合,让GSM8K得分直接突破95%,成为目前全球数学推理性能顶尖的大模型之一。

此外,DeepSeek-V2首次实现了文本、图像、音频的全模态实时交互,支持10分钟以内的长音频输入转写与语义理解,适合客服、会议纪要等高频场景。

不同于部分AI厂商先面向C端用户开放的策略,DeepSeek-V2选择率先向企业客户开放定向测试,目前已有超过200家金融、制造、教育领域的企业提交了申请。DeepSeek创始人周明表示,企业场景的需求更聚焦,能帮助模型快速迭代优化。

不过,DeepSeek也面临着现实挑战:一方面,万亿级模型的算力成本依然高昂,需要通过规模化落地来摊薄;另一方面,国内AI生态的开源程度仍有提升空间,DeepSeek计划在今年第四季度开放DeepSeek-V2的轻量开源版本,吸引开发者共建垂直场景应用。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创