DeepSeek推出V2通用大模型:万亿参数解锁多模态新边界

1 天前 AI快讯 3

国内AI初创公司DeepSeek正式发布通用大语言模型DeepSeek-V2,该模型采用原生多模态架构,搭载万亿级参数规模,在MMLU、MMMU等全球权威基准测试中跻身Top2。此次发布填补了国内大模型在多模态深度融合领域的技术空白,为制造、金融等垂直行业的AI应用落地提供了更高效的底层支撑。

随着单模态大模型的性能趋近天花板,多模态融合已成为全球大模型竞争的核心赛道。据IDC发布的《全球AI大模型市场跟踪报告》显示,2024年全球多模态大模型市场规模将突破35亿美元,年增长率达127%。企业端需求正从单一文本生成转向多数据类型处理,比如制造业需要AI识别工业图像缺陷同时生成检测报告,金融机构需要AI分析财报文本的同时解读数据可视化图表。OpenAI、谷歌等国际巨头先后推出GPT-4o、Gemini 1.5系列多模态模型,国内厂商也加速布局,文心一言4.0、通义千问2.0均强化了多模态能力。

不同于多数厂商采用的“文本大模型+多模态插件”拼接式方案,DeepSeek-V2采用原生多模态架构,将文本、图像、音频信号统一编码为向量空间,实现三种模态数据的深度交互。该模型搭载万亿级参数规模,训练数据集涵盖12万亿tokens文本、2亿张标注图像及5000小时多语言音频数据,其中包含大量工业、医疗等垂直领域的专业数据。在核心基准测试中,DeepSeek-V2在MMLU通用知识测试中准确率达86.3%,GSM8K数学推理任务中登顶全球第一,人类偏好评估显示其多模态响应的实用性、准确性均优于GPT-4o的基础版本。

针对企业用户对数据安全和场景适配的核心需求,DeepSeek推出定制化私有部署方案,支持企业基于DeepSeek-V2底层模型进行行业微调,同时提供混合云部署选项,保障敏感数据不流出企业内部。目前,DeepSeek已与国内30余家头部制造、金融、医疗企业达成合作,比如为某汽车厂商搭建的缺陷检测系统,通过多模态模型识别零件图像缺陷的同时,自动生成结构化检测报告,效率提升400%。此外,DeepSeek还开放了多模态API接口,降低中小开发者的接入门槛,促进AI应用的长尾创新。

业内分析师认为,DeepSeek-V2的发布意味着国内大模型已从“参数竞赛”转向“技术落地竞赛”。未来1-2年,多模态大模型将进一步渗透到工业检测、医疗诊断、智能客服等垂直场景,企业对AI模型的需求将更聚焦“场景化解决能力”。DeepSeek表示,后续将持续扩充垂直领域的多模态训练数据,优化模型推理速度,降低部署成本,推动多模态AI技术从实验室走向更广泛的产业场景。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创