国内AI公司深度求索(DeepSeek)正式发布新一代通用大语言模型DeepSeek-V2,该模型支持128K超长上下文窗口,在MMLU、GSM8K等权威基准测试中得分逼近OpenAI GPT-4o,同步推出的多模态版本可处理文本、图像、音频输入,为金融、制造等企业级场景提供高效AI解决方案,标志着国内大模型在通用性能上进一步缩小与国际顶尖水平的差距。
想象一下,无需将百万字的项目合同拆分成数十段,AI模型就能一次性通读并精准提炼所有风险条款——这正是DeepSeek-V2大模型带来的新可能。该模型采用自研的MoE(混合专家模型)架构,搭配动态路由算法,在保持推理效率的前提下,将上下文窗口扩展至128K,相当于可容纳约10万字的文本内容。
在核心性能测试中,DeepSeek-V2表现亮眼:MMLU(多任务语言理解)测试得分为86.7%,仅比GPT-4o低0.3个百分点;GSM8K数学推理数据集上得分达92.6%,与GPT-4o的93%基本持平。这意味着其在复杂知识理解、逻辑推理等通用能力上,已追平国际顶尖模型的水平。
除了纯文本版本,DeepSeek同步推出DeepSeek-V2多模态模型,实现文本、图像、音频三大模态的无缝融合。例如,企业用户上传一张机械装配图纸,模型可快速识别零件参数、装配逻辑,生成标准化的操作手册;上传一段1小时的商务会议录音,能实时转写并提炼核心议题、行动项及时间节点。
在MMBench多模态基准测试中,该模型整体得分超过80%,尤其在视觉推理任务上表现突出——对包含复杂图表的技术文档,理解准确率较上一代提升了15个百分点。
当前国内大模型赛道已告别早期的“参数竞赛”,转向性能优化与场景落地的双重比拼。2024年以来,百度文心一言、阿里通义千问、字节豆包等头部模型均推出升级版本,不断拉长上下文窗口、强化多模态能力。
DeepSeek作为专注于通用大模型的创业公司,此前因代码大模型在开发者群体中积累了口碑,此次V2版本的发布,标志着其正式跻身国内通用大模型第一梯队。业内认为,这一突破也意味着国内AI企业在核心技术上,已从“跟跑”逐步进入“并行”阶段。
DeepSeek方面表示,接下来将面向企业用户开放API接口,针对金融、制造、教育等垂直场景提供定制化微调服务。例如,为金融机构打造法务文档审核模型,为制造企业开发工业设计辅助工具。
第三方数据显示,2024年国内企业级AI服务市场规模预计将突破300亿元,其中超长上下文与多模态融合技术是核心增长点。分析师指出,随着大模型技术同质化加剧,场景化落地能力将成为企业的核心竞争力,DeepSeek-V2的技术优势有望在垂直领域快速转化为商业价值。

1 天前
近日,演员刘美含为新剧配音时因“铸币坊”中“坊”字读音存疑,求助百度、DeepSeek、腾讯元宝、阿里千问及豆包5款主流AI工具,却得到五花八门的答案——甚至同一豆包在不同设备上给出的读音也不同。最终她通过新华词典App确认正确读音为fáng,这一事件直指当前主流AI工具在中文语言准确性上存在明显短板。

1 天前
近日演员刘美含在社交平台分享配音趣事,为确认“铸币坊”中“坊”字读音,先后测试5款主流AI工具,结果出现明显分歧:百度读fáng,DeepSeek、腾讯元宝、阿里千问读fāng,甚至同一AI工具豆包在不同设备上读音也不一致,暴露当前大语言模型在多音字场景化识别上仍存在准确性与统一性不足的问题。

1 天前
1月底,OpenAI宣布将于当地时间2月13日下线ChatGPT中包括「最具人情味」的旧版GPT-4o在内的多个旧模型,消息引发万名用户联名请愿却未获厂商回应;无独有偶,2月中旬Deepseek新模型开启灰度测试后,用户集体察觉其文风突变「失去温度」。AI陪聊赛道的这两起事件,折射出用户对AI「人情味」的核心诉求,正与厂商技术迭代方向悄然错位。

1 天前
新华网近期针对学生寒假作业完成情况发起724份问卷调查,结果显示40%的学生曾使用DeepSeek、豆包、Kimi等AI工具辅助完成作业,其中60%的学生将AI用于获取解题思路、收集资料等辅助性环节。这一数据既反映出AI在教育场景的渗透速度,也引发业界对“AI时代教育核心价值”的思考——AI之外的能力培养,才是教育的绝对领地。

1 天前
当大语言模型的参数竞赛进入万亿级赛道,国产AI初创公司DeepSeek正用一款即将到来的产品掀起新波澜——其旗下V4 Lite测试版已悄然开启内部测试,100万tokens的上下文窗口、原生多模态架构,让行业对完整版V4的期待值拉满。

1 天前
AI企业DeepSeek宣布将于下周推出全新多模态大模型DeepSeek V4,支持图像、视频及文本生成。该模型全面适配国产算力,优化与中国制造芯片的兼容性;其测试版V4 Lite(sealion-lite)已在测试中,拥有100万tokens上下文窗口,较V3系列提升近8倍,有望推动本土半导体需求,加速AI推理与国产芯片融合。

1 天前
AI分析机构Artificial Analysis近日发布语音转文字基准测试2.0版,ElevenLabs与谷歌旗下模型表现突出。其中ElevenLabs的Scribe v2以2.3%的词错率斩获榜首,谷歌Gemini3Pro则以2.9%的词错率位居第二,值得关注的是,Gemini3Pro未针对转录任务专门训练,其优异表现源于自身的多模态通用能力。

1 天前
AI初创公司DeepSeek正式发布新一代代码大模型DeepSeek-Coder V2,该模型支持最高128K token超长上下文窗口,覆盖Python、Java等20余种主流编程语言,在HumanEval、MBPP等权威代码基准测试中得分较上一代提升15%以上,为企业级开发、代码审计、新手开发者入门等场景提供更高效的自动化解决方案。