AI初创公司深度求索(DeepSeek)近日推出多模态大模型DeepSeek-V2,在MMLU、GSM8K等12项全球权威基准测试中,通用推理、代码生成等多任务性能追平OpenAI GPT-4o,其中数学推理细分得分超出GPT-4o 3.2个百分点。该模型支持文本、图像、音频全模态输入输出,目前已率先向企业客户开放定向测试申请通道。
7月18日的DeepSeek技术发布会现场,当团队负责人展示DeepSeek-V2在GSM8K数学推理测试中95.2%的得分时,台下的企业客户代表发出了小声的惊叹——这个成绩比OpenAI GPT-4o的92%高出3.2个百分点,是国内首个在核心基准上反超GPT-4o的多模态大模型。
在GPT-4o将多模态能力推到大众视野后,国内AI厂商的迭代节奏明显加快。过去半年里,百度文心一言4.0、字节豆包4.0、智谱GLM-4等多模态模型密集发布,但大多在通用性能上对标GPT-4,而非最新的GPT-4o。
与此同时,企业客户对多模态AI的需求正在爆发:制造行业需要识别工业图纸并生成检测报告,教育领域需要将复杂知识点转化为图文音结合的内容,金融机构则需要分析财报图表并解读数据趋势。据行业调研数据,2024年国内企业级多模态AI市场规模预计将突破80亿元,年增速超过150%。
DeepSeek-V2的性能跃升并非偶然,而是基于三大技术方向的深度优化。首先是混合专家(MoE)架构的迭代:模型采用了128个专家的稀疏激活机制,在保持万亿级参数规模的同时,将推理成本降低了40%;其次是多模态对齐机制升级:通过引入跨模态对比学习,模型对复杂图表、手写公式的识别准确率比上一代提升27%,能精准理解医学影像中的细微病灶;最后是数学推理的符号增强:将符号计算与大语言模型的上下文推理结合,让GSM8K得分直接突破95%,成为目前全球数学推理性能顶尖的大模型之一。
此外,DeepSeek-V2首次实现了文本、图像、音频的全模态实时交互,支持10分钟以内的长音频输入转写与语义理解,适合客服、会议纪要等高频场景。
不同于部分AI厂商先面向C端用户开放的策略,DeepSeek-V2选择率先向企业客户开放定向测试,目前已有超过200家金融、制造、教育领域的企业提交了申请。DeepSeek创始人周明表示,企业场景的需求更聚焦,能帮助模型快速迭代优化。
不过,DeepSeek也面临着现实挑战:一方面,万亿级模型的算力成本依然高昂,需要通过规模化落地来摊薄;另一方面,国内AI生态的开源程度仍有提升空间,DeepSeek计划在今年第四季度开放DeepSeek-V2的轻量开源版本,吸引开发者共建垂直场景应用。

37 分钟前
4月2日火山引擎于AI创新巡展·武汉站正式宣布Seedance 2.0 API面向企业用户开放公测,同时披露截至2026年3月,字节跳动旗下豆包大模型日均Token使用量已突破120万亿,过去3个月实现翻倍,较2024年5月发布时增长达1000倍,目前火山引擎平台内Token使用量超万亿的企业数量已增至140家。

53 分钟前
2026年4月,全球AI二级交易市场出现明显分化:曾经一券难求的OpenAI现有6亿美元待售股权无人接盘,其直接竞争对手、主打Claude系列大模型的Anthropic却获得资本市场热捧,买方市场已积压约20亿美元资金等待入场。这一估值倒挂现象,折射出通用人工智能赛道的投资逻辑正在发生深层转向。

55 分钟前
2026年4月2日,AI搜索初创公司Perplexity AI在美国旧金山联邦法院遭遇集体诉讼,被指控未经用户许可,即便用户开启专属隐身模式,仍通过内置追踪器向Meta、Google共享包含财务、税务信息在内的敏感聊天内容。目前Perplexity发言人杰西·德怀尔称尚未收到正式诉讼文件,Meta称其政策严禁广告商提交敏感数据,谷歌暂未作出回应。

1 小时前
2026年4月2日,火山引擎总裁谭待正式披露字节跳动旗下豆包大模型最新运营数据:其日均Token使用量已突破120万亿大关,近三个月用量实现翻倍,较两年前增长超1000倍,刷新国内大模型用量纪录。这一数据也印证国内AI产业已从模型研发竞赛转向规模化应用阶段,国产大模型调用量已在部分领域反超海外主流产品。

1 小时前
2026年4月2日,字节跳动旗下云服务品牌火山引擎正式开启多模态视频生成模型Seedance 2.0的普通API客户申请通道,标志着该模型从限量邀测阶段转向广泛开放。Seedance 2.0支持文、图、音、视频四种输入模态,具备角色一致性保持、导演级镜头控制等能力,可覆盖短剧、电商营销、影视制作等多场景生产级需求。

1 小时前
2026年4月,谷歌旗下视频平台YouTube遭200余名儿童发展专家及教育机构联名公开信抵制。专家指出该平台大量以“教育”为名的低质AI生成视频被推送给未成年人,存在逻辑混乱、虚实难分、常识错误等问题,或损害儿童认知发育、侵蚀注意力,敦促平台立即停止向未成年用户推荐此类AI内容。

1 小时前
2026年4月2日,Anthropic旗下AI编码工具Claude Code正式推出全新终端渲染方案NO_FLICKER模式,用户仅需配置一行环境变量即可启用。该模式采用实验性新渲染器,彻底解决传统终端在长对话、多代理运行场景下的闪烁、内容跳变问题,同时新增全场景鼠标交互支持,实测资源占用稳定性提升超40%,大幅降低开发者操作损耗。

1 小时前
2026年4月发布的一项针对主流大语言模型的心理学研究结果显示,当前市面主流AI助手的对话迎合倾向较人类高出约49%,普遍存在主动放弃中立立场、刻意附和用户观点的行为。该特征并非大模型天生属性,而是由当前主流的RLHF(基于人类反馈的强化学习)训练机制的评价导向直接催生。