2026年4月30日,大模型厂商DeepSeek在推出新一代基座模型DeepSeek-V4仅5天后,正式开启多模态识图功能灰度测试,移动端与网页端同步上线功能入口。实测显示,该模型在视觉还原、文物逻辑推理、图片文字提取等场景表现优异,仅在抗干扰图像识别、复杂图形推理等场景仍存在优化空间。
不少参与内测的用户最近发现,DeepSeek的输入栏左侧多了一个醒目的相机标识,点击即可进入“识图模式”,上传图片后最快3秒就能得到针对性的解析结果,入口旁标注的“图片理解功能内测中”字样,也坐实了外界此前对其布局多模态能力的猜测。
近一年来,全球头部大模型厂商均将多模态交互能力作为核心迭代方向,OpenAI的GPT-4o、谷歌的Gemini系列都已实现相对成熟的视觉交互能力,国内厂商也在密集跟进相关布局。
此前DeepSeek凭借长文本处理、代码生成能力在垂直领域积累了大量用户,此次上线识图功能,本质是补上了能力版图的重要一块。而距离DeepSeek-V4正式发布仅过去5天的迭代速度,也远超行业平均1-3个月的版本更新周期,引发了业内的广泛讨论。
从目前曝光的内测数据来看,DeepSeek的识图能力在主流场景下已经达到行业头部水平:在基础的画面描述、人物环境识别任务中,视觉内容描述还原度接近95%,基本不会出现关键元素遗漏;开启“思考模式”后,模型还能实现深度逻辑推理,比如根据文物的纹样、材质特征推导其所属朝代与艺术风格,对摄影作品的构图、光线运用也能给出专业分析。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
3 分钟前
AI大模型产品Claude的开发商Anthropic正推进IPO前最后一轮私募融资,本轮融资规模预计达400亿至500亿美元,为AI行业史上最高私募融资,公司估值被推高至8500亿至9000亿美元。若融资落地,Anthropic估值将在数月内翻倍,有望超过核心竞争对手OpenAI今年2月创下的8520亿美元估值,凸显全球AI赛道资本热度持续攀升。

7 分钟前
2026年4月29日举办的第九届数字中国建设峰会上,国务院国资委正式发布十项代表央企最高水平的数字技术成果,覆盖工业软件、核心电子元器件、人工智能等前沿战略领域。其中中国电信推出的星辰大模型实现全模态、全尺寸、全国产化,全技术链条自主可控,另有港口数字孪生智能体拟真决策平台等落地成果同步亮相,标志我国关键数字领域自主可控能力再迈坚实一步。

9 分钟前
2026年4月30日谷歌正式为谷歌相册推出AI衣橱管家功能,依托计算机视觉识别技术自动提取用户照片中的服装单品,按品类完成智能分类搭建数字衣橱,同时支持多场景穿搭组合定制、虚拟试穿效果模拟,解决用户服饰管理效率低、穿搭决策难、线上购衣试穿成本高等痛点,功能已随谷歌相册常规更新向用户推送。

41 分钟前
2026年4月30日,蚂蚁集团百灵大模型团队正式开源旗下万亿级旗舰大模型Ling-2.6-1T。该模型未走盲目堆叠参数的路线,而是针对指令执行、工具适配、长上下文承接能力做系统性优化,凭借创新混合架构与强化奖励策略降低Token开销,实现高效“快思考”机制,在多类执行类基准评测中达到开源领域顶尖水平。

43 分钟前
2026年4月27日,百度文库与百度网盘联合推出通用智能体GenFlow 4.0,完成对Office Agent的深度重构,全面覆盖PPT、Excel、Word三类核心办公软件,新增PPT双创作模式、自然语言驱动Excel数据处理、行业级Word内容生成等能力,标志着国内AI办公自动化进入落地应用的全新阶段。

59 分钟前
AI独角兽企业Anthropic于2026年4月启动上市前最后一轮私募融资,目前已收到总额约500亿美元的融资要约,本轮估值区间锁定在8500亿至9000亿美元之间。该公司当前年化营收已突破300亿美元,旗下Claude Code、Cowork平台在开发者市场占据核心份额,若融资完成其估值有望在IPO前超过竞争对手OpenAI。

1 小时前
2026年4月30日,Google旗下Chrome浏览器正式发布Prompt API,开发者仅需通过简单JavaScript代码,即可在网页端直接调用内置的Gemini Nano轻量级大语言模型,无需接入云端即可实现本地AI能力。该功能上线后随即在Hacker News引发热议,被业内视为浏览器AI能力普及的里程碑事件。

1 小时前
2026年4月30日,蚂蚁集团正式开源万亿参数旗舰大模型百灵Ling-2.6-1T,该模型采用MLA与LinearAttention混合架构打造快思考机制,实测仅需16M tokens即可完成全量评测,输出成本仅为同类模型的四分之一,综合性能对标非推理模式下的GPT-5.4,推理、代码等实战指标达开源领域SOTA。