2026年4月29日,大模型厂商DeepSeek宣布启动全新“识图模式”灰度测试,该功能与现有“快速模式”“专家模式”并列,区别于普通OCR文字识别,可实现深度图像分析与描述,参与灰度测试的用户反馈其响应速度极快,目前功能仍处于完善迭代阶段,将为用户带来更高效的图像信息处理智能化体验。
最近不少拿到灰度资格的用户已经在社交平台晒出了实测效果:上传一张包含复杂场景的手绘概念图,仅需1.8秒就能收到涵盖元素解读、逻辑梳理甚至优化建议的完整回复,有用户甚至用“闪电级响应”来形容这一功能的运行效率。也有部分用户反馈点击该功能时会收到“暂不可用”的提示,说明目前测试范围仍在逐步扩大中。
近两年大模型的竞争已经从纯文本生成能力的比拼,转向多模态交互体验的升级。此前多数大模型的图像相关功能仅停留在OCR文字提取阶段,仅能识别图片中的文字信息,无法对图像场景、逻辑、隐含信息做深度解读,已经难以满足用户对图文混合交互的需求。
无论是职场场景下的板书整理、图纸解读,还是消费场景下的商品识别、攻略提取,深度图像理解都已经成为用户的高频刚需,谁能先推出准确率高、响应速度快的多模态功能,就能在C端用户留存和B端商业拓展上抢占先机。
此次DeepSeek推出的“识图模式”,核心能力就是突破了普通OCR的功能边界,能够基于图像的完整语义给出分析结果。从现有测试反馈来看,该功能不仅能识别截图中的表格数据并自动生成可编辑的电子文档,还能解读摄影作品的构图逻辑、分析设计稿的可落地性,甚至可以识别美食照片给出家常做法的调整建议。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
2026年4月OpenAI披露最新业务增长目标,预计2026年全年ChatGPT消费端订阅用户将突破1.22亿,核心增长动力为定价8美元/月的低价订阅服务ChatGPT Go。该服务自2025年8月起已覆盖171个国家和地区,定价远低于ChatGPT标准订阅套餐,是OpenAI推进产品大众化、抢占全球消费级AI市场的核心布局。

2 小时前
2026年4月29日,美图公司宣布旗下影像AI Agent RoboNeo完成重大升级,推出行业首创的影像创作Agent Teams,将AI影像工具从单体应用升级为多智能体协同系统。该方案瞄准通用大模型泛化局限、创作者多工具切换内耗两大核心痛点,覆盖AI短剧、自媒体、电商内容创作等场景,为个人创作者、内容团队及“一人公司”提供全链路影像创作解决方案。

3 小时前
2026年4月29日公开的SuperCLUE最新文生图模型评测结果显示,OpenAI于4月21日上线的新一代文生图模型GPT Image 2,正式超越谷歌此前的榜首产品Nano Banana2登顶全球第一。该模型在画质、指令理解、细节还原维度均实现突破,尤其汉字生成板块获93.07分、文字准确度满分,解决了海外模型汉语文本生成的长期痛点。

4 小时前
2026年4月29日,字节跳动旗下AI编程平台TRAE正式在SOLO模式中上线高级语音输入功能,同时联合影石Insta360发布Mic Air TRAE联名无线麦克风套装。该组合可实现结构化转录、语义修正、语音控制AI命令等功能,推动Vibe Coding与语音办公落地,覆盖开发者及职场人群,进一步降低高效办公门槛。

4 小时前
2026年4月29日公布的OpenRouter全球大模型API调用量排行榜显示,腾讯旗下混元Hy3 preview模型凭借高频使用度超越一众国际竞品,拿下总榜第一,同时位居工具调用维度榜首、编程场景榜第二位。该成绩印证了全球开发者对其性能的认可,也标志着国产大模型在全球AI生态的影响力正加速提升。

4 小时前
2026年4月披露的运营数据显示OpenAI季度营收未达预期,引发周二美股科技板块短期承压,但一级市场投资者并未放缓对大模型赛道的出资节奏,核心竞品Anthropic因聚焦企业级服务受资本热捧,行业普遍认为当前AI竞赛仍处早期不会出现赢家通吃,提价策略有望缓解高算力成本带来的营收压力。

4 小时前
国家数据局2026年4月发布的最新预测数据显示,2025年中国人工智能领域训练与推理数据总量达199.48EB,同比增长42.86%,其中推理数据首次超过训练数据达101.34EB。此外2025年系统软件与AI生成数据总量达26.92ZB,首次超越传统物联感知数据量级,国内AI应用落地与产业渗透速度超出市场预期。

5 小时前
2026年4月29日,美国科技巨头谷歌正式与美国国防部签署合作协议,将自主研发的Gemini大模型开放给军方用于机密任务,调用其算力与多模态分析能力。双方已明确约定合作边界,禁止该技术被用于美国国内大规模监控及完全自主武器系统。此前美国国防部已与OpenAI、xAI达成同类合作,生成式AI正加速渗透国防核心场景。