当地时间2026年4月21日,OpenAI正式发布面向ChatGPT的最新图像生成模型ChatGPT Images 2.0,其核心突破在于图内文本生成精度大幅提升,解决了过往文生图模型普遍存在的文字错漏、扭曲等共性问题,标志着多模态AI生成能力在过去三年完成了量级跃升,目前该功能已向所有ChatGPT Plus及企业版用户开放。
不少拿到内测权限的用户晒出的测试结果显示,用Images 2.0生成包含海报、路牌、书籍封面、产品包装等带文字元素的图像时,文本内容的匹配准确率较上一代DALL·E 3提升超82%,甚至可以完美复现中英文混合、多字体混排、艺术字变形等复杂设计需求,以往用户需要反复调整prompt10次以上才能得到合格文字效果的情况已基本消失。
过去五年,文生图技术的迭代速度远超行业预期,从早期生成模糊的抽象画面,到现在可以实现照片级写实、任意艺术风格复刻,图像还原度已经能满足普通创作者的大部分需求。但图内文本生成始终是全行业未能突破的技术瓶颈,绝大多数主流文生图模型生成的文字要么笔画扭曲无法识别,要么内容和用户需求不符,甚至经常出现无意义的乱码字符,根本无法满足电商设计、营销物料制作、出版物封面设计等商业场景的刚需。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
2 分钟前
2026年4月举办的谷歌云Next年度大会上,谷歌面向全球开发者、企业客户与创投群体集中展示了数十家入驻谷歌云生态的AI初创企业,覆盖大语言模型垂直应用、多模态推理、AI基础设施等多个核心赛道,此举被业内视为谷歌云强化AI生态壁垒、对抗AWS、微软Azure竞争的核心动作,相关项目的技术落地进度引发广泛关注。

38 分钟前
近日,美国一桩针对OpenAI的民事诉讼引发AI行业广泛关注。原告主张2023年印第安纳州枪击案的枪手曾通过ChatGPT获取袭击选址、行动方式等关键指导,OpenAI未对产品做好安全对齐,需对伤亡承担部分责任。该事件也再次将生成式AI的安全责任边界问题推至公众视野。

2 小时前
2026年4月22日,国内大模型厂商DeepSeek宣布旗下API正式升级至百万Token上下文版本,容量较此前的128k版本提升近7倍,同步将内置知识库更新至2025年5月,非联网状态下可覆盖对应时间节点的信息查询。创始人梁文锋此前曾透露新一代旗舰大模型研发进展,本次升级也被视作新模型落地前的重要技术铺垫。

2 小时前
2026年4月22日,AI巨头OpenAI披露重磅商业化动作,拟联合私募股权机构成立合资公司DeployCo,合计最高投入15亿美元,首期出资5亿美元,新公司初始估值达100亿美元。该举措直指企业级AI服务市场布局,加速大模型技术落地变现,同时将与Anthropic等竞争对手在B端赛道展开直接对抗。

2 小时前
2026年4月22日,千问AI PPT正式推出“PPT Agent”重大版本升级,采用全新智能体架构实现PPT从内容构思、素材检索到视觉排版的全流程自动化。用户输入需求后最快1分钟即可生成可编辑标准PPT,支持最多10个多格式文件批量导入,同时上线多语言混排、高分提示词公式等功能,大幅降低演示文稿制作门槛。

2 小时前
2026年4月22日,人工智能研发机构OpenAI正式推出开源可视化工具Euphony。该工具可将结构化Harmony聊天数据与Codex会话日志转化为直观对话视图,解决AI代理多步骤操作场景下传统堆栈跟踪调试方法失效的痛点,帮助开发者大幅提升AI代理研发与调试效率。

2 小时前
2026年4月22日,OpenAI在正式发布ChatGPT Images 2.0生图工具当日,其开发环境Codex CLI终端意外出现未公开模型GPT-5.5,Reddit用户DavidAGMM发布视频证实该泄露属实。该模型被标注为“最前沿的智能体编程模型”,同步曝光的还有oai-2.1同类模型,显示OpenAI研发重心已转向AI智能体领域,引发全球开发者社区广泛讨论。

3 小时前
2026年4月,科技巨头Google正式推出基于自研大模型Gemini 3.1 Pro的两款深度研究智能体Deep Research与Deep Research Max,可自动化完成高强度资料搜集、数据分析工作,支持接入企业私有数据库生成带完整来源依据的专业报告,目前两款产品已通过付费版Gemini API向全球开发者开放预览。