腾讯混元DiT是腾讯推出的基于Diffusion Transformer架构的文本到图像生成大模型,核心定位是为用户提供高语义匹配度的智能图像生成服务。它针对中英文理解做了专项优化,具备细粒度语义识别能力,相比普通文生图工具,对中英文混合prompt、复杂细节描述的识别准确率更高。模型内置多模态大语言模型优化文本描述,支持多轮对话式的图像调整,用户可以基于生成结果持续补充需求,逐步完善图像效果,适配各类专业及日常的图像生成需求。
输入中文复杂描述“江南水乡的青石板巷,下着濛濛细雨,撑油纸伞的穿蓝印花布裙的姑娘走过,巷口摆着卖桂花糕的小摊,暖黄灯光晕开在雨雾里”,可生成细节饱满、风格统一、语义完全匹配的国风写实图像;输入英文prompt“cyberpunk cat wearing space suit walking on Mars, neon sign in background”,也能精准还原赛博朋克风格的科幻场景,光影、细节还原度高;多轮对话场景下,用户生成初稿后提出“把背景的霓虹换成中文广告牌”,模型可直接基于原有图像修改,不需要重新生成。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
3 天前
2026年4月1日,阿里正式推出图像生成与编辑统一大模型Wan2.7-Image,该模型突破传统AI生图同质化、指令对齐难的行业痛点,支持从骨相到五官细节的像素级捏脸,搭载调色盘风格迁移功能,最高支持3K token文本输入,可稳定输出含公式、表格的印刷级图文内容,大幅提升了AI生图的个性化程度与专业场景适配能力。

11 天前
美国AI初创公司Luma Labs于2026年3月23日正式推出首款公开图像生成模型Uni-1,该模型基于Unified Intelligence架构打造,放弃主流扩散模型路线,采用decoder-only自回归Transformer架构实现文本与像素同步生成,可消除传统两阶段生成的信息损耗。目前产品已开放免费试用,API定价同步公布,企业接入通道将逐步上线。

15 天前
2026年3月20日,微软AI首席执行官穆斯塔法·苏莱曼正式推出第二代图像生成模型MAI-Image-2。该模型在权威生图评测榜单LMArena中位列全球第三,仅次于谷歌Gemini-3.1-flash-image-preview与OpenAI GPT-image-1.5-high-fidelity...

1 个月前
近日,谷歌对旗下实验性AI创作工具Flow进行重磅升级,将自研图像生成技术Whisk与在线图像工具ImageFX集成其中,打造一站式“AI创意工作室”。升级后的Flow具备统一工作流、风格迁移、动态化编辑等核心功能,用户仅需简单文本指令,即可在几分钟内生成电影质感短片,或将重构AI创意工具的市场竞争格局。

1 个月前
近日,谷歌于2026年2月全面重塑升级AI创意工作室Flow,将旗下图像生成项目Whisk、ImageFX内置其中,搭载Nano Banana模型并新增套索工具等专业功能。自去年亮相以来,该平台已生成超15亿张图像与视频,目前已免费上线,3月起用户可无缝迁移项目文件,专业用户还可选择定制化付费方案。

1 个月前
近日,谷歌全面重塑升级AI创意工作室Flow,整合原图像生成项目Whisk与ImageFX,搭载Nano Banana模型并新增套索工具等专业功能。自去年亮相以来,Flow已累计生成超15亿张图像与视频,目前已正式上线,用户可免费注册体验,3月起还能无缝迁移项目文件,专业用户另有付费方案可选。

1 小时前
近期微软确认将加大自研AI模型投入,打破此前AI产品线核心能力主要依赖OpenAI技术的合作模式,旗下AI助手Copilot、Azure云AI服务将逐步接入自研大模型,与OpenAI GPT系列、谷歌Gemini系列形成直接竞争。本次自研模型覆盖通用对话、代码生成、多模态处理等场景,预计2025年上半年完成核心产品线适配。

6 小时前
2026中关村论坛期间,在趋境科技与九源智能计算系统生态联合体共同主办的专题研讨会上,商汤大装置首席架构师项铁尧发表《商汤大装置AI原生云基础设施探索与实践》主题演讲,系统阐述商汤针对AI原生时代算力集群建设的前沿判断与落地路径,公开其将底层软硬件能力转化为客户可用、易用、高效算力服务的完整方法论。