2026年,清华大学与香港科技大学联合团队完成的AI图像生成技术研究成果MoKus正式上传至学术预印本平台arXiv,论文编号为arXiv:2603.12743v1。该技术突破了现有AI图像生成工具长序列内容叙事连贯性不足、记忆点易丢失的行业痛点,首次实现图像生成领域的记忆化叙事理解能力,为AI内容创作、影视工业化等场景提供了全新技术路径。
如果你用过Midjourney、DALL·E等主流AI图像生成工具创作系列内容,大概率遇到过这样的窘境:前一张生成的主角还是黑发红衣的少年侠客,下一张输入同样的关键词就变成了棕发风衣的都市白领,要维持长序列内容的人设统一、叙事逻辑连贯,一直是AI图像生成领域悬而未决的行业痛点。
过去几年,AI图像生成技术的迭代速度超出行业预期,单张图像的生成质量已经达到甚至超过普通画师的产出水平,但在漫画连载、动画分镜、影视概念设计等需要长序列叙事的场景,现有技术的短板十分明显。
为了保证内容一致性,创作团队往往需要投入大量人力手动修正AI生成的偏差内容,仅人设统一的工作量就占到系列内容创作总成本的30%以上,严重制约了AI工具在工业化内容生产领域的落地。
此次清华和港科大联合团队推出的MoKus技术,核心是将大语言模型的上下文记忆能力与扩散模型的图像生成能力深度融合,重构了AI图像生成的推理逻辑。相关研究成果已以论文形式上传至arXiv,编号为arXiv:2603.12743v1,感兴趣的从业者可自行查阅完整技术细节。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 个月前
Luma AI推出由15人华人团队打造的统一图像理解与生成模型Uni-1,该团队由DDIM之父及CVPR最佳论文作者领衔。Uni-1正面对标谷歌Nano Banana Pro与OpenAI GPT Image 1.5,覆盖角色姿态迁移等十余项图像任务,在权威评测中多项能力看齐行业标杆,部分指标达世界领先水平,其表现获Nano Banana技术负责人认可。

1 个月前
2026年2月27日,Google正式在Gemini App中推出新一代图像生成模型Nano Banana 2(技术名Gemini 3.1 Flash Image)。该模型首次将Pro级图像质量与Flash级极速响应结合,默认输出2K分辨率图像,同时大幅优化文字渲染效果,用户无需额外操作,在App内选择图片生成功能即可直接使用,兼顾创作质量与效率。

1 个月前
2026年2月26日,谷歌正式发布新一代图像生成模型Nano Banana 2,官方数据显示其图像生成速度较前代提升45%,同时保持了旗舰级生成画质。该模型即将成为Gemini应用及内置AI模式的默认工具,覆盖全设备场景,为全球数亿Gemini用户带来更流畅的AI创作体验。

1 个月前
2026年2月26日,一款名为Mercury 2的扩散推理大语言模型正式亮相,凭借每秒生成1009个tokens的速度登顶全球最快AI深度思考模型宝座——这一速度是GPT-5(mini)、Claude-4.5(haiku)等传统自回归模型的5倍。该模型由获英伟达、微软投资的团队研发,颠覆了自回归“打字机式”生成范式,引发AI行业的广泛热议。

1 个月前
人工智能初创公司Inception Labs近日推出全球首个基于扩散模型的推理大模型Mercury 2,弃用当前主流的Transformer架构。该模型可同时对多文本块进行全局优化与重写,在英伟达Blackwell GPU驱动下实测生成速度达每秒1009个Token,为大语言模型的架构创新开辟了新路径。

1 个月前
人工智能初创公司Inception Labs近日推出全球首个基于扩散模型架构的推理大模型Mercury 2,彻底弃用主流Transformer架构。该模型以全局优化替代逐Token生成方式,在英伟达Blackwell GPU驱动下,实测生成速度达每秒1009个Token,有望突破传统大模型性能瓶颈,开启文本生成范式新变革。

34 分钟前
全球出行巨头Uber近期宣布扩大与亚马逊云科技(AWS)的合作协议,将把派单算法、运力预测等更多核心网约车业务模块迁移至亚马逊自研AI芯片集群运行。此次合作被行业视作Uber对原有云服务商Oracle、谷歌云的直接替代,也是亚马逊自研芯片在ToB云服务市场拿下的又一标杆客户案例,进一步撼动了英伟达在AI加速硬件市场的主导地位。

1 小时前
2026年4月7日,OpenAI模型行为团队创始负责人、OpenAI Labs总经理Joanne Jang正式宣布离职,结束其在OpenAI长达4年半的任职。作为GPT-4o交互体验的核心负责人,Joanne Jang主导的模型拟人化优化工作被业内认为是GPT-4o用户体验大幅领先同期竞品的核心原因。目前其暂未披露离职原因与后续规划,仅表示将逐步公开OpenAI Labs在研的人机交互项目细节。