少找工具,多做创作

Luma AI推出Uni-1图像生成模型 自回归架构实现文本像素同步生成

美国AI初创公司Luma Labs于2026年3月23日正式推出首款公开图像生成模型Uni-1,该模型基于Unified Intelligence架构打造,放弃主流扩散模型路线,采用decoder-only自回归Transformer架构实现文本与像素同步生成,可消除传统两阶段生成的信息损耗。目前产品已开放免费试用,API定价同步公布,企业接入通道将逐步上线。

在当前全球文生图赛道几乎被扩散模型一统天下的背景下,Luma Labs的新选择无异于给行业投下了一颗问路石。作为此前以3D生成技术闻名的AI初创公司,Luma此次跨界入场2D图像生成,从底层架构层面给出了不同于主流路线的解题思路。

自2022年Stable Diffusion开源以来,扩散模型已经成为文生图、文生视频领域的绝对主流技术路线,包括Midjourney、DALL·E 3等头部产品均基于该架构迭代。但扩散模型的生成逻辑天然分为两个独立阶段:首先由大语言模型理解用户prompt生成隐含表征,再将表征输入扩散模型迭代生成像素,两个阶段的衔接过程始终存在不可逆的信息损耗,经常出现生成结果与用户需求偏差、细节丢失等问题。

这一痛点也成为近一年来AI生成图像领域的核心攻关方向,多家头部厂商和初创公司都在尝试从架构层面优化甚至重构生成逻辑,Luma Labs的Uni-1正是这一方向下的首个落地公开产品。

Uni-1放弃了成熟的扩散模型路线,转而采用decoder-only自回归Transformer架构,将文本token与图像token交错排列为单一序列,仅需一次前向传播即可完成语义理解到像素生成的全流程,彻底消除了传统两阶段模式的信息断层。

Luma CEO Amit Jain在发布说明中表示,这一架构的灵感部分来自于他此前在苹果参与Vision Pro工程研发时的多模态交互经验,用户的需求往往是语义和视觉细节的结合,拆分处理自然会丢失信息。目前Uni-1已经实现了单张/多张参考图引导生成、跨风格迁移等核心功能,生成效果在细节还原度、prompt匹配度上的表现均超过同参数级别的扩散模型产品。

目前Luma官网已经开放了Uni-1的免费试用通道,普通用户无需申请即可直接体验生成功能,同时官方同步公布了API调用定价,面向中小开发者的接入服务已经上线,针对大型企业的定制化接入通道也将在未来2个月内逐步开放。

不少行业分析师认为,Uni-1的落地标志着文生图赛道正式进入技术路线多元化阶段,自回归架构凭借端到端生成的优势,有望在高精细度生成、工业级设计等对prompt匹配度要求更高的场景快速渗透,未来或将与扩散模型形成分场景竞争的市场格局。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创