登录体验完整功能（收藏、点赞、评论等） — 已累计有 9387 人加入

谷歌推出全新多模态模型Gemini Omni 原生打通图文音视频生成链路

AI创作导航 1 小时前

风向

2

收藏

谷歌日前正式发布新一代跨模态大模型Gemini Omni，作为Gemini家族的全新迭代产品，该模型首次实现了文本、图像、音频、视频四类模态的全链路原生推理，支持用户通过自然对话完成视频的生成与全流程编辑，首发同步上线的轻量化版本Omni Flash，推理速度较前代Gemini Ultra提升2.7倍，大幅降低多模态视频生成的部署门槛。

过去两年AI视频生成赛道的产品迭代速度飞快，但绝大多数工具始终绕不开“模态拼接”的先天缺陷：生成的视频经常出现音频口型不对齐、画面逻辑和文字描述矛盾、动态物体动作崩坏等问题，背后的核心原因，是不同模态的生成过程彼此独立，缺乏统一的底层逻辑协调。

此前全球头部科技厂商推出的多模态大模型，大多采用“组合式架构”：语言模态输出交给大语言模型，图像生成调用独立的扩散模型，音频内容再转交给专属的语音生成模块，最终通过调度层把不同模块的输出拼接在一起。
这种架构虽然能快速搭建出多模态交互的雏形，但也带来了推理延迟高、模态间逻辑冲突概率大、部署成本居高不下等问题，始终无法支撑普通用户实时生成高清短视频的需求，全模态原生统一表征的大模型，成为整个行业等待突破的核心方向。

AI视频生成大语言模型人工智能 Gemini 谷歌 Omni

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

相关网站

veo 4 AI

AI生成4K电影级视频工具

SeeVido AI

AI生成文本图像转视频的创作工

Gemini Omni Video

Gemini Omni Video

Google驱动的AI视频生成

Sulphur 2 AI

开源AI视频生成器

Gemini Omni AI Video Generator

Gemini Omni AI Video Generator

AI视频生成，支持多素材转视频

Happy Horse | Ai Video Generator | Ai Video Editor

Happy Horse | Ai Video Generator | Ai Video Editor

AI驱动多格式视频生成平台

Veo 4 AI

AI驱动的影视级视频生成平台

Omni Ai Video Generator

Omni Ai Video Generator

AI驱动的专业视频生成工具

相关资讯

© 2026 AI创作导航. All Rights Reserved.

滇ICP备2026002425号-1 公安备案图标

公安备案图标

滇公网安备 53252802528133号