登录体验完整功能(收藏、点赞、评论等) — 已累计有 9387 人加入

让AI触手可及,让应用激发潜能

谷歌推出全新多模态模型Gemini Omni 原生打通图文音视频生成链路

谷歌日前正式发布新一代跨模态大模型Gemini Omni,作为Gemini家族的全新迭代产品,该模型首次实现了文本、图像、音频、视频四类模态的全链路原生推理,支持用户通过自然对话完成视频的生成与全流程编辑,首发同步上线的轻量化版本Omni Flash,推理速度较前代Gemini Ultra提升2.7倍,大幅降低多模态视频生成的部署门槛。

过去两年AI视频生成赛道的产品迭代速度飞快,但绝大多数工具始终绕不开“模态拼接”的先天缺陷:生成的视频经常出现音频口型不对齐、画面逻辑和文字描述矛盾、动态物体动作崩坏等问题,背后的核心原因,是不同模态的生成过程彼此独立,缺乏统一的底层逻辑协调。

此前全球头部科技厂商推出的多模态大模型,大多采用“组合式架构”:语言模态输出交给大语言模型,图像生成调用独立的扩散模型,音频内容再转交给专属的语音生成模块,最终通过调度层把不同模块的输出拼接在一起。
这种架构虽然能快速搭建出多模态交互的雏形,但也带来了推理延迟高、模态间逻辑冲突概率大、部署成本居高不下等问题,始终无法支撑普通用户实时生成高清短视频的需求,全模态原生统一表征的大模型,成为整个行业等待突破的核心方向。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯