Google DeepMind发布Gemini Image等多模态AI模型覆盖全场景创作

2 小时前 AI快讯 1

Google DeepMind近日集中披露多款下一代多模态生成式AI模型，包括主打高精度图像生成与编辑的Gemini Image（Nano Banana）、可产出带音频的电影级视频的Veo、高保真音乐音频工具Lyria，以及能创建交互式虚拟世界的Genie 3，为专业创作与娱乐场景提供细分解决方案，展现其在AI多模态领域的全面技术布局。

Gemini Image（Nano Banana）作为此次发布的核心图像类AI模型，凭借“State-of-the-art”的技术性能，可满足专业设计、内容创作乃至日常娱乐的多种图像需求。无论是生成细节丰富的产品原型图、创意海报，还是对已有图像进行精细化编辑，都能实现高效且高质量的输出，为用户提供兼具专业性与灵活性的图像创作工具。

除了图像领域，Veo将生成式AI的能力拓展到了动态视频场景。它不仅能生成电影级质感的视频画面，还可同步匹配适配的音频内容，意味着创作者无需额外投入音轨制作成本，就能一键产出具备完整视听体验的动态内容，为短视频制作、影视创意原型等场景大幅降低创作门槛。

针对音乐与音频创作，Lyria主打高保真的音频生成能力。从完整的歌曲片段、场景化背景配乐到专业级音效素材，它都能输出接近录音棚水准的音质，为独立音乐人、游戏开发者、视频创作者等群体提供了灵活高效的音频创作支持，填补了专业AI音频工具的市场空白。

Genie 3则将AI生成的边界延伸至交互式虚拟空间。用户不仅能快速生成风格多样的虚拟世界场景，还可直接在生成的场景内进行探索、互动甚至自定义修改，这一技术为游戏开发、虚拟会展、元宇宙内容生产等领域开辟了全新的内容创作路径。

在面向开发者的产业化落地层面，DeepMind推出的Gemma模型主打“规模化构建负责任的AI应用”。它为企业和开发者提供了合规、高效的AI开发基础框架，同时内置负责任AI的相关准则，确保AI应用在大规模落地过程中，符合伦理规范与安全标准，平衡技术创新与风险管控。

除了面向消费和产业的应用类模型，DeepMind的实验室还在持续推进前沿AI研究突破。比如Gemini Robotics项目，聚焦于赋予机器人感知、推理、工具使用与环境交互的能力，将大语言模型的认知能力与实体机器人的执行能力结合，探索通用人工智能在实体世界的落地可能，为AI技术的长期发展奠定基础。

此次DeepMind集中发布多款细分领域的AI模型，折射出生成式AI行业的重要演进方向——从通用型大模型向场景化、专业化工具转型。此前，创作者往往需要在通用大模型中调整复杂参数才能获得符合需求的产出，而现在，针对图像、视频、音频等不同场景优化的专业工具，能直接提供更匹配行业标准的输出，大幅提升创作效率。

这种细分趋势也意味着，AI创作工具将进一步渗透到各行各业的核心创作环节。比如设计行业可借助Gemini Image快速迭代设计稿，影视行业可用Veo生成创意分镜，游戏行业则能通过Genie 3加速虚拟世界的开发，AI不再是创作的“辅助工具”，而是逐渐成为核心生产力之一。

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

Google DeepMind发布Gemini Image等多模态AI模型覆盖全场景创作

Uber工程师打造AI版CEO达拉拉，供员工模拟提案演练

OpenAI COO：AI尚未深度渗透企业业务流程，押注Frontier破局

五角大楼升级AI监管博弈：限Anthropic周五松绑护栏，否则遭处罚

Anthropic发布COBOL维护AI工具，IBM股价暴跌13%引行业震动