Google DeepMind近日集中披露多款下一代多模态生成式AI模型,包括主打高精度图像生成与编辑的Gemini Image(Nano Banana)、可产出带音频的电影级视频的Veo、高保真音乐音频工具Lyria,以及能创建交互式虚拟世界的Genie 3,为专业创作与娱乐场景提供细分解决方案,展现其在AI多模态领域的全面技术布局。
Gemini Image(Nano Banana)作为此次发布的核心图像类AI模型,凭借“State-of-the-art”的技术性能,可满足专业设计、内容创作乃至日常娱乐的多种图像需求。无论是生成细节丰富的产品原型图、创意海报,还是对已有图像进行精细化编辑,都能实现高效且高质量的输出,为用户提供兼具专业性与灵活性的图像创作工具。
除了图像领域,Veo将生成式AI的能力拓展到了动态视频场景。它不仅能生成电影级质感的视频画面,还可同步匹配适配的音频内容,意味着创作者无需额外投入音轨制作成本,就能一键产出具备完整视听体验的动态内容,为短视频制作、影视创意原型等场景大幅降低创作门槛。
针对音乐与音频创作,Lyria主打高保真的音频生成能力。从完整的歌曲片段、场景化背景配乐到专业级音效素材,它都能输出接近录音棚水准的音质,为独立音乐人、游戏开发者、视频创作者等群体提供了灵活高效的音频创作支持,填补了专业AI音频工具的市场空白。
Genie 3则将AI生成的边界延伸至交互式虚拟空间。用户不仅能快速生成风格多样的虚拟世界场景,还可直接在生成的场景内进行探索、互动甚至自定义修改,这一技术为游戏开发、虚拟会展、元宇宙内容生产等领域开辟了全新的内容创作路径。
在面向开发者的产业化落地层面,DeepMind推出的Gemma模型主打“规模化构建负责任的AI应用”。它为企业和开发者提供了合规、高效的AI开发基础框架,同时内置负责任AI的相关准则,确保AI应用在大规模落地过程中,符合伦理规范与安全标准,平衡技术创新与风险管控。
除了面向消费和产业的应用类模型,DeepMind的实验室还在持续推进前沿AI研究突破。比如Gemini Robotics项目,聚焦于赋予机器人感知、推理、工具使用与环境交互的能力,将大语言模型的认知能力与实体机器人的执行能力结合,探索通用人工智能在实体世界的落地可能,为AI技术的长期发展奠定基础。
此次DeepMind集中发布多款细分领域的AI模型,折射出生成式AI行业的重要演进方向——从通用型大模型向场景化、专业化工具转型。此前,创作者往往需要在通用大模型中调整复杂参数才能获得符合需求的产出,而现在,针对图像、视频、音频等不同场景优化的专业工具,能直接提供更匹配行业标准的输出,大幅提升创作效率。
这种细分趋势也意味着,AI创作工具将进一步渗透到各行各业的核心创作环节。比如设计行业可借助Gemini Image快速迭代设计稿,影视行业可用Veo生成创意分镜,游戏行业则能通过Genie 3加速虚拟世界的开发,AI不再是创作的“辅助工具”,而是逐渐成为核心生产力之一。

1 小时前
2026年4月2日,百度健康正式发布国内首个面向医生群体的任务型医疗AI产品「有医助理」。该产品基于自研Claw框架,依托数千万级权威医学数据,同时配备五层医疗级数据防护体系,可覆盖检索、学术科研、患者随访等多场景需求,标志着国内医疗AI正式从资料检索阶段迈入深度参与临床、科研执行的新阶段。

2 小时前
2026年4月,联想正式对外展示旗下轻量化AI工具天禧AI Claw,实测数据显示该产品可实现最快1小时完成企业业务场景适配,相比行业平均70%中小企业部署AI需10人天以上的配置周期,效率提升超90%,解决了过往AI工具部署复杂、定制成本高、落地效果不达预期的行业普遍痛点。

2 小时前
4月2日消息,消费级AR眼镜头部厂商XREAL于日前正式向港交所递交招股书,冲刺港股AI眼镜第一股。该公司由前英伟达员工、浙江大学校友徐弛联合创办,获得雷军旗下投资机构注资,2023年全年实现营收5.16亿元,净亏损4.56亿元,是目前国内消费级AR眼镜赛道出货量位居前列的核心玩家。

4 小时前
4月2日火山引擎于AI创新巡展·武汉站正式宣布Seedance 2.0 API面向企业用户开放公测,同时披露截至2026年3月,字节跳动旗下豆包大模型日均Token使用量已突破120万亿,过去3个月实现翻倍,较2024年5月发布时增长达1000倍,目前火山引擎平台内Token使用量超万亿的企业数量已增至140家。

4 小时前
2026年4月,全球AI二级交易市场出现明显分化:曾经一券难求的OpenAI现有6亿美元待售股权无人接盘,其直接竞争对手、主打Claude系列大模型的Anthropic却获得资本市场热捧,买方市场已积压约20亿美元资金等待入场。这一估值倒挂现象,折射出通用人工智能赛道的投资逻辑正在发生深层转向。

4 小时前
2026年4月2日,火山引擎总裁谭待正式披露字节跳动旗下豆包大模型最新运营数据:其日均Token使用量已突破120万亿大关,近三个月用量实现翻倍,较两年前增长超1000倍,刷新国内大模型用量纪录。这一数据也印证国内AI产业已从模型研发竞赛转向规模化应用阶段,国产大模型调用量已在部分领域反超海外主流产品。

4 小时前
2026年4月,谷歌旗下视频平台YouTube遭200余名儿童发展专家及教育机构联名公开信抵制。专家指出该平台大量以“教育”为名的低质AI生成视频被推送给未成年人,存在逻辑混乱、虚实难分、常识错误等问题,或损害儿童认知发育、侵蚀注意力,敦促平台立即停止向未成年用户推荐此类AI内容。

5 小时前
2026年4月2日,Anthropic旗下AI编码工具Claude Code正式推出全新终端渲染方案NO_FLICKER模式,用户仅需配置一行环境变量即可启用。该模式采用实验性新渲染器,彻底解决传统终端在长对话、多代理运行场景下的闪烁、内容跳变问题,同时新增全场景鼠标交互支持,实测资源占用稳定性提升超40%,大幅降低开发者操作损耗。