少找工具,多做创作

谷歌Gemini安卓测试版升级 推出双模态AI图像局部编辑功能

2026年3月,谷歌推送Gemini安卓应用17.10.54.sa.arm64测试版,新增深度集成的标记界面与实时文本描述框,推出“视觉定位+自然语言”双模态AI图像编辑功能,解决此前AI图像二次创作中指令传递不准、操作链路断裂的痛点,局部修改指令理解精度大幅提升,后续还将上线尺寸调整、特效等相关功能。

3月18日,参与Gemini安卓应用17.10.54.sa.arm64测试版灰度测试的用户率先发现了这次功能更新:点击图像编辑栏新增的铅笔图标后,即可直接在生成图片的任意区域框选、涂鸦标记,同时底部弹出的文本框可同步输入修改需求,全程无需退出编辑界面跳转对话。

此前AI生成图像的局部修改一直是行业公认的体验短板:用户仅靠自然语言描述修改位置,很容易出现模型识别偏差,而部分平台提供的涂鸦标记功能,也需要用户退出编辑界面后再单独发送指令,操作链路断裂的问题十分突出。

此次Gemini的改版直接重构了图像编辑的交互逻辑,“视觉定位+自然语言”的双模态输入方式,让模型可以同时接收用户的位置标记和修改需求,针对Nano Banana等AI生成内容的局部调优准确率得到显著提升。

从测试版泄露的界面信息来看,除了已经可用的局部编辑功能,编辑栏还预留了调整大小、特效两大功能模块的入口,目前处于灰度不可用状态。

这也意味着谷歌并非只做单点功能升级,而是计划将Gemini的图像生成、编辑能力整合成一套完整的工具链,覆盖从生成到精细化调整的全流程需求,对标目前市面上的专业AI图像工具。

随着生成式AI的普及,纯文本交互的歧义问题已经成为限制工具落地的核心瓶颈,将视觉、语音等多模态输入能力和自然语言结合,正在成为科技公司的共同选择。

此次Gemini的功能升级,本质上是谷歌把多模态大模型的能力直接落地到C端交互场景,降低普通用户的精细化内容创作门槛。从行业趋势来看,未来3年内,多模态交互很可能会成为所有生成式AI工具的标配功能。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创