2026年3月,谷歌推送Gemini安卓应用17.10.54.sa.arm64测试版,新增深度集成的标记界面与实时文本描述框,推出“视觉定位+自然语言”双模态AI图像编辑功能,解决此前AI图像二次创作中指令传递不准、操作链路断裂的痛点,局部修改指令理解精度大幅提升,后续还将上线尺寸调整、特效等相关功能。
3月18日,参与Gemini安卓应用17.10.54.sa.arm64测试版灰度测试的用户率先发现了这次功能更新:点击图像编辑栏新增的铅笔图标后,即可直接在生成图片的任意区域框选、涂鸦标记,同时底部弹出的文本框可同步输入修改需求,全程无需退出编辑界面跳转对话。
此前AI生成图像的局部修改一直是行业公认的体验短板:用户仅靠自然语言描述修改位置,很容易出现模型识别偏差,而部分平台提供的涂鸦标记功能,也需要用户退出编辑界面后再单独发送指令,操作链路断裂的问题十分突出。
此次Gemini的改版直接重构了图像编辑的交互逻辑,“视觉定位+自然语言”的双模态输入方式,让模型可以同时接收用户的位置标记和修改需求,针对Nano Banana等AI生成内容的局部调优准确率得到显著提升。
从测试版泄露的界面信息来看,除了已经可用的局部编辑功能,编辑栏还预留了调整大小、特效两大功能模块的入口,目前处于灰度不可用状态。
这也意味着谷歌并非只做单点功能升级,而是计划将Gemini的图像生成、编辑能力整合成一套完整的工具链,覆盖从生成到精细化调整的全流程需求,对标目前市面上的专业AI图像工具。
随着生成式AI的普及,纯文本交互的歧义问题已经成为限制工具落地的核心瓶颈,将视觉、语音等多模态输入能力和自然语言结合,正在成为科技公司的共同选择。
此次Gemini的功能升级,本质上是谷歌把多模态大模型的能力直接落地到C端交互场景,降低普通用户的精细化内容创作门槛。从行业趋势来看,未来3年内,多模态交互很可能会成为所有生成式AI工具的标配功能。

2 小时前
国内大模型厂商智谱日前发布2025年全年业绩公告,全年营收达7.24亿元,同比增长131.9%,经调整净亏损31.82亿元,同比扩大29.1%。其最新推出的GLM-5发布24小时内即获字节、阿里、腾讯等头部大厂接入,国内前10大互联网公司已有9家深度集成GLM系列模型,旗下GLM Coding Plan付费开发者规模突破24.2万。

9 小时前
2026年4月,AI创企Anthropic旗下闭源编程工具Claude Code意外泄露引发行业震荡,项目负责人鲍里斯·切尔尼公开承认团队手动操作部署流程失误导致事故,第三方基于泄露代码推出的平替版本上线后短时间内便斩获GitHub 10万星,Anthropic随后紧急启动下架封杀措施,此次事件也引发行业对闭源AI项目安全管控的广泛讨论。

11 小时前
近日,科技公司Meta公布了一项针对大语言模型(LLM)代码审查场景的技术优化方案,其核心的半形式化推理方法通过结构化提示词约束模型追踪代码路径、论证结论合理性,在实现代码审查准确率提升超五成的同时,算力开销可降低超80%,大幅减少企业对高成本代码执行测试环境的依赖,为工业级LLM代码应用落地提供了新路径。

12 小时前
2026年4月以来,基于大语言模型的AI文游在国内社交平台快速走红,普通用户可通过灵光App等零代码AI助手,以自然语言对话方式生成个性化文字游戏,部分创作者将成品以9.9元至30元的价格出售变现。这类轻量内容产品兼具高定制性与情感价值,不仅满足Z世代创作需求,也成为情绪经济的全新载体,推动内容创业逻辑发生转变。

15 小时前
2026年4月1日,在上海浦江AI学术年会上,阿里巴巴联合上海人工智能实验室正式发布《守己利他:智能时代做负责任的技术》AI安全白皮书。本次发布聚焦AI从对话交互向可自主执行任务的智能体升级的产业节点,深度剖析当前智能体普及的安全隐患,提出兼顾技术自律与行业协同的治理中国方案,为全球AI安全治理提供可落地的参考路径。

15 小时前
2026年4月1日,字节跳动正式启动Seed2027届大模型人才校园招聘计划,面向全球2027届本、硕、博毕业生开放正式校招及实习岗位,覆盖大语言模型、多模态理解与生成、大规模分布式训练等前沿AI方向,入选者可接触核心算力资源、获得资深科学家指导,是字节深耕大模型底层技术的重要人才布局举措。

16 小时前
为应对大模型领域快速技术迭代,2026年4月,字节跳动正式启动旗下大模型人才培养专项Seed的新一轮全球校招,面向2027届应届生及在校实习生,计划在全球招募约100名大模型相关领域顶尖人才,配套导师制培养与核心项目实战资源,更首次推出面向校招人才的专项虚拟股激励,加码底层技术人才储备。

18 小时前
2026年3月,由前百度副总裁景鲲、技术专家朱凯华联合创立的AI创业项目Genspark宣布完成3.85亿美元B轮扩展融资,投后估值约合人民币110亿元,核心团队规模仅约20人。该公司主打可直接交付成果的“全职Agent”能力,产品性能在GAIA测评中超越Manus等竞品,成功跻身A16Z发布的全球Top50生成式AI应用榜单。