小红书开源FireRed图像编辑模型 多项核心指标达业界SOTA

4 小时前 AI快讯 1

小红书开源FireRed图像编辑模型 多项核心指标达业界SOTA

春节前夕,AI图像编辑领域传出重磅消息——小红书正式发布并开源自研基础模型FireRed-Image-Edit。这款模型在复杂指令理解、风格化转换、高精度文字编辑等核心场景表现突出,一举拿下ImgEdit、GEdit等多个权威榜单的SOTA(当前最优)成绩,既为专业开发者提供了新的技术底座,也让普通用户实现“春节P图不求人”的便捷体验。

在AI生图技术爆发的当下,图像编辑却始终是行业的“痛点洼地”:复杂编辑指令理解偏差、人物或物体ID特征(核心形态、身份特征)丢失、文字修改时画面崩坏……这些问题不仅困扰着专业内容创作者,更把普通用户挡在高效P图的门外。尤其是海报改字、全家福修图这类春节高频需求,此前的主流模型往往难以兼顾修改精度与画面一致性,常出现“改字崩背景”“修图变换脸”的尴尬。

小红书此次推出的FireRed-Image-Edit,正是瞄准这些用户真实需求而来。据了解,这款模型由小红书Super Intelligence团队研发,其核心优势体现在三大维度:精准的指令理解力、极强的ID保持度,以及经过优化的高效推理架构。在权威测试集和小红书自建的复杂场景评测集中,FireRed的表现全面领先于同类竞品,在人工评估中的胜出率更是大幅超越现有模型。

其中最具突破性的,是其针对文字编辑场景创新的OCR奖励机制。以往用户修改海报、图片中的文字时,常出现文字变形、周围背景元素错位、风格不统一的问题,而FireRed通过引入OCR技术对文字区域进行像素级精准定位,并在训练过程中加入专项奖励策略,使得文字修改后的画面连贯性和风格一致性得到极大保障——无论是把促销海报上的“元旦”改成“春节”,还是给手写贺卡替换祝福语,都能实现自然无痕的效果,彻底解决“改字崩图”的行业难题。

在技术实力的量化验证上,FireRed交出了一份亮眼的成绩单:在ImgEdit、GEdit等业内主流图像编辑榜单中,它在指令遵循度、ID保持度、编辑精度等核心指标上均位列第一;在跨风格转换测试中,比如把写实照片转换成国风插画,其生成效果的细节丰富度和风格还原度也远超同类模型。这种高效能背后,是小红书团队在图像生成与编辑领域长期的技术积累,从模型架构到训练策略都进行了针对性优化,既保证了顶级性能,又控制了推理成本,让模型既能在云端部署,也具备端侧应用的潜力。

值得一提的是,小红书此次选择将FireRed-Image-Edit全面开源:目前项目代码、技术报告及在线Demo已面向公众开放,模型权重也将在未来几天内正式上线。这意味着无论是AI开发者还是普通用户,都能第一时间体验这款SOTA模型的能力——普通用户可以通过在线Demo轻松完成春节全家福修图、拜年海报文字修改、旅行照片风格化转换等操作,无需掌握专业的图像编辑技能;而开发者则可以基于其技术底座,进行二次开发或技术研究,进一步推动AI图像编辑技术在更多场景的落地。

从用户真实需求出发反哺技术研发,是小红书此次推出FireRed模型的核心逻辑。作为拥有海量图像内容的平台,小红书深知用户对图像编辑的高频痛点,而这次开源SOTA模型,不仅展现了其在AI基础模型领域的技术实力,也为AI技术的平民化应用提供了新的范例。未来,随着更多场景化AI模型的涌现,AI工具或许将真正成为普通人生活中的“创意助手”,让每一个人的视觉表达变得更加简单高效。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创