DreamOmni2是一款开源多模态AI模型,核心定位于指令式图像编辑与生成。不同于传统单一模态的AI图像工具,它支持用户参考纹理、材质、风格等抽象属性,或是直接操控具象物体完成图像创作与修改,在人物身份一致性、图像编辑精度上的表现优于多数商业同类工具,能为创意从业者提供更灵活、精准的图像创作支持,适配从快速改图到精细化创意生成的多种需求。
针对人像创作场景,输入“保持人物面部特征不变,将背景替换为复古欧式书房,调整整体风格为油画质感”,DreamOmni2能精准保留人物面部轮廓、五官等核心身份特征,同时生成符合复古油画风格的书房背景,细节纹理还原度高,光影过渡自然;对于产品图修改,指令“把金属材质的水杯改为陶瓷材质,调整光影为暖色调”,工具可准确替换水杯材质,同时匹配暖色调光影,输出成品无违和感,无需后续大量手动微调。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
2 小时前
消费电子巨头三星已启动旗下首款AI智能眼镜的量产筹备工作,该产品正式命名为Galaxy Glasses,预计2025年7月面向全球市场发售。作为三星布局空间计算与生成式AI交互场景的核心硬件,Galaxy Glasses将搭载多模态AI交互系统,可实现独立语音交互、实时翻译、AR内容显示等功能,有望重构消费级可穿戴设备的使用场景。

13 天前
2026年5月OpenAI正式推出多模态图像生成工具ChatGPT Images2.0,Sensor Tower数据显示该功能发布首周ChatGPT全球下载量环比上涨11%,核心参与指标增幅约1%,印度以500万次首周下载量成为最大增量市场,远超美国的200万次,巴基斯坦、越南等新兴市场下载量增幅也达79%。

17 天前
2026年4月,国产大模型开发团队DeepSeek推出的V4系列模型,在第三方测评机构SuperCLUE的中文大模型综合评测中取得领跑成绩。其中DeepSeek-V4-Pro以70.98分的综合得分重夺国内中文大模型第一,DeepSeek-V4-Flash以68.82分紧随其后,本次测评覆盖六大核心能力维度,两款模型得分均显著领先国内同类开源模型,验证了国产开源大模型的技术进阶。

17 天前
近日创意软件巨头Adobe正式宣布,其训练数据合规的生成式AI工具Firefly已结束封闭测试阶段,全面对全球公众开放使用。截至开放当日,已有超过100万创意从业者参与前期测试,累计生成超2亿幅各类创意内容,该工具主打商用合规的AI内容生成,可直接接入Adobe创意云生态,为全球创作者提供便捷的内置AI生成能力。

18 天前
2026年4月,OpenAI推出面向个人身份信息(PII)脱敏的开源大模型Privacy Filter。该模型参数规模1.5亿,采用混合专家(MoE)架构,支持最高12.8万Token上下文窗口,以Apache 2.0协议上架Hugging Face与GitHub,允许开发者免费商用与二次定制。模型依托深度语义理解识别非结构化文本敏感信息,性能超越传统规则类脱敏工具。

21 天前
2026年4月24日,社交平台Soul旗下AI研发机构Soul AI Lab宣布开源业内首个14亿参数实时数字人生成模型SoulXFlashTalk。该模型可实现亚秒级交互延迟、每秒32帧高帧率输出,本次开放包含项目页面、技术报告、源代码与模型权重全套资源。此前Soul已开源语音合成模型SoulXPodcast,此举进一步完善了其“语音+视觉”双模态开源布局,将有效降低行业研发门槛。

23 天前
近日OpenAI正式推出ChatGPT Images 2.0图像生成工具,相较上一代版本,其在画面写实度、细节还原度、指令遵循度等核心指标上均提升超40%,支持多主体复杂场景生成、风格精准复刻、多轮修改等多项新功能,目前已向所有ChatGPT Plus及企业版用户开放,被业内视为AI图像生成赛道的标志性迭代。

23 天前
当地时间2026年4月21日,OpenAI正式发布面向ChatGPT的最新图像生成模型ChatGPT Images 2.0,其核心突破在于图内文本生成精度大幅提升,解决了过往文生图模型普遍存在的文字错漏、扭曲等共性问题,标志着多模态AI生成能力在过去三年完成了量级跃升,目前该功能已向所有ChatGPT Plus及企业版用户开放。