DreamOmni2是一款开源多模态AI模型,核心定位于指令式图像编辑与生成。不同于传统单一模态的AI图像工具,它支持用户参考纹理、材质、风格等抽象属性,或是直接操控具象物体完成图像创作与修改,在人物身份一致性、图像编辑精度上的表现优于多数商业同类工具,能为创意从业者提供更灵活、精准的图像创作支持,适配从快速改图到精细化创意生成的多种需求。
针对人像创作场景,输入“保持人物面部特征不变,将背景替换为复古欧式书房,调整整体风格为油画质感”,DreamOmni2能精准保留人物面部轮廓、五官等核心身份特征,同时生成符合复古油画风格的书房背景,细节纹理还原度高,光影过渡自然;对于产品图修改,指令“把金属材质的水杯改为陶瓷材质,调整光影为暖色调”,工具可准确替换水杯材质,同时匹配暖色调光影,输出成品无违和感,无需后续大量手动微调。

1 天前
2026年3月,微软正式开源前沿语音AI模型家族VibeVoice,该模型同时覆盖自动语音识别(ASR)与文本转语音(TTS)两大场景,可单次处理最长90分钟的多说话人对话,具备实时低延迟特性。项目上线GitHub后迅速引发全球开发者关注,目前已收获27K Star,采用MIT许可协议,支持本地免费部署,旨在推动语音AI领域的协作开放创新。

3 天前
近日,面向全球创作者与商业品牌的AI创意工作室Avocado AI正式上线专属创意工作空间,该平台搭载40余款世界级AI模型,可支持专业级图像、视频、UGC广告、音乐、语音等全品类营销内容生成,旨在降低内容创作门槛,为品牌营销、内容创作领域提供AI驱动的效率提升解决方案。

6 天前
2026年3月23日,AI创意企业智象未来正式发布旗下首个多模态原生应用HiDreamClaw(内部代号“龙虾”),产品目前已接入其个人创意平台vivago web端,率先向海外用户开放。该产品深度兼容自研AIGC能力与OpenAI Sora、Google Veo等全球顶尖模型,标志着企业全流程AI创意生态布局完成关键落地。

8 天前
2026年3月23日,字节跳动旗下AI视频生成模型Seedance 2.0正式全球上线。该模型采用多模态统一架构,支持文本、图像、音频、视频多类输入,可生成1080P高保真原生同步音视频。在第三方机构Artificial Analysis的独立盲测中,其文本生成视频赛道以Elo 1269分登顶,力压OpenAI Sora、Google Veo3等头部竞品。

12 天前
2026年3月财报沟通会上,腾讯正式披露自研大模型混元3.0最新进展:该模型目前已进入内部业务测试阶段,计划2026年4月正式对外发布。作为混元系列重大迭代版本,其核心升级方向为从大模型向强智能体跃迁,推理能力为历代提升最大,多模态相关能力已落地微信、元宝等产品。

14 天前
2026年3月17日举办的GTC大会上,英伟达正式推出Nemotron 3系列开源多模态模型家族,其中基于Blackwell架构深度优化的Nemotron 3 Ultra吞吐量效率较前代提升5倍,可适配复杂代码辅助、企业级工作流等场景,目前已获得CrowdStrike、ServiceNow等行业巨头的部署支持,同时亮相的还有面向物理AI、医疗领域的配套模型方案。

19 天前
全球科技行业媒体InfoWorld最新发布的技术观测报告显示,目前已有19款不同定位的大语言模型(LLM)正式对外亮相,其中既包含搭载多层级安全护栏、风险输出拦截率超过92%的合规导向产品,也涵盖完全取消内容限制的开源模型,这类产品分化正在重新定义全球AI安全的评价维度与风险防控标准。

20 天前
2026年3月,OpenAI被曝计划将旗下AI视频生成工具Sora整合进ChatGPT平台,依托现有9.2亿周活的超级入口补齐视频创作能力,填补距离10亿周活目标的8000万用户缺口。本次整合是OpenAI应对谷歌Veo、Meta同类多模态产品竞争的核心动作,将统一文字、图片、视频生成入口,巩固其在生成式AI领域的领先地位。