蚂蚁开源全模态大模型Ming-flash-omni 2.0 部分指标超越Gemini 2.5 Pro
2月11日,蚂蚁集团正式开源发布全模态大模型Ming-flash-omni 2.0,在视觉语言理解、语音生成、图像编辑等多维度基准测试中表现优异,部分核心指标超越Google Gemini 2.5 Pro,还首创全场景音频统一生成能力,兼顾实时推理效率,成为开源全模态模型领域的性能新标杆。
全模态大模型是下一代通用AI的核心赛道,它需要同时处理文本、图像、音频等多模态信息,实现跨模态的精准理解与生成。此前,闭源模型凭借算力与数据优势长期占据性能顶端,开源模型虽有部署灵活、成本低的特点,但在复杂任务处理能力上始终存在明显差距。Ming-flash-omni 2.0的出现,直接打破了这一格局:在视觉语言推理的公开基准测试中,其对多模态信息的关联理解准确率较上一代提升12%,其中在复杂逻辑推理、多轮图文交互等细分任务上的表现,甚至反超Gemini 2.5 Pro,这是开源全模态模型首次在核心性能指标上追平并超越闭源旗舰模型。
除了跨模态理解能力的突破,Ming-flash-omni 2.0最具创新性的亮点,是业内首创的全场景音频统一生成能力。过去,若要生成包含语音、音效与音乐的完整音频内容,开发者通常需要调用至少三个独立模型,分别生成后再进行剪辑拼接,不仅流程繁琐,还容易出现音轨不兼容、风格不协调的问题。而Ming-flash-omni 2.0能够在单一模型框架内,直接在同一条音轨中同步生成三类音频元素,且支持用户通过自然语言指令进行精细化控制——无论是调整语音的音色(如少年音、御姐音)、语速快慢、情绪基调,还是指定环境音效(如雨声、咖啡馆背景音)、音乐风格(如爵士、古典),都能一键实现。据蚂蚁技术团队介绍,该能力已通过内容创作者实测验证,能将音频内容的制作周期缩短80%以上。
推理效率是制约全模态模型落地的另一大痛点。不少高性能全模态模型在生成长内容时,往往需要数分钟甚至数十分钟的等待时间,难以满足实时交互需求。Ming-flash-omni 2.0则通过优化模型架构与推理流程,实现了3.1Hz的低延迟推理帧率,能够支持分钟级长音频的实时高保真生成。也就是说,用户输入指令后,几乎可以同步听到生成的完整音频内容,这一性能表现即使在闭源模型中也属上乘,更让开源全模态模型具备了面向C端实时应用的可能。
在图像生成与编辑领域,Ming-flash-omni 2.0同样表现不俗。针对当前主流模型存在的“细节失真”“指令理解偏差”等问题,该模型优化了图文交互的对齐机制,用户只需用自然语言描述修改需求(如“把这张图片里的猫咪换成金毛犬,保持背景光影不变”),模型就能精准识别并生成符合要求的图像,在图像编辑的准确率与细节还原度上,达到了开源模型的顶尖水平。
行业分析师指出,Ming-flash-omni 2.0的开源发布,不仅为开发者提供了高性能的全模态AI工具,更将推动全模态AI的普惠化落地。此前,中小开发者因闭源模型的API成本高昂、定制化空间有限,难以在全模态领域进行创新;而高性能开源模型的出现,将降低技术门槛,催生更多垂直领域的AI应用——比如电商领域的商品图文语音一键生成、教育领域的多模态课件制作、媒体行业的短视频自动剪辑等。
展望未来,随着开源全模态模型的性能不断逼近闭源旗舰,AI技术的“平民化”进程将进一步加速。Ming-flash-omni 2.0树立的性能标杆,也将促使更多企业投入到开源全模态模型的研发中,最终推动整个AI生态向更开放、更高效的方向发展。

1 天前
2026年3月30日,阿里正式推出新一代全模态大模型Qwen3.5-Omni。该模型原生支持文本、图片、音视频多模态输入,适配256k长上下文与最长10小时音频输入,实测可完整理解50分钟《老友记》剧情,在全球215项权威评测中拿下SOTA,部分性能表现超过谷歌Gemini 3.1 Pro。

1 天前
2026年3月30日,阿里巴巴正式发布新一代全模态大模型千问Qwen3.5-Omni。该模型搭载混合注意力MoE架构,支持图片、视频、语音、文字全模态无缝交互,在音视频理解、识别等215项测试任务中拿下SOTA,性能大幅领先Google Gemini-3.1Pro,标志国产大模型在视听交互领域达到全球顶尖水平。

1 天前
2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。

6 天前
2026年3月26日,字节跳动正式将旗下新一代AI视频生成模型Dreamina Seedance 2.0接入视频剪辑工具剪映。该模型在中文指令匹配度、视频生成效率上较前代实现35%左右提升,同时内置真人肖像识别、未授权IP内容拦截机制,可大幅降低AI生成内容的侵权风险,标志着字节跳动C端AI创作工具布局进一步落地。

6 天前
2026年3月26日,蚂蚁集团CodeFuse团队联合上海交通大学正式发布全尺寸多语种F2LLM-v2系列Embedding嵌入模型。该模型在全球权威语义表征评测MTEB中拿下11项榜单SOTA,支持282种自然语言与40余种编程语言,目前已全开源向全球开发者开放,旨在打破语义表征领域长期存在的“英语中心主义”壁垒。

8 天前
2026年3月24日,字节跳动旗下海外视频编辑工具CapCut正式推出AI视频生成模型Dreamina Seedance 2.0,目前已实现移动、桌面、网页端全端同步上线,首批落地印度尼西亚、菲律宾等7个国家,支持最长15秒多镜头连贯视频生成,内置唇形同步、空间音效及多模态参考功能,可实现生成、编辑一体化工作流。

9 天前
2026年3月,蚂蚁集团通过旗下全资子公司上海云玚企业管理咨询有限公司正式入股AI玩具初创企业深圳跃然创新科技有限公司,完成增资后后者注册资本提升至316.52万元。成立于2021年的跃然创新主打AI交互技术落地儿童玩具产品,此次获巨头入股也释放出AI技术加速下沉儿童消费市场的明确信号。

9 天前
2026年3月23日,字节跳动旗下AI视频生成模型Seedance 2.0正式全球上线。该模型采用多模态统一架构,支持文本、图像、音频、视频多类输入,可生成1080P高保真原生同步音视频。在第三方机构Artificial Analysis的独立盲测中,其文本生成视频赛道以Elo 1269分登顶,力压OpenAI Sora、Google Veo3等头部竞品。