蚂蚁开源全模态大模型Ming-flash-omni 2.0 部分指标超越Gemini 2.5 Pro

2 小时前 AI快讯 0

2月11日，蚂蚁集团正式开源发布全模态大模型Ming-flash-omni 2.0，在视觉语言理解、语音生成、图像编辑等多维度基准测试中表现优异，部分核心指标超越Google Gemini 2.5 Pro，还首创全场景音频统一生成能力，兼顾实时推理效率，成为开源全模态模型领域的性能新标杆。

全模态大模型是下一代通用AI的核心赛道，它需要同时处理文本、图像、音频等多模态信息，实现跨模态的精准理解与生成。此前，闭源模型凭借算力与数据优势长期占据性能顶端，开源模型虽有部署灵活、成本低的特点，但在复杂任务处理能力上始终存在明显差距。Ming-flash-omni 2.0的出现，直接打破了这一格局：在视觉语言推理的公开基准测试中，其对多模态信息的关联理解准确率较上一代提升12%，其中在复杂逻辑推理、多轮图文交互等细分任务上的表现，甚至反超Gemini 2.5 Pro，这是开源全模态模型首次在核心性能指标上追平并超越闭源旗舰模型。

除了跨模态理解能力的突破，Ming-flash-omni 2.0最具创新性的亮点，是业内首创的全场景音频统一生成能力。过去，若要生成包含语音、音效与音乐的完整音频内容，开发者通常需要调用至少三个独立模型，分别生成后再进行剪辑拼接，不仅流程繁琐，还容易出现音轨不兼容、风格不协调的问题。而Ming-flash-omni 2.0能够在单一模型框架内，直接在同一条音轨中同步生成三类音频元素，且支持用户通过自然语言指令进行精细化控制——无论是调整语音的音色（如少年音、御姐音）、语速快慢、情绪基调，还是指定环境音效（如雨声、咖啡馆背景音）、音乐风格（如爵士、古典），都能一键实现。据蚂蚁技术团队介绍，该能力已通过内容创作者实测验证，能将音频内容的制作周期缩短80%以上。

推理效率是制约全模态模型落地的另一大痛点。不少高性能全模态模型在生成长内容时，往往需要数分钟甚至数十分钟的等待时间，难以满足实时交互需求。Ming-flash-omni 2.0则通过优化模型架构与推理流程，实现了3.1Hz的低延迟推理帧率，能够支持分钟级长音频的实时高保真生成。也就是说，用户输入指令后，几乎可以同步听到生成的完整音频内容，这一性能表现即使在闭源模型中也属上乘，更让开源全模态模型具备了面向C端实时应用的可能。

在图像生成与编辑领域，Ming-flash-omni 2.0同样表现不俗。针对当前主流模型存在的“细节失真”“指令理解偏差”等问题，该模型优化了图文交互的对齐机制，用户只需用自然语言描述修改需求（如“把这张图片里的猫咪换成金毛犬，保持背景光影不变”），模型就能精准识别并生成符合要求的图像，在图像编辑的准确率与细节还原度上，达到了开源模型的顶尖水平。

行业分析师指出，Ming-flash-omni 2.0的开源发布，不仅为开发者提供了高性能的全模态AI工具，更将推动全模态AI的普惠化落地。此前，中小开发者因闭源模型的API成本高昂、定制化空间有限，难以在全模态领域进行创新；而高性能开源模型的出现，将降低技术门槛，催生更多垂直领域的AI应用——比如电商领域的商品图文语音一键生成、教育领域的多模态课件制作、媒体行业的短视频自动剪辑等。

展望未来，随着开源全模态模型的性能不断逼近闭源旗舰，AI技术的“平民化”进程将进一步加速。Ming-flash-omni 2.0树立的性能标杆，也将促使更多企业投入到开源全模态模型的研发中，最终推动整个AI生态向更开放、更高效的方向发展。

2.0 蚂蚁集团全模态大模型 Ming-flash-omni AI开源

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

蚂蚁开源全模态大模型Ming-flash-omni 2.0 部分指标超越Gemini 2.5 Pro