蚂蚁开源全模态大模型Ming-flash-omni 2.0 部分指标超越Gemini 2.5 Pro 2月11日,蚂蚁集团正式开源发布全模态大模型Ming-flash-omni 2.0,在视觉语言理解、语音生成、图像编辑等多维度基准测试中表现优异,部分核心指标超越Google Gemini 2.5 Pro,还首创全场景音频统一生成能力,兼顾实时推理效率,成为开源全模态模型领域的性能新标杆。 全模态大模型是下一代通用AI的核心赛道,它需要同时处理文本、图像、音频等多模态信息,实现跨模态的精准理解与生成。此前,闭源模型凭借算力与数据优势长期占据性能顶端,开源模型虽有部署灵活、成本低的特点,但在复杂任务处理能力上始终存在明显差距。Ming-flash-omni 2.0的出现,直接打破了这一格局:在视觉语言推理的公开基准测试中,其对多模态信息的关联理解准确率较上一代提升12%,其中在复杂逻辑推理、多轮图文交互等细分任务上的表现,甚至反超Gemini 2.5 Pro,这是开源全模态模型首次在核心性能指标上追平并超越闭源旗舰模型。 除了跨模态理解能力的突破,Ming-flash-omni 2.0最...