2026年4月29日,蚂蚁集团正式开源旗下百灵大模型最新迭代版本Ling-2.6-flash,该模型总参数104B、激活参数仅7.4B,同步推出BF16、FP8、INT4多量化版本,H20显卡环境下推理速度最高达每秒340Token,同等任务下智效比较同级别模型提升10倍,大幅降低大模型部署门槛。
就在半个月前,一款参数规模未公开的大模型在MMLU、HumanEval等多个国际主流技术评测榜单冲进同赛道TOP3,彼时不少业内人士猜测其来自国内头部科技企业,谜底直到今日才正式揭晓:这款产品正是蚂蚁集团刚刚开源的百灵Ling-2.6-flash。
过去两年,大模型的性能迭代速度远超行业预期,但落地端的“算力鸿沟”却始终存在:100B级大模型的推理能力足以覆盖绝大多数商用场景,但单卡部署成本高、推理速度慢的问题,让大量中小开发者望而却步。不少团队为了适配硬件只能选择参数更小的模型,却不得不牺牲部分任务表现,效率与性能的平衡成为全行业共同的诉求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录