近日谷歌AI正式推出开源大模型DiffusionGemma,该模型采用26B参数规模的MoE混合专家架构,搭载文本扩散技术可实现256Token块并行生成,推理生成速度较同量级自回归模型最高提升4倍,是当前文本扩散大模型领域首个落地的大规模开源MoE方案,为AI生成内容的效率优化提供了全新技术路径。从官方公布的测试数据来看,DiffusionGemma在生成长度为1024Token的完整文本时,平均延迟仅为同参数级自回归Gemma模型的27%,也就是说原本需要10秒才能生成的长文本,现在不到3秒就能完成输出,对C端用户的对话体验和B端的批量内容生产场景都有直接的价值。过去几年大模型的参数规模一路攀升,但推理生成效率的提升始终跟不上需求。当前主流自回归大模型采用逐Token生成的逻辑,生成长文本时往往需要用户等待数秒甚至数十秒,在实时客服、直播话术生成、在线教育互动等低延迟要求场景,体验短板十分明显。行业此前尝试过量化、分布式推理等优化方案,但都没有突破自回归架构的原生速度天花板。DiffusionGemma的核心创新在于同时落地了两大前沿技术路径:一方面采用MoE混合专家架构,26B总...