2026年4月2日,美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT,提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构,摒弃传统TTS系统的梅尔频谱中间表征,搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率,大幅降低信息损耗与误差累积,成功刷新零样本音色克隆性能SOTA。
最近两年,音频生成技术正处于从级联架构向端到端架构切换的关键节点,传统TTS系统沿用多年的“预测声学特征+神经声码器”多阶段流程,已经成为制约音色还原度、生成效率的核心瓶颈。
传统TTS系统普遍依赖梅尔频谱作为中间表征,先把文本转化为梅尔频谱,再通过声码器转为最终音频,两个步骤的误差会层层累积。尤其是在零样本音色克隆场景下,传统方案往往会出现音色走形、咬字模糊、情感缺失等问题,即便多次调优也很难突破性能天花板,无法满足虚拟人、智能客服等场景对音色还原度的高要求。
LongCat-AudioDiT的核心革新在于完全摒弃了梅尔频谱中间表征,采用由Wav-VAE(波形变分自编码器)与DiT(扩散Transformer)组成的极简端到端架构,直接在波形潜空间完成建模,相当于直接重构了音频生成的底层逻辑。
其中搭载的高效Wav-VAE采用全卷积设计,可将24kHz的原始音频波形压缩2000倍至11.7Hz帧率,同时通过非参数捷径分支与多目标对抗训练,保证重建后的波形既保留精准的时频结构,又拥有接近真人的自然听感。根据公开测试数据,该模型在零样本音色相似度、自然度两项核心指标上均超过现有同类模型,拿下当前行业最优成绩。目前该模型开放的1B、3.5B两个参数版本,可分别适配端侧轻量化部署、云端高精度生成等不同场景需求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
19 天前
2026年4月30日,蚂蚁集团正式开源万亿参数旗舰大模型百灵Ling-2.6-1T,该模型采用MLA与LinearAttention混合架构打造快思考机制,实测仅需16M tokens即可完成全量评测,输出成本仅为同类模型的四分之一,综合性能对标非推理模式下的GPT-5.4,推理、代码等实战指标达开源领域SOTA。

20 天前
2026年4月29日,蚂蚁集团正式开源旗下百灵大模型最新迭代版本Ling-2.6-flash,该模型总参数104B、激活参数仅7.4B,同步推出BF16、FP8、INT4多量化版本,H20显卡环境下推理速度最高达每秒340Token,同等任务下智效比较同级别模型提升10倍,大幅降低大模型部署门槛。

21 天前
近日开源领域传出AI生态落地新动态,Linux基金会正联合多家头部AI开发团队推进原生AI功能的社区整合,计划将大语言模型辅助开发、本地AI工具链等能力融入主流Linux发行版。不同于桌面端系统强制预装的AI功能,本次落地的所有AI工具均默认可选安装,整体基础资源占用控制在500MB以内,不会强制占用用户硬件算力。

21 天前
2026年4月,Red Hat旗下开源AI代理框架OpenClaw的核心维护者推出了专用容器化运行环境Tank OS。该方案针对企业批量部署OpenClaw AI代理的场景优化,可有效提升多实例集群的运行可靠性,同时大幅降低权限逃逸等安全风险,目前已经获得多家全球企业AI基础设施团队的测试邀约,为大规模开源AI落地企业场景提供了全新的安全解决方案。

21 天前
中国科技公司小米近日面向开发者社区开放了MiMo-V2.5系列大模型,该模型采用MIT宽松开源许可协议发布,主打长周期运行AI智能体开发场景,配备100万token的上下文窗口,采用稀疏混合专家(MoE)架构设计,主要服务开发自主编码、工作流智能体的开发者群体,填补了开源领域长运行智能体基座模型的细分空白,引发全球AI开发社区广泛讨论。

22 天前
2026年4月27日,本地生活服务平台美团宣布完成旗下人工智能助手“小团”的重大版本升级,将该AI服务入口迁移至美团App首页核心位置,实现面向全量用户正式上线。本次升级瞄准即将到来的五一假期本地消费、跨城出游需求增长,升级后的“小团”可实现从需求理解到下单支付的全链路服务,大幅缩短用户决策与消费路径。

22 天前
2026年4月24日,由开源项目演进而来的AI初创公司ComfyUI宣布完成3000万美元融资,公司估值达到5亿美元。本轮融资由Craft Ventures领投,Pace Capital、Chemistry及TruArrow跟投。作为面向专业创作者的节点式AI生成工作流平台,ComfyUI目前累计用户已突破400万,精准填补了工业级生成AI领域的高精度控制空白。

25 天前
2026年4月,国内头部本地生活服务平台美团启动自研万亿参数级AI大模型的邀请制测试,该模型全程依托国产算力集群完成训练,是国内互联网头部企业中率先实现全国产算力训练万亿级大模型的实践,目前仅对定向受邀用户开放,尚未对外开放公测,该项目体现了美团在AI领域的深度布局,也印证了国产算力生态的成熟度。