登录体验完整功能(收藏、点赞、评论等) — 已累计有 9197 人加入

让AI触手可及,让应用激发潜能

美团开源LongCat-AudioDiT 首创波形建模刷新音色克隆SOTA

2026年4月2日,美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT,提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构,摒弃传统TTS系统的梅尔频谱中间表征,搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率,大幅降低信息损耗与误差累积,成功刷新零样本音色克隆性能SOTA。

最近两年,音频生成技术正处于从级联架构向端到端架构切换的关键节点,传统TTS系统沿用多年的“预测声学特征+神经声码器”多阶段流程,已经成为制约音色还原度、生成效率的核心瓶颈。

传统TTS系统普遍依赖梅尔频谱作为中间表征,先把文本转化为梅尔频谱,再通过声码器转为最终音频,两个步骤的误差会层层累积。尤其是在零样本音色克隆场景下,传统方案往往会出现音色走形、咬字模糊、情感缺失等问题,即便多次调优也很难突破性能天花板,无法满足虚拟人、智能客服等场景对音色还原度的高要求。

LongCat-AudioDiT的核心革新在于完全摒弃了梅尔频谱中间表征,采用由Wav-VAE(波形变分自编码器)与DiT(扩散Transformer)组成的极简端到端架构,直接在波形潜空间完成建模,相当于直接重构了音频生成的底层逻辑。

其中搭载的高效Wav-VAE采用全卷积设计,可将24kHz的原始音频波形压缩2000倍至11.7Hz帧率,同时通过非参数捷径分支与多目标对抗训练,保证重建后的波形既保留精准的时频结构,又拥有接近真人的自然听感。根据公开测试数据,该模型在零样本音色相似度、自然度两项核心指标上均超过现有同类模型,拿下当前行业最优成绩。目前该模型开放的1B、3.5B两个参数版本,可分别适配端侧轻量化部署、云端高精度生成等不同场景需求。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯