美团开源LongCat-AudioDiT 首创波形建模刷新音色克隆SOTA

AI创作导航 1 个月前

风向

113

2026年4月2日，美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT，提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构，摒弃传统TTS系统的梅尔频谱中间表征，搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率，大幅降低信息损耗与误差累积，成功刷新零样本音色克隆性能SOTA。

最近两年，音频生成技术正处于从级联架构向端到端架构切换的关键节点，传统TTS系统沿用多年的“预测声学特征+神经声码器”多阶段流程，已经成为制约音色还原度、生成效率的核心瓶颈。

传统TTS系统普遍依赖梅尔频谱作为中间表征，先把文本转化为梅尔频谱，再通过声码器转为最终音频，两个步骤的误差会层层累积。尤其是在零样本音色克隆场景下，传统方案往往会出现音色走形、咬字模糊、情感缺失等问题，即便多次调优也很难突破性能天花板，无法满足虚拟人、智能客服等场景对音色还原度的高要求。

LongCat-AudioDiT的核心革新在于完全摒弃了梅尔频谱中间表征，采用由Wav-VAE（波形变分自编码器）与DiT（扩散Transformer）组成的极简端到端架构，直接在波形潜空间完成建模，相当于直接重构了音频生成的底层逻辑。

其中搭载的高效Wav-VAE采用全卷积设计，可将24kHz的原始音频波形压缩2000倍至11.7Hz帧率，同时通过非参数捷径分支与多目标对抗训练，保证重建后的波形既保留精准的时频结构，又拥有接近真人的自然听感。根据公开测试数据，该模型在零样本音色相似度、自然度两项核心指标上均超过现有同类模型，拿下当前行业最优成绩。目前该模型开放的1B、3.5B两个参数版本，可分别适配端侧轻量化部署、云端高精度生成等不同场景需求。

音频生成开源AI 美团音色克隆 LongCat-AudioDiT

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

SeaArt AI

一站式AI多模态创作平台

MiniMax AI音乐

AI将灵感转为原创音乐

Narralize

PDF转多语言AI音频摘要工具

VideoAny

免费无审查AI视频创作工具

ReelMuse.ai

一站式AI音视频图像创作平台

Apatero Studio

AI图像音视频艺术创作工具

Rekam AI

一站式AI语音创作平台

Jotlify

AI解析学术论文转解读与音频