少找工具,多做创作

美团开源LongCat-AudioDiT 首创波形建模刷新音色克隆SOTA

2026年4月2日,美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT,提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构,摒弃传统TTS系统的梅尔频谱中间表征,搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率,大幅降低信息损耗与误差累积,成功刷新零样本音色克隆性能SOTA。

最近两年,音频生成技术正处于从级联架构向端到端架构切换的关键节点,传统TTS系统沿用多年的“预测声学特征+神经声码器”多阶段流程,已经成为制约音色还原度、生成效率的核心瓶颈。

传统TTS系统普遍依赖梅尔频谱作为中间表征,先把文本转化为梅尔频谱,再通过声码器转为最终音频,两个步骤的误差会层层累积。尤其是在零样本音色克隆场景下,传统方案往往会出现音色走形、咬字模糊、情感缺失等问题,即便多次调优也很难突破性能天花板,无法满足虚拟人、智能客服等场景对音色还原度的高要求。

LongCat-AudioDiT的核心革新在于完全摒弃了梅尔频谱中间表征,采用由Wav-VAE(波形变分自编码器)与DiT(扩散Transformer)组成的极简端到端架构,直接在波形潜空间完成建模,相当于直接重构了音频生成的底层逻辑。

其中搭载的高效Wav-VAE采用全卷积设计,可将24kHz的原始音频波形压缩2000倍至11.7Hz帧率,同时通过非参数捷径分支与多目标对抗训练,保证重建后的波形既保留精准的时频结构,又拥有接近真人的自然听感。根据公开测试数据,该模型在零样本音色相似度、自然度两项核心指标上均超过现有同类模型,拿下当前行业最优成绩。目前该模型开放的1B、3.5B两个参数版本,可分别适配端侧轻量化部署、云端高精度生成等不同场景需求。

对于美团自身的业务场景而言,更高精度的零样本音色克隆技术,可快速为骑手智能助手、商家客服、配送节点播报等场景定制专属音色,大幅降低语音交互的开发成本,也能提升C端用户的交互体验。

而开源之后,该技术也将惠及有声书制作、虚拟人语音生成、智能硬件语音助手等多个领域,降低中小团队研发高性能音频生成能力的门槛,推动整个音频生成行业的性能升级。

AI生成配图

(图像由AI生成)

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创