2026年4月2日,美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT,提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构,摒弃传统TTS系统的梅尔频谱中间表征,搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率,大幅降低信息损耗与误差累积,成功刷新零样本音色克隆性能SOTA。
最近两年,音频生成技术正处于从级联架构向端到端架构切换的关键节点,传统TTS系统沿用多年的“预测声学特征+神经声码器”多阶段流程,已经成为制约音色还原度、生成效率的核心瓶颈。
传统TTS系统普遍依赖梅尔频谱作为中间表征,先把文本转化为梅尔频谱,再通过声码器转为最终音频,两个步骤的误差会层层累积。尤其是在零样本音色克隆场景下,传统方案往往会出现音色走形、咬字模糊、情感缺失等问题,即便多次调优也很难突破性能天花板,无法满足虚拟人、智能客服等场景对音色还原度的高要求。
LongCat-AudioDiT的核心革新在于完全摒弃了梅尔频谱中间表征,采用由Wav-VAE(波形变分自编码器)与DiT(扩散Transformer)组成的极简端到端架构,直接在波形潜空间完成建模,相当于直接重构了音频生成的底层逻辑。
其中搭载的高效Wav-VAE采用全卷积设计,可将24kHz的原始音频波形压缩2000倍至11.7Hz帧率,同时通过非参数捷径分支与多目标对抗训练,保证重建后的波形既保留精准的时频结构,又拥有接近真人的自然听感。根据公开测试数据,该模型在零样本音色相似度、自然度两项核心指标上均超过现有同类模型,拿下当前行业最优成绩。目前该模型开放的1B、3.5B两个参数版本,可分别适配端侧轻量化部署、云端高精度生成等不同场景需求。
对于美团自身的业务场景而言,更高精度的零样本音色克隆技术,可快速为骑手智能助手、商家客服、配送节点播报等场景定制专属音色,大幅降低语音交互的开发成本,也能提升C端用户的交互体验。
而开源之后,该技术也将惠及有声书制作、虚拟人语音生成、智能硬件语音助手等多个领域,降低中小团队研发高性能音频生成能力的门槛,推动整个音频生成行业的性能升级。

(图像由AI生成)

20 小时前
2026年4月1日,高德正式全量开源全球首个统一架构机器人具身操作基座模型ABot-M0,该模型旨在以“一个通用大脑适配多形态机器人”,打破异构硬件壁垒。其在Libero-Plus基准测试中任务成功率达80.5%,较此前行业标杆Pi0提升近30%,同时开源覆盖数据、算法、预训练模型三大维度,推动具身智能落地提速。

2 天前
2026年3月31日,AI接入层头部初创公司LiteLLM正式宣布全面移除平台内争议辅助工具Delve,回应开发者社区关于该工具数据隐私、模型透明度的质疑。LiteLLM创始人公开承认此前合作伙伴安全评估存在疏漏,团队将剔除全部关联代码,转向可审计的开源替代方案,该事件也暴露出AI中间层架构平衡效率与安全的行业共性难题。

5 天前
2026年3月26日,AI企业Cohere正式推出20亿参数开源语音识别模型Cohere Transcribe。该模型采用Apache 2.0协议开源,专为边缘设备设计,支持14种语言,据Hugging Face开放ASR排行榜最新数据,其性能已超越ElevenLabs Scribe、阿里Qwen3等主流竞品,有望破解边缘侧语音识别高延迟痛点。

6 天前
2026年3月26日美团财报电话会上,CEO王兴正式披露,公司自2023年起已持续三年在AI领域投入资本、招募人才,自研LongCat大模型现已全量开放,搭载该模型的AI助手“小团”已上线美团APP。美团将以进攻姿态布局AI,将其打造为本地生活服务全新入口,重构核心业务逻辑。

6 天前
2026年3月26日美团发布2025年度财报,全年营收达3649亿元同比增长8%,受即时零售行业竞争加剧影响净亏损234亿元。CEO王兴明确将AI作为核心战略,推进自研大语言模型LongCat研发,目前已上线主App AI助手“小团”及独立应用“小美”,依托线下场景数据优势重构本地生活服务入口。

6 天前
2026年3月,上海青浦公安分局通报一起AI生成内容造谣案件,网民刘某某为博取流量,刻意抹除AI生成视频的官方标识,对外发布不实内容称外卖骑手将洒落地面的面条重新装盒配送,另有两名网民跟风发布不实评论引发负面舆情。目前刘某某已被依法行政拘留,两名跟风网民被行政处罚,美团方面称将协同监管部门严厉打击此类恶意造谣内容。

6 天前
2026年3月26日,蚂蚁集团CodeFuse团队联合上海交通大学正式发布全尺寸多语种F2LLM-v2系列Embedding嵌入模型。该模型在全球权威语义表征评测MTEB中拿下11项榜单SOTA,支持282种自然语言与40余种编程语言,目前已全开源向全球开发者开放,旨在打破语义表征领域长期存在的“英语中心主义”壁垒。

8 天前
2026年3月24日,开源项目N.O.M.A.D.(Node for Offline Media, Archives, and Data)正式发布,这款被称为“末日生存工具箱”的离线服务器系统,可在Debian、Ubuntu系统运行或通过Docker快速部署,内置离线大模型、维基百科、医学资料、可汗学院课程等资源,可在断网未断电的极端场景下为用户提供完整的文明信息与技术工具支撑。