登录体验完整功能(收藏、点赞、评论等) — 已累计有 9602 人加入

美团LongCat数字人模型开源 核心性能全面超越主流闭源产品

2026年5月22日,美团旗下龙猫大模型团队正式宣布开源商用级数字人视频生成模型LongCat-Video-Avatar1.5。该版本在唇形同步、长视频稳定性、多人互动等五大核心维度实现技术跃升,综合表现全面超越当前主流闭源同类模型,直击传统数字人抖动、高延迟等痛点,大幅降低行业商用落地门槛。

很多接触过数字人落地的从业者都有过类似的经历:好不容易训练好的虚拟主播,正式直播前要反复彩排调整参数,稍微遇到不在预设脚本里的互动内容,就很容易出现唇形错位、画面畸变的翻车情况。这次美团推出的开源新模型,直接把“彩排调试”的环节彻底砍掉,主打真实场景下的即开即用。

过去三年全球数字人行业的技术迭代速度极快,但绝大多数开源方案的能力上限都停留在实验室SOTA阶段,闭源商用方案又普遍调用成本高、定制化自由度极低。

不管是本地生活商家的虚拟直播、文旅场景的数字导览,还是泛知识领域的虚拟讲师,都对数字人的实时性、稳定性提出了极高要求,此前的行业方案普遍需要投入数周的适配调试成本才能勉强上线,规模化普及始终难以推进。

为了彻底解决传统数字人的各类顽疾,美团龙猫大模型团队对LongCat-Video-Avatar1.5做了针对性的底层重构,其中最核心的升级是将音频特征提取编码器从传统的Wav2Vec2替换为Whisper-large。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯