登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

Soul AI Lab开源14亿参数亚秒级实时数字人模型SoulXFlashTalk

2026年4月24日,社交平台Soul旗下AI研发机构Soul AI Lab宣布开源业内首个14亿参数实时数字人生成模型SoulXFlashTalk。该模型可实现亚秒级交互延迟、每秒32帧高帧率输出,本次开放包含项目页面、技术报告、源代码与模型权重全套资源。此前Soul已开源语音合成模型SoulXPodcast,此举进一步完善了其“语音+视觉”双模态开源布局,将有效降低行业研发门槛。

当下实时数字人已经广泛落地在虚拟陪伴、直播带货、在线客服等多个To C和To B场景,行业对交互体验的要求正在持续提升。流畅的实时交互要求模型同时满足低延迟和高帧率两个核心条件,此前多数高性能实时数字人技术掌握在少数大厂手中,以闭源形式对外提供服务,中小团队很难获取可商用的高性能开源方案,行业创新门槛始终居高不下。

本次SoulXFlashTalk的最大亮点,就是在14亿参数的规模下实现了亚秒级延迟与32fps高帧率的兼顾,这也是业内首个达到该参数规模的开源实时数字人生成模型。不同于很多仅开放部分资源的开源项目,Soul AI Lab这次一次性开放了全套开发资源,从项目说明、技术报告到可运行的源代码、完整模型权重全部对外开放,开发者可直接基于模型进行二次开发。

早在2025年10月,Soul就已经开源了语音合成模型SoulXPodcast,本次数字人模型的开源,正式补全了“语音+视觉”双模态开源矩阵,让开发者可以一站式获取从语音生成到视觉驱动的全套开源解决方案。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创