登录体验完整功能(收藏、点赞、评论等)

少找工具,多做创作

微软开源VibeVoice语音AI家族 GitHub已斩获27K星

2026年3月,微软正式开源前沿语音AI模型家族VibeVoice,该模型同时覆盖自动语音识别(ASR)与文本转语音(TTS)两大场景,可单次处理最长90分钟的多说话人对话,具备实时低延迟特性。项目上线GitHub后迅速引发全球开发者关注,目前已收获27K Star,采用MIT许可协议,支持本地免费部署,旨在推动语音AI领域的协作开放创新。

从3月30日项目公开到截稿,不到48小时内VibeVoice的GitHub星标就突破了27K,这个涨星速度在近期全球开源AI项目中名列前茅,远超不少业内观察人士的预期。不少开发者在项目评论区留言表示,长音频多说话人处理正是自己寻找已久的开源能力,正好匹配现有项目的开发需求。

VibeVoice是一套整合了ASR与TTS能力的完整语音AI模型家族,共包含三个核心成员,针对性解决了传统语音AI的三大长期痛点:长序列处理信息丢失、多说话人识别/生成音色混乱、实时交互延迟过高。

该家族最高支持单次处理90分钟的多说话人对话,其中面向语音转文本的VibeVoice-ASR-7B模型,可一次性处理长达60分钟的音频文件,直接输出结构化转录结果,不需要开发者对长音频做分段切割再拼接,大幅降低了长会议、深度访谈、播客等内容的转写成本。面向语音合成的模块则可实现多说话人对话生成,在长时间生成过程中保持不同说话人的音色一致性,同时推理延迟远低于同类开源模型,可满足实时交互场景的需求。

不同于多数闭源语音API需要按调用量付费,也有不少开源语音模型采用限制商用的许可协议,VibeVoice从推出之初就选择了行业最宽松的MIT开源许可协议,允许开发者自由修改、分发甚至商用,不需要支付任何授权费用。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创