微软开源VibeVoice语音AI家族 GitHub已斩获27K星

AI创作导航 1 个月前

风向

126

2026年3月，微软正式开源前沿语音AI模型家族VibeVoice，该模型同时覆盖自动语音识别（ASR）与文本转语音（TTS）两大场景，可单次处理最长90分钟的多说话人对话，具备实时低延迟特性。项目上线GitHub后迅速引发全球开发者关注，目前已收获27K Star，采用MIT许可协议，支持本地免费部署，旨在推动语音AI领域的协作开放创新。

从3月30日项目公开到截稿，不到48小时内VibeVoice的GitHub星标就突破了27K，这个涨星速度在近期全球开源AI项目中名列前茅，远超不少业内观察人士的预期。不少开发者在项目评论区留言表示，长音频多说话人处理正是自己寻找已久的开源能力，正好匹配现有项目的开发需求。

VibeVoice是一套整合了ASR与TTS能力的完整语音AI模型家族，共包含三个核心成员，针对性解决了传统语音AI的三大长期痛点：长序列处理信息丢失、多说话人识别/生成音色混乱、实时交互延迟过高。

该家族最高支持单次处理90分钟的多说话人对话，其中面向语音转文本的VibeVoice-ASR-7B模型，可一次性处理长达60分钟的音频文件，直接输出结构化转录结果，不需要开发者对长音频做分段切割再拼接，大幅降低了长会议、深度访谈、播客等内容的转写成本。面向语音合成的模块则可实现多说话人对话生成，在长时间生成过程中保持不同说话人的音色一致性，同时推理延迟远低于同类开源模型，可满足实时交互场景的需求。

不同于多数闭源语音API需要按调用量付费，也有不少开源语音模型采用限制商用的许可协议，VibeVoice从推出之初就选择了行业最宽松的MIT开源许可协议，允许开发者自由修改、分发甚至商用，不需要支付任何授权费用。

开源模型人工智能语音AI VibeVoice

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

Sulphur 2 AI

开源AI视频生成器

ThinkDiffusion

云端开源AI艺术生成平台

Wan2.2

开源电影级AI视频生成工具

Magi

AI自回归视频生成大模型

LTX-2

开源4K同步音视频AI生成模型

Flux 1 AI

开源在线AI图像生成工具

AI Horde

社区驱动的免费AI图文生成服务

DreamOmni2

多模态AI图像生成编辑