2026年3月,微软正式开源前沿语音AI模型家族VibeVoice,该模型同时覆盖自动语音识别(ASR)与文本转语音(TTS)两大场景,可单次处理最长90分钟的多说话人对话,具备实时低延迟特性。项目上线GitHub后迅速引发全球开发者关注,目前已收获27K Star,采用MIT许可协议,支持本地免费部署,旨在推动语音AI领域的协作开放创新。
从3月30日项目公开到截稿,不到48小时内VibeVoice的GitHub星标就突破了27K,这个涨星速度在近期全球开源AI项目中名列前茅,远超不少业内观察人士的预期。不少开发者在项目评论区留言表示,长音频多说话人处理正是自己寻找已久的开源能力,正好匹配现有项目的开发需求。
VibeVoice是一套整合了ASR与TTS能力的完整语音AI模型家族,共包含三个核心成员,针对性解决了传统语音AI的三大长期痛点:长序列处理信息丢失、多说话人识别/生成音色混乱、实时交互延迟过高。
该家族最高支持单次处理90分钟的多说话人对话,其中面向语音转文本的VibeVoice-ASR-7B模型,可一次性处理长达60分钟的音频文件,直接输出结构化转录结果,不需要开发者对长音频做分段切割再拼接,大幅降低了长会议、深度访谈、播客等内容的转写成本。面向语音合成的模块则可实现多说话人对话生成,在长时间生成过程中保持不同说话人的音色一致性,同时推理延迟远低于同类开源模型,可满足实时交互场景的需求。
不同于多数闭源语音API需要按调用量付费,也有不少开源语音模型采用限制商用的许可协议,VibeVoice从推出之初就选择了行业最宽松的MIT开源许可协议,允许开发者自由修改、分发甚至商用,不需要支付任何授权费用。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
7 分钟前
2026年5月21日谷歌正式宣布推出AI原生编程开发工具AI Studio的Android版本,目前该产品已在Google Play应用商店开启全区域预注册通道。这款面向零基础新手和资深开发者的智能开发工具,依托大模型驱动的智能提示能力大幅简化应用搭建流程,打破传统PC端开发的场景限制,有望进一步扩大移动端开发人群基数。

9 分钟前
2026年5月21日,由资深科技记者Eileen Guo牵头披露的公开信息显示,美国独立科技研究联盟正式就在线安全领域的不合理科研管制政策起诉特朗普政府,指控其滥用移民签证工具限制海外背景AI科研人员的研究自由,该案涉及近300名从事大模型风险研究的从业者权益,目前已进入联邦法院初审环节。

27 分钟前
2026年5月谷歌在年度I/O开发者大会上宣布对运营25年的核心搜索业务进行历史性重构,将高性能大模型Gemini 3.5 Flash全量植入搜索底层,推出全新的对话式原生广告体系,打破传统搜索结果与付费推广的物理边界,把商业信息从被动展示升级为可交互主动服务,有望重塑全球搜索广告市场的运行规则。

31 分钟前
近日国内头部大模型厂商DeepSeek(深度求索)正式官宣切入代码智能体赛道,由资深研究员陈德里牵头组建“Harness”团队,打造对标Anthropic旗下Claude Code的桌面端编程产品,加码布局大模型商业化落地核心场景。公开数据显示2025年全球AI编程工具市场规模达295.7亿美元,国内对应赛道规模已突破2000亿元,头部玩家入局正在加速重构行业竞争格局。

35 分钟前
2026年5月20日阿里云峰会上,阿里云正式宣布旗下大模型服务平台百炼完成核心版本升级,从仅承载自研千问系列模型的展示平台,转型为全栈开放的AI模型超级市场,首批接入智谱GLM-5.1、爱诗科技Pixverse-v6等十余款国内第一梯队AI生成模型,覆盖文本、多模态全品类需求,大幅降低企业用户模型选型集成成本。

37 分钟前
2026年5月20日,OpenAI自研的新一代推理模型完成数学界公认的重磅突破,成功反驳匈牙利传奇数学家保罗·Erdős于1946年提出的单位距离猜想,解决了离散几何领域悬而未决近80年的核心开放问题。该成果经顶尖数学家联合验证获得学界广泛认可,标志着AI在原创科研领域跨过重要拐点。

39 分钟前
2026年5月21日,腾讯公关总监张军官宣旗下操作系统级AI助手“马维斯”正式上线,产品适配Windows、Mac、Android三大主流终端,内置6个分工明确的协同Agent组成AI调度矩阵,打通终端底层系统、本地文件、第三方应用与云端算力资源,可一站式完成文件处理、系统运维等多类复杂任务,大幅降低用户的多设备智能操作门槛。

1 小时前
2026年5月21日,AI企业智象未来在北京首届开放日上正式推出基于Unified Transformer架构打造的HiDream-O1-Image-Pro图像大模型,该模型参数量超2000亿,在多类权威基准测试中刷新SOTA纪录。同日智象未来宣布完成半个月内第二轮融资,获深创投、金浦投资等头部机构加持,原生全模态技术路线再获资本与行业双重认可。