2026年6月23日,字节跳动旗下云服务品牌火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0)。该模型支持文本、音频多模态输入,可通过单条Prompt同步生成对白、音效、背景音乐全要素音频内容,角色声音连续10分钟不串戏,彻底替代传统音频制作多轨剪辑流程,大幅降低专业内容产出门槛。

有声内容创作者林默最近刚赶完一档品牌定制播客的样片,放在过去,单是15分钟内容的配音、音效对位、多轨混音就要耗掉她2天时间,这次她只用了不到1小时就完成了全部内容生产——支撑这一效率跃升的,正是火山引擎刚推出的这款音频大模型。
过去多年,音频内容生产始终是重人力、重专业的领域:一段符合上线标准的有声剧、播客、影视配音或品牌音频,需要经过台词录制、音效素材匹配、多轨对齐、混音调整等多个环节,重度依赖专业后期人员的技术能力,单人单天产出的成品内容通常不超过30分钟。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录