我可以帮您推荐合适的AI工具,有什么需要帮忙的吗?
近日,AIGC领域头部企业Stability AI正式推出新一代音频生成模型系列Stable Audio 3。该系列基于快速潜扩散技术架构,采用开源权重开放模式,最高可支持生成时长6分20秒的高保真立体声内容,在生成速度、音频质量、编辑自由度三个维度均实现较前代的大幅提升,为内容创作、影视配音等场景提供了高性价比的技术方案。
这次发布是Stability AI在音频赛道的第三次重要迭代,距离上一代Stable Audio 2发布仅过去8个月,而技术参数的提升幅度远超行业预期。
近年来,短视频、播客、独立游戏等内容赛道的高速增长,带动定制化音频需求年增速超过70%。但此前行业内的音频生成工具始终存在明显短板:闭源商用工具生成上限多在3分钟以内,且API调用成本居高不下;开源模型则普遍存在音质差、生成速度慢、不支持编辑功能的问题,难以满足专业创作者的实际需求。
Stable Audio 3的核心突破来自对快速潜扩散模型架构的深度优化。官方公布的参数显示,该系列模型最高可生成44.1kHz采样率、6分20秒时长的立体声内容,覆盖背景音乐、自然音效、人声配音等几乎所有常见音频创作场景。
和前代产品相比,Stable Audio 3的生成速度提升了32%,同时新增了局部音频编辑功能,创作者仅需输入文本指令即可修改指定时间段的音频风格、内容,无需重新生成整段音频,大幅降低了创作的时间成本。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录