近日,人工智能公司Inworld正式推出文本转语音模型TTS-1.5,该模型以“自然实时语音、低延迟、多语言支持”为核心亮点,同时凭借极具竞争力的价格,引发行业关注。

核心技术与核心优势
- 超低延迟:技术上实现低于250毫秒的实时延迟,用户在对话中几乎无滞后感;其中TTS-1.5 Max版本延迟仅130ms,对比同类产品(如ElevenLabs Multilingual v2为250ms)优势显著。
- 极致低成本:使用成本约每分钟0.005美元,官方宣称比市场同类产品便宜25倍,大幅降低开发者与企业的使用门槛。
- 性能优化:除速度外,模型在语音表达力和合成稳定性上进一步优化,语音更自然、富有感染力。
- 多语言支持:具备多语言合成能力,适配更广泛的使用场景。
- 用户对“低延迟”需求强烈,认为该技术解决了文本转语音的核心痛点;
- 社交平台上,开发者与企业对TTS-1.5表现出浓厚兴趣,期待将其应用于各类项目中。
核心应用场景
TTS-1.5的低延迟与高自然度特性,使其尤其适配游戏和虚拟现实(VR) 领域的对话系统,能为用户带来更真实的交互体验。
市场反馈