登录体验完整功能(收藏、点赞、评论等) — 已累计有 9862 人加入

StepFun推出StepAudio 2.5 Realtime 新一代端到端实时语音大模型

AI大模型厂商StepFun于近期正式推出端到端实时语音大模型StepAudio 2.5 Realtime,该产品搭载角色扮演场景专属RLHF(人类反馈强化学习)机制,具备业界领先的副语言感知理解能力,可实现120毫秒以内的超低延迟语音交互响应,预计将在虚拟陪伴、AI客服、有声内容创作等多个场景实现规模化落地。

不少有过AI语音角色扮演体验的用户都有过类似困扰:等待AI回复的延迟动辄超过半秒、预设的温柔人设突然说出生硬的官方话术、自己开玩笑的语气被AI当成认真提问,这些长期存在的行业痛点,正在被新一代语音大模型针对性解决。

随着虚拟陪伴、AI互动内容等赛道快速增长,语音交互已经成为大模型落地的核心场景之一。据第三方研究机构数据显示,2025年全球AI实时交互场景市场规模突破270亿美元,仅国内角色扮演类AI应用的月活用户就超过8000万。

但此前市面上的主流语音大模型大多存在三个核心痛点:一是端到端延迟普遍在300毫秒以上,交互割裂感强;二是人设一致性差,长时间对话容易出现风格偏离;三是仅能识别语音对应的文字内容,无法感知用户的语气、情绪等副语言信息,交互真实感不足。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯