2026年4月14日,AI研究团队正式推出面向实时数字人生成的LPM1.0多模态模型。该模型可基于单张参考图生成具备说话、唱歌、聆听状态的动态数字人视频,引入多粒度身份条件化技术实现跨风格零训练驱动,最长可稳定生成45分钟流式视频,还支持接入ChatGPT、豆包等主流语音AI,可将纯语音对话升级为带视觉反馈的实时交互。
当前实时交互式数字人已经成为AI落地的热门方向,但行业长期面临两大痛点:一是定制专属数字人需要大量参考素材与微调训练,中小团队与个人创作者难以负担;二是长时段生成容易出现唇形错位、表情僵硬、系统卡顿等问题。LPM1.0的推出,正是针对这些行业痛点给出了新的技术解法。
LPM1.0最核心的技术创新,是引入了多粒度身份条件化机制。不同于传统数字人模型需要自主生成牙齿、皱纹、侧面轮廓等复杂面部细节,该技术可以从单张参考图中提取多角度、多维度的身份特征,直接复用细节生成动态画面,从根源上避免了AI凭空生成带来的形象走形问题。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录