2026年4月3日,阿里通义实验室正式发布视频创作大模型Wan2.7-Video,该模型支持文本、图像、视频、音频全模态输入,可实现从画面结构、局部细节到时序剧情的多维度编辑,用户仅需输入自然语言指令即可完成捏脸、换角色、改剧情等操作,同时自动保持光影材质一致性,大幅降低专业视频创作门槛。
很多内容创作者都有过“废片拯救”的痛点:精心拍摄的vlog出现表情崩坏的画面、剧情走向不符合预期、想要更换片中角色却要付出数小时的剪辑成本,甚至只能重拍。这类需求如今有了更高效的解决方案。
此前市面上的视频大模型大多聚焦文生视频、图生视频的生成能力,针对已有视频的编辑功能普遍存在精度不足、时序混乱、穿帮频发等问题:局部修改后光影材质与原片脱节,调整剧情后前后片段逻辑无法自洽,复杂的操作门槛也让普通用户望而却步。随着短视频、内容创作行业的规模持续扩大,市场对低门槛、高精度的视频编辑工具的需求正在快速攀升。
本次发布的Wan2.7-Video核心能力恰好瞄准了上述痛点,其支持全模态输入,用户可搭配文字、图片、音视频等多种素材给出编辑指令。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录