字节跳动商业化技术团队于2026年6月正式开源视频生成与编辑框架Bernini,核心采用「先理解、再生成」协同机制,破解传统模型复杂指令理解不足导致的画面失控、帧间闪烁等行业痛点。该框架在字节自建测试中跻身行业第一梯队,目前推理代码与第二阶段模型Bernini-R已开放权限,全版本将于近期发布。近两年全球AIGC视频赛道进入爆发期,从OpenAI推出的Sora到国内多款文生视频产品,1080P长视频的生成质量已经实现明显突破,但商用场景下的可控性问题始终没有得到根本解决。 对于广告制作、内容创作等专业场景的用户而言,调整镜头参数、替换指定画面元素、统一全片视觉风格是高频需求,传统端到端生成的模型往往需要反复调试数十次prompt,还容易出现前后帧元素漂移、风格跳脱的问题,落地效率远达不到商用要求,行业始终期待更灵活的底层框架方案。Bernini的核心创新就在于跳出了传统端到端生成的思路,采用了“先理解、再生成”的协同机制,将整个处理流程拆分为语义规划与视觉渲染两个独立模块。 系统首先调用多模态大模型规划器,深度解析用户输入的指令、素材,先输出结构化的“语义草图”,明确画面元素、镜头参数...