我可以帮您推荐合适的AI工具,有什么需要帮忙的吗?
日本人工智能初创公司Sakana AI近期公布全新训练框架DiffusionBlocks,该框架通过得分匹配机制实现Transformer模块的独立训练,可将残差网络转换为多个独立可训练的去噪模块,实测最高可降低40%的大模型训练内存占用,为千亿参数级大模型的低成本研发提供了全新技术路径。
对于长期受困于显存瓶颈的大模型研发团队而言,这项技术的落地价值不言而喻。当前主流的7B参数开源大模型整网训练至少需要8张A100显卡,千亿参数模型的训练成本更是超过千万元,内存在整体训练成本中的占比已经超过60%。
在DiffusionBlocks出现之前,行业普遍通过张量并行、流水线并行等分布式训练方案缓解显存压力,但这类方案需要复杂的集群调度,同时会带来15%到25%的跨卡通讯开销,中小团队几乎没有能力负担相关的技术研发和硬件成本。
即便是头部科技公司,在训练万亿参数模型时,也需要为显存优化投入大量的研发资源,拉长了模型的迭代周期,内存效率已经成为制约大模型技术迭代速度的核心因素之一。
DiffusionBlocks的核心创新在于块级独立训练机制。传统残差网络训练过程中,所有模块需要同步参与前向传播和梯度回传,整网参数必须全程加载在显存中。而Sakana AI的新框架通过得分匹配算法,将每个残差块转换为独立的去噪模块,每个模块可以单独训练、单独优化,不需要依赖整网的梯度传递。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录