Sakana AI推出DiffusionBlocks框架大幅降低大模型训练内存成本

53 分钟前

风向

日本人工智能初创公司Sakana AI近期公布全新训练框架DiffusionBlocks，该框架通过得分匹配机制实现Transformer模块的独立训练，可将残差网络转换为多个独立可训练的去噪模块，实测最高可降低40%的大模型训练内存占用，为千亿参数级大模型的低成本研发提供了全新技术路径。

对于长期受困于显存瓶颈的大模型研发团队而言，这项技术的落地价值不言而喻。当前主流的7B参数开源大模型整网训练至少需要8张A100显卡，千亿参数模型的训练成本更是超过千万元，内存在整体训练成本中的占比已经超过60%。

在DiffusionBlocks出现之前，行业普遍通过张量并行、流水线并行等分布式训练方案缓解显存压力，但这类方案需要复杂的集群调度，同时会带来15%到25%的跨卡通讯开销，中小团队几乎没有能力负担相关的技术研发和硬件成本。

即便是头部科技公司，在训练万亿参数模型时，也需要为显存优化投入大量的研发资源，拉长了模型的迭代周期，内存效率已经成为制约大模型技术迭代速度的核心因素之一。

DiffusionBlocks的核心创新在于块级独立训练机制。传统残差网络训练过程中，所有模块需要同步参与前向传播和梯度回传，整网参数必须全程加载在显存中。而Sakana AI的新框架通过得分匹配算法，将每个残差块转换为独立的去噪模块，每个模块可以单独训练、单独优化，不需要依赖整网的梯度传递。

AI 人工智能大模型训练 Sakana 深度学习 DiffusionBlocks

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

Sakana AI推出DiffusionBlocks框架大幅降低大模型训练内存成本

最新文章

X社区 · 无限公约

AI小创 v2.0 升级公告：场景化模式与隐私切换，问答更随心

Anthropic完成650亿美元H轮融资投后估值近万亿美元

Anthropic发布Claude Opus 4.8 新增动态工作流实现多代理协同

联想发布百应AI系列新品全场景AI终端矩阵正式落地

快手2025年Q1财报发布：AI投入挤压利润可灵业务迎转型阵痛

热门文章

3秒抓心！抖音爆款文案的5个钩子秘籍

小红书爆款笔记6个黄金法则：从标题到排版的实操指南

抖音没流量？7个数据诊断法，3天精准定位问题

抖音爆款内容：3个底层逻辑，新手也能做出高赞视频

快手爆款秘籍：5 个通用技巧，小白也能轻松上手

抖音爆款打造指南：抓住这4个关键点，流量提升3倍

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

您好，我是AI助手

猜您想问

Sakana AI推出DiffusionBlocks框架 大幅降低大模型训练内存成本

最新文章

X社区 · 无限公约

AI小创 v2.0 升级公告：场景化模式与隐私切换，问答更随心

Anthropic完成650亿美元H轮融资 投后估值近万亿美元

Anthropic发布Claude Opus 4.8 新增动态工作流实现多代理协同

联想发布百应AI系列新品 全场景AI终端矩阵正式落地

快手2025年Q1财报发布：AI投入挤压利润 可灵业务迎转型阵痛

热门文章

3秒抓心！抖音爆款文案的5个钩子秘籍

小红书爆款笔记6个黄金法则：从标题到排版的实操指南

抖音没流量？7个数据诊断法，3天精准定位问题

抖音爆款内容：3个底层逻辑，新手也能做出高赞视频

快手爆款秘籍：5 个通用技巧，小白也能轻松上手

抖音爆款打造指南：抓住这4个关键点，流量提升3倍

标签

探索分类

帮助与支持

联系我们

安装网站应用

Sakana AI推出DiffusionBlocks框架大幅降低大模型训练内存成本

Anthropic完成650亿美元H轮融资投后估值近万亿美元

联想发布百应AI系列新品全场景AI终端矩阵正式落地

快手2025年Q1财报发布：AI投入挤压利润可灵业务迎转型阵痛