登录体验完整功能(收藏、点赞、评论等) — 已累计有 12521 人加入

月之暗面重构大模型残差连接 算力效率提25%获马斯克点赞

详情页推荐

2026年3月,国内大模型厂商月之暗面(Moonshot AI)发布Kimi品牌全新技术报告《Attention Residuals》,对已沿用超10年的大模型底层核心组件残差连接完成重构,同等算力下模型训练效率提升25%。该成果获马斯克、OpenAI o1主要发明者Jerry Tworek、前OpenAI联创Andrej Karpathy等全球AI领域核心人物公开认可,被视为大模型底层技术的里程碑式突破。

2015年残差连接技术随ResNet架构诞生后,解决了深度神经网络训练中的梯度消失问题,很快成为包括大语言模型在内所有深度学习模型的通用底层组件,近十年几乎没有颠覆性改动。月之暗面此次发布的注意力残差技术,首次实现了对残差连接逻辑的彻底重构,将注意力机制与残差通路深度融合。

实验数据显示,采用全新注意力残差架构的模型,在相同算力投入下,效果等同于基线模型使用1.25倍算力训练的成果。这意味着在不改变现有算力硬件、训练数据规模的前提下,大模型的能力天花板可以直接提升四分之一。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。