登录体验完整功能(收藏、点赞、评论等)

少找工具,多做创作

马斯克点赞Kimi注意力残差研究 长文本大模型架构迎新突破

2026年3月,大模型初创企业Kimi(月之暗面)发布技术论文提出全新「注意力残差」方法,优化大模型深度聚合机制,突破传统长序列处理瓶颈。特斯拉CEO埃隆·马斯克在社交媒体公开点赞该研究为「亮眼工作」,双方趣味互动引发全球AI技术社区热议,该技术被视为长文本大模型架构的重要创新。

美国时间3月16日晚,马斯克在个人X平台账号转发了Kimi团队公开的预印本论文链接,仅配文“Impressive work from Kimi”,不到12小时就获得了超过23万次点赞、4万次转发,其中不乏OpenAI、DeepMind等机构的研究人员留言讨论。

近两年大模型的商业化落地进程中,长文本处理能力已经成为To B、To C场景的核心需求之一:从企业处理上百页的合同、财报,到研发人员通读整个代码库、科研人员梳理领域文献,都需要大模型能够精准捕捉超长上下文中的细节信息。

此前行业普遍的优化方向是扩大上下文窗口容量,但受限于Transformer底层的残差连接架构,窗口越大,长序列前端的信息在多层传递中损耗越严重,实际有效信息留存率往往不足30%,反而拉高了推理成本。作为国内最早布局长文本大模型的厂商之一,Kimi此前推出的支持百万字上下文的产品,已经在商用场景积累了大量的用户反馈,此次技术突破正是基于其长期的场景实践沉淀。

Kimi此次发布的论文《Attention Residuals: Rethinking depth-wise aggregation》,核心是对沿用多年的固定累积残差连接模式提出了改进方案。

传统Transformer架构中,每层的注意力输出只能通过递归的方式向下传递,跨层信息需要经过多轮非线性变换,很容易出现损耗。而注意力残差方法引入了更灵活的深度方向聚合机制,允许注意力输出直接跨层做残差连接,打破了原有计算路径的限制。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创