马斯克点赞Kimi注意力残差研究长文本大模型架构迎新突破

夜下繁华 18 天前

AI快讯

2026年3月，大模型初创企业Kimi（月之暗面）发布技术论文提出全新「注意力残差」方法，优化大模型深度聚合机制，突破传统长序列处理瓶颈。特斯拉CEO埃隆·马斯克在社交媒体公开点赞该研究为「亮眼工作」，双方趣味互动引发全球AI技术社区热议，该技术被视为长文本大模型架构的重要创新。

美国时间3月16日晚，马斯克在个人X平台账号转发了Kimi团队公开的预印本论文链接，仅配文“Impressive work from Kimi”，不到12小时就获得了超过23万次点赞、4万次转发，其中不乏OpenAI、DeepMind等机构的研究人员留言讨论。

近两年大模型的商业化落地进程中，长文本处理能力已经成为To B、To C场景的核心需求之一：从企业处理上百页的合同、财报，到研发人员通读整个代码库、科研人员梳理领域文献，都需要大模型能够精准捕捉超长上下文中的细节信息。

此前行业普遍的优化方向是扩大上下文窗口容量，但受限于Transformer底层的残差连接架构，窗口越大，长序列前端的信息在多层传递中损耗越严重，实际有效信息留存率往往不足30%，反而拉高了推理成本。作为国内最早布局长文本大模型的厂商之一，Kimi此前推出的支持百万字上下文的产品，已经在商用场景积累了大量的用户反馈，此次技术突破正是基于其长期的场景实践沉淀。

Kimi此次发布的论文《Attention Residuals: Rethinking depth-wise aggregation》，核心是对沿用多年的固定累积残差连接模式提出了改进方案。

传统Transformer架构中，每层的注意力输出只能通过递归的方式向下传递，跨层信息需要经过多轮非线性变换，很容易出现损耗。而注意力残差方法引入了更灵活的深度方向聚合机制，允许注意力输出直接跨层做残差连接，打破了原有计算路径的限制。

大语言模型人工智能埃隆·马斯克 Kimi 注意力残差

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明