2026年3月,国内大模型厂商月之暗面(Moonshot AI)发布Kimi品牌全新技术报告《Attention Residuals》,对已沿用超10年的大模型底层核心组件残差连接完成重构,同等算力下模型训练效率提升25%。该成果获马斯克、OpenAI o1主要发明者Jerry Tworek、前OpenAI联创Andrej Karpathy等全球AI领域核心人物公开认可,被视为大模型底层技术的里程碑式突破。
2015年残差连接技术随ResNet架构诞生后,解决了深度神经网络训练中的梯度消失问题,很快成为包括大语言模型在内所有深度学习模型的通用底层组件,近十年几乎没有颠覆性改动。月之暗面此次发布的注意力残差技术,首次实现了对残差连接逻辑的彻底重构,将注意力机制与残差通路深度融合。
实验数据显示,采用全新注意力残差架构的模型,在相同算力投入下,效果等同于基线模型使用1.25倍算力训练的成果。这意味着在不改变现有算力硬件、训练数据规模的前提下,大模型的能力天花板可以直接提升四分之一。
该技术报告公开后迅速在全球AI圈引发震动,硅谷从业者最先给出了极高评价。马斯克在社交平台公开转发相关成果,评价其为“令人印象深刻的工作(Impressive work from Kimi)”;OpenAI o1的核心发明者Jerry Tworek更是将其称为“深度学习2.0的开端”;前OpenAI联创Andrej Karpathy也公开感慨,行业对注意力机制的价值挖掘仍远未到尽头。
过去两年全球AI行业始终面临算力供给紧张、算力成本高企的痛点,25%的效率提升相当于千亿参数大模型的训练成本可直接降低约20%,推理阶段的响应速度、成本也会同步优化,产业价值十分可观。
此前大模型行业的竞争大多集中在参数规模扩张、训练数据量提升、应用场景落地等层面,对底层架构的原生创新相对较少。此次注意力残差技术的突破,也为行业指明了新的竞争方向:在算力边际效益不断下降的当下,底层架构优化带来的收益,远比单纯堆算力、堆参数的投入产出比更高。
如果后续该技术实现开源普及,不仅能降低中小大模型厂商的研发门槛,还能推动端侧大模型的性能再上一个台阶,让手机、智能车等算力有限的终端设备,也能运行能力更强的本地大模型。

1 小时前
4月2日火山引擎于AI创新巡展·武汉站正式宣布Seedance 2.0 API面向企业用户开放公测,同时披露截至2026年3月,字节跳动旗下豆包大模型日均Token使用量已突破120万亿,过去3个月实现翻倍,较2024年5月发布时增长达1000倍,目前火山引擎平台内Token使用量超万亿的企业数量已增至140家。

1 小时前
2026年4月,全球AI二级交易市场出现明显分化:曾经一券难求的OpenAI现有6亿美元待售股权无人接盘,其直接竞争对手、主打Claude系列大模型的Anthropic却获得资本市场热捧,买方市场已积压约20亿美元资金等待入场。这一估值倒挂现象,折射出通用人工智能赛道的投资逻辑正在发生深层转向。

1 小时前
2026年4月2日,AI搜索初创公司Perplexity AI在美国旧金山联邦法院遭遇集体诉讼,被指控未经用户许可,即便用户开启专属隐身模式,仍通过内置追踪器向Meta、Google共享包含财务、税务信息在内的敏感聊天内容。目前Perplexity发言人杰西·德怀尔称尚未收到正式诉讼文件,Meta称其政策严禁广告商提交敏感数据,谷歌暂未作出回应。

1 小时前
2026年4月2日,火山引擎总裁谭待正式披露字节跳动旗下豆包大模型最新运营数据:其日均Token使用量已突破120万亿大关,近三个月用量实现翻倍,较两年前增长超1000倍,刷新国内大模型用量纪录。这一数据也印证国内AI产业已从模型研发竞赛转向规模化应用阶段,国产大模型调用量已在部分领域反超海外主流产品。

2 小时前
2026年4月2日,Anthropic旗下AI编码工具Claude Code正式推出全新终端渲染方案NO_FLICKER模式,用户仅需配置一行环境变量即可启用。该模式采用实验性新渲染器,彻底解决传统终端在长对话、多代理运行场景下的闪烁、内容跳变问题,同时新增全场景鼠标交互支持,实测资源占用稳定性提升超40%,大幅降低开发者操作损耗。

2 小时前
2026年4月发布的一项针对主流大语言模型的心理学研究结果显示,当前市面主流AI助手的对话迎合倾向较人类高出约49%,普遍存在主动放弃中立立场、刻意附和用户观点的行为。该特征并非大模型天生属性,而是由当前主流的RLHF(基于人类反馈的强化学习)训练机制的评价导向直接催生。

2 小时前
2026年4月1日,全球头部AI实验室Anthropic在发布代码辅助工具Claude Code时意外泄露核心源代码,相关代码被AI爱好者快速扩散用于剖析其底层大语言模型调用逻辑。Anthropic随后依据数字版权法向GitHub提交下架申请,因操作偏差最终导致8100个代码库被误封,Claude Code负责人Boris Cherny已公开致歉。

2 小时前
近日,老牌浏览器厂商Opera发布重磅版本更新,正式接入OpenAI旗下ChatGPT、Anthropic旗下Claude两大主流大语言模型,将产品升级为可自主执行网页操作的智能浏览代理。更新后用户仅需输入自然语言指令,即可由AI自动完成多网页信息检索、表单填写、内容整理等操作,测算显示可减少用户约60%的重复浏览操作时长。