近日,AI领域迎来一项推理效率突破:无需依赖辅助草稿模型的多token预测技术,可将大语言模型(LLM)推理速度提升三倍,同时输出质量仅出现有限下降。该技术精准直击生产级AI系统规模化部署的核心痛点——高延迟,为AI落地提供了轻量化的效率优化方案。
当用户在智能客服界面等待回复,或是实时翻译系统卡顿延迟时,背后往往藏着大语言模型(LLM)推理效率的痛点。在生产环境中,LLM单token逐次生成的机制,让并发请求下的响应时间呈指数级增长,成为AI规模化落地的最大绊脚石。
为解决LLM推理延迟问题,行业此前普遍采用“辅助草稿模型”的投机采样方案——即先用小体量的草稿模型快速生成候选token,再由主模型验证修正。但这种方法需要额外部署草稿模型,不仅增加了算力成本和系统复杂度,还可能因模型间的适配问题影响输出一致性。对于中小规模企业或边缘设备场景而言,这种方案的落地门槛依然过高。
此次推出的多token预测技术,彻底跳出了“辅助模型依赖”的框架。与传统逐一生成单个token的机制不同,该技术让主模型能够一次预测并生成多个连续token,通过优化模型的注意力机制与token生成逻辑,在无需额外模型支撑的前提下,实现了三倍推理速度提升。更关键的是,测试数据显示,该技术带来的输出质量下降极为有限——在文本生成、常识问答等主流任务中,人类评测者几乎无法区分优化前后的内容差异,精准平衡了速度与效果。
这项技术的出现,为生产级AI系统的规模化部署提供了新的可能性。无需辅助模型的特性,大幅降低了算力投入和运维成本,让LLM能够更顺畅地应用于实时客服、边缘AI、低延迟内容生成等场景。此外,该技术还可与模型量化、知识蒸馏等现有优化方案结合,进一步放大效率增益。对于AI研发团队而言,这一突破也为后续LLM推理优化指明了方向:在不牺牲核心体验的前提下,通过底层生成逻辑革新而非额外资源投入,解决规模化落地的核心痛点。

2 小时前
专注金刚石冷却技术的Akash Systems已正式交付搭载英伟达H200、AMD MI350X的金刚石散热AI服务器,标志着这项高端散热技术首次大规模进入数据中心领域。该公司称其H200服务器为同类产品中最节能的方案,合作伙伴神雲则测算,每台金刚石散热服务器在四年运营周期内至多可额外创造100万美元的商业价值。

14 小时前
2026年3月初,国内多家电商平台的Mac Mini现货库存相继告急,官方渠道的提货等待时间一度拉长至45天,部分第三方渠道甚至出现了溢价两成的现货交易。与2023年那次因M2芯片升级引发的抢购不同,此次Mac Mini的走红,并非源于专业创作者对高性能桌面主机的需求,而是AI工具普及下,普通用户对低成本本地AI算力终端的爆发式追捧。

15 小时前
据智东西3月4日消息,苹果2026年春季新品发布会第二弹正式揭晓,推出搭载M5 Pro、M5 Max芯片的全新MacBook Pro与MacBook Air,同步亮相Studio Display显示器,其中顶配机型售价达6.5万元,官方宣称其AI性能较前代暴涨4倍。这是苹果继此前推出起售价3999元的A19芯片iPhone之后,在消费电子AI化赛道的又一重磅布局。

15 小时前
智东西3月4日消息,2月27日,广州专注出海营销的AI Agent企业钛动科技向港交所递交IPO申请,正式冲刺“出海营销Agent第一股”。根据公开信息,该公司此前一年净利润超3亿元,按2024年收入计算,其在中国本土出海AI营销科技提供商中排名第一,市场份额达8.5%,毛利率超80%,俞永福为其股东之一。

16 小时前
Meta近日旗下AI聊天机器人Meta AI启动购物研究功能测试,目前仅面向美国地区网页版用户开放。该功能可基于用户地理位置与历史偏好生成个性化产品推荐,以轮播图展示商品并附带品牌、价格及推荐理由,暂不支持直接结账,仅可跳转至商家链接完成后续下单。扎克伯格曾提及,该工具将帮助用户精准找到所需产品,此举意在对标OpenAI ChatGPT与谷歌Gemini的同类AI购物工具。

16 小时前
3月3日,谷歌官方发布Gemini 3系列最新轻量AI模型Gemini 3.1 Flash-Lite,该模型被官方称为系列中速度最快、最具成本效益的产品,首字响应速度较前代提升2.5倍。目前开发者可通过Google AI Studio的Gemini API获取预览版,企业级用户则可在Vertex AI平台同步体验。

16 小时前
2026年3月,钉钉正式发布8.2.15版本更新,核心聚焦提升办公工具易用性。本次更新包含业内首创的AI表格「透视表视图」,同时将AI表格Agent接入钉钉群,已落地销售信息汇总、工厂巡检、SOP流程校验等高频业务场景,还上线AI听记思维导图功能,旨在降低复杂数据分析与信息整理门槛,助力企业与个体释放生产力。

16 小时前
Math公司研发的Gauss AI Agent仅用5天,完成了菲尔兹奖得主Maryna Viazovska 2022年获奖的8维、24维最优球体堆积定理的形式化验证,生成20万行Lean代码,成为史上最大规模单一目的Lean形式化项目,还自主纠正了原论文的一处错误,被学界称为自动形式化领域的ImageNet时刻。