无需辅助草稿模型，多token预测将LLM推理速度提三倍

4 小时前 AI快讯 0

近日，AI领域迎来一项推理效率突破：无需依赖辅助草稿模型的多token预测技术，可将大语言模型（LLM）推理速度提升三倍，同时输出质量仅出现有限下降。该技术精准直击生产级AI系统规模化部署的核心痛点——高延迟，为AI落地提供了轻量化的效率优化方案。

当用户在智能客服界面等待回复，或是实时翻译系统卡顿延迟时，背后往往藏着大语言模型（LLM）推理效率的痛点。在生产环境中，LLM单token逐次生成的机制，让并发请求下的响应时间呈指数级增长，成为AI规模化落地的最大绊脚石。

为解决LLM推理延迟问题，行业此前普遍采用“辅助草稿模型”的投机采样方案——即先用小体量的草稿模型快速生成候选token，再由主模型验证修正。但这种方法需要额外部署草稿模型，不仅增加了算力成本和系统复杂度，还可能因模型间的适配问题影响输出一致性。对于中小规模企业或边缘设备场景而言，这种方案的落地门槛依然过高。

此次推出的多token预测技术，彻底跳出了“辅助模型依赖”的框架。与传统逐一生成单个token的机制不同，该技术让主模型能够一次预测并生成多个连续token，通过优化模型的注意力机制与token生成逻辑，在无需额外模型支撑的前提下，实现了三倍推理速度提升。更关键的是，测试数据显示，该技术带来的输出质量下降极为有限——在文本生成、常识问答等主流任务中，人类评测者几乎无法区分优化前后的内容差异，精准平衡了速度与效果。

这项技术的出现，为生产级AI系统的规模化部署提供了新的可能性。无需辅助模型的特性，大幅降低了算力投入和运维成本，让LLM能够更顺畅地应用于实时客服、边缘AI、低延迟内容生成等场景。此外，该技术还可与模型量化、知识蒸馏等现有优化方案结合，进一步放大效率增益。对于AI研发团队而言，这一突破也为后续LLM推理优化指明了方向：在不牺牲核心体验的前提下，通过底层生成逻辑革新而非额外资源投入，解决规模化落地的核心痛点。