我可以帮您推荐合适的AI工具,有什么需要帮忙的吗?
近日AI基础设施领域推出全新推测解码算法EAGLE 3.1,该算法通过引入FC归一化、后归一化隐状态反馈两项核心优化,彻底解决了传统推测解码方案普遍存在的注意力漂移问题,已完成与主流推理框架vLLM的适配,可将通用大语言模型的推理效率提升2-3倍,大幅降低高并发场景下的推理成本。
当前大语言模型落地高并发对话、实时AI Agent等场景时,推理延迟高、算力成本高是行业普遍面临的核心痛点。推测解码作为近几年主流的推理加速方案,通过轻量化小模型提前预测后续token,再由大模型一次性校验多token序列,可以大幅减少大模型的串行计算步骤,从而提升推理效率。
但行业现有推测解码方案普遍存在注意力漂移问题——小模型预测的token序列注意力分布与大模型实际输出的注意力分布不匹配,导致预测准确率偏低,加速效果受限,部分复杂推理场景下甚至会额外增加计算开销,无法实现规模化落地。
此次推出的EAGLE 3.1针对注意力漂移问题设计了两条核心优化路径:一是引入FC归一化机制,对小模型全连接层的输出做标准化处理,统一隐状态的分布区间,避免预测过程中特征分布发生偏移;二是新增后归一化隐状态反馈机制,将大模型校验后的隐状态实时回传给前端预测小模型,动态调整后续预测逻辑,确保预测序列的注意力分布始终与大模型原生输出保持一致。
目前EAGLE 3.1已经完成与当前应用最广泛的开源推理框架vLLM的适配,不需要改动大模型原有结构,仅需添加轻量化预测头即可快速接入。实测数据显示,在7B、13B参数级的开源大模型上,接入EAGLE 3.1后的推理吞吐最高可达原生推理的3倍,同时推理准确率损失不到1%,兼顾了效率与效果。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录