登录体验完整功能(收藏、点赞、评论等) — 已累计有 9953 人加入

Together AI开源OSCAR系统 2位量化技术大幅降低长上下文大模型部署成本

AI基础设施服务商Together AI于近期开源全新注意力感知2位KV缓存量化系统OSCAR,该技术可将大语言模型KV缓存的内存占用降低8倍,同时推理精度接近BF16浮点精度水平,大幅降低长上下文大模型的服务部署成本,为长文本生成、多轮对话、长文档解析等大模型落地场景提供了更具性价比的基础设施解决方案。

随着大语言模型技术迭代,当前头部通用大模型的上下文窗口已经普遍突破10万token,部分专用大模型甚至支持200万以上token的超长上下文输入,可直接覆盖整本书籍解析、全量代码库调试、超长多轮对话等此前无法实现的场景。但随之而来的推理成本高企问题,已经成为长上下文能力落地的核心阻碍,其中KV缓存作为存储已计算token注意力信息的核心模块,内存开销占比最高可达推理总内存的70%,上下文长度每翻一倍,KV缓存的内存占用也会同步翻倍。

OSCAR的核心创新在于突破了传统低比特KV缓存量化的精度损失瓶颈。不同于此前通用的静态量化策略,OSCAR采用注意力感知动态量化机制,会根据每个token的注意力权重分布调整量化分配策略,对影响最终生成效果的关键token保留更高的量化精度优先级,最终在将KV缓存压缩到2位精度、实现8倍内存缩减的同时,整体推理精度几乎和BF16浮点精度的推理结果没有显著差异。

同时OSCAR的适配门槛极低,现有开源大模型无需修改核心架构,仅需接入对应的量化工具链即可快速部署,不会额外增加太多开发成本。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯