Together AI开源OSCAR系统 2位量化技术大幅降低长上下文大模型部署成本

1 小时前

风向

AI基础设施服务商Together AI于近期开源全新注意力感知2位KV缓存量化系统OSCAR，该技术可将大语言模型KV缓存的内存占用降低8倍，同时推理精度接近BF16浮点精度水平，大幅降低长上下文大模型的服务部署成本，为长文本生成、多轮对话、长文档解析等大模型落地场景提供了更具性价比的基础设施解决方案。

随着大语言模型技术迭代，当前头部通用大模型的上下文窗口已经普遍突破10万token，部分专用大模型甚至支持200万以上token的超长上下文输入，可直接覆盖整本书籍解析、全量代码库调试、超长多轮对话等此前无法实现的场景。但随之而来的推理成本高企问题，已经成为长上下文能力落地的核心阻碍，其中KV缓存作为存储已计算token注意力信息的核心模块，内存开销占比最高可达推理总内存的70%，上下文长度每翻一倍，KV缓存的内存占用也会同步翻倍。

OSCAR的核心创新在于突破了传统低比特KV缓存量化的精度损失瓶颈。不同于此前通用的静态量化策略，OSCAR采用注意力感知动态量化机制，会根据每个token的注意力权重分布调整量化分配策略，对影响最终生成效果的关键token保留更高的量化精度优先级，最终在将KV缓存压缩到2位精度、实现8倍内存缩减的同时，整体推理精度几乎和BF16浮点精度的推理结果没有显著差异。

同时OSCAR的适配门槛极低，现有开源大模型无需修改核心架构，仅需接入对应的量化工具链即可快速部署，不会额外增加太多开发成本。

AI 大语言模型长上下文大模型 Together OSCAR KV缓存量化

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

Together AI开源OSCAR系统 2位量化技术大幅降低长上下文大模型部署成本

RanksPro

Smallppt

提示工程指南

Leap Rank

Friends & Fables

Swiftbrief

Hitem3D

SVGMaker

全球AI监管迎来拐点发布前强制测试取代自愿承诺制

昆仑万维发布天工SkyClaw Agent模型国产智能体技术获关键突破

微软开源Webwright框架推动网页智能体转向代码式路径

硬核测试证实：20年前奔腾4可跑通Meta Llama 3.2大模型

面壁智能联合清华开源BitCPM-CANN 大幅降低端侧大模型运行门槛

苹果联合谷歌打造下一代Siri 1.2万亿参数定制模型落地移动端

抖音AI求真大模型落地一周年处置谣言浏览量下降62%

京东科技提出AI World愿景 JoyInside重构家庭智能硬件生态

最新文章

X社区 · 无限公约

AI小创 v2.0 升级公告：场景化模式与隐私切换，问答更随心

支付宝推出全栈AI原生支付体系 3亿笔交易实现规模商用

支付宝AI支付破3亿笔成全球首个大规模商用AI原生支付基建

微软Copilot Cowork曝间接提示词注入漏洞企业数据安全面临严重威胁

全球AI监管迎来拐点发布前强制测试取代自愿承诺制

热门文章

3秒抓心！抖音爆款文案的5个钩子秘籍

小红书爆款笔记6个黄金法则：从标题到排版的实操指南

抖音没流量？7个数据诊断法，3天精准定位问题

抖音爆款内容：3个底层逻辑，新手也能做出高赞视频

快手爆款秘籍：5 个通用技巧，小白也能轻松上手

抖音爆款打造指南：抓住这4个关键点，流量提升3倍

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

Together AI开源OSCAR系统 2位量化技术大幅降低长上下文大模型部署成本

RanksPro

Smallppt

提示工程指南

Leap Rank

Friends & Fables

Swiftbrief

Hitem3D

SVGMaker

全球AI监管迎来拐点 发布前强制测试取代自愿承诺制

昆仑万维发布天工SkyClaw Agent模型 国产智能体技术获关键突破

微软开源Webwright框架 推动网页智能体转向代码式路径

硬核测试证实：20年前奔腾4可跑通Meta Llama 3.2大模型

面壁智能联合清华开源BitCPM-CANN 大幅降低端侧大模型运行门槛

苹果联合谷歌打造下一代Siri 1.2万亿参数定制模型落地移动端

抖音AI求真大模型落地一周年 处置谣言浏览量下降62%

京东科技提出AI World愿景 JoyInside重构家庭智能硬件生态

最新文章

X社区 · 无限公约

AI小创 v2.0 升级公告：场景化模式与隐私切换，问答更随心

支付宝推出全栈AI原生支付体系 3亿笔交易实现规模商用

支付宝AI支付破3亿笔 成全球首个大规模商用AI原生支付基建

微软Copilot Cowork曝间接提示词注入漏洞 企业数据安全面临严重威胁

全球AI监管迎来拐点 发布前强制测试取代自愿承诺制

热门文章

3秒抓心！抖音爆款文案的5个钩子秘籍

小红书爆款笔记6个黄金法则：从标题到排版的实操指南

抖音没流量？7个数据诊断法，3天精准定位问题

抖音爆款内容：3个底层逻辑，新手也能做出高赞视频

快手爆款秘籍：5 个通用技巧，小白也能轻松上手

抖音爆款打造指南：抓住这4个关键点，流量提升3倍

标签

探索分类

帮助与支持

联系我们

安装网站应用

全球AI监管迎来拐点发布前强制测试取代自愿承诺制

昆仑万维发布天工SkyClaw Agent模型国产智能体技术获关键突破

微软开源Webwright框架推动网页智能体转向代码式路径

抖音AI求真大模型落地一周年处置谣言浏览量下降62%

支付宝AI支付破3亿笔成全球首个大规模商用AI原生支付基建

微软Copilot Cowork曝间接提示词注入漏洞企业数据安全面临严重威胁

全球AI监管迎来拐点发布前强制测试取代自愿承诺制