2026年6月30日,小红书技术团队正式开源自主研发的RedKnot大模型推理引擎,针对生成式AI长上下文处理场景效率低、算力成本高的行业痛点,通过重构传统KV Cache存储逻辑、引入三大自研优化机制,实测在8卡H800计算环境下长文本处理效率较传统方案提升100%,为大模型推理降本增效提供了全新技术路径。

不少大模型用户都有过类似体验:上传几十页的项目文档做摘要、拉取上百轮的对话历史做复盘时,AI的响应速度会明显变慢,甚至出现服务超时的情况。随着各大厂商不断把大模型的上下文窗口拉升到百万token级别,推理侧的性能短板已经成为长文本类AI应用落地的最大阻碍。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录