登录体验完整功能(收藏、点赞、评论等) — 已累计有 10311 人加入
智能AI助手

您好,我是AI助手

我可以帮您推荐合适的AI工具,有什么需要帮忙的吗?

我会根据您的需求,智能推荐站内收录的AI工具
猜您想问
推荐一些AI写作工具 有什么AI绘画工具? 推荐视频剪辑AI工具
AI助手: 我可以帮您推荐合适的AI工具,有什么需要帮忙的吗?

Perplexity AI开源Rust版Unigram分词器 性能超Hugging Face方案5倍

详情页推荐

近日AI搜索企业Perplexity AI宣布开源其基于Rust语言重构的Unigram分词器工具,该方案相较主流的Hugging Face tokenizers crate实现5倍p50延迟降低,CPU占用率下降5-6倍,且运行过程中实现零稳态堆内存分配,可大幅削减大语言模型推理部署的基础算力开销,为AI基础设施层优化提供了新的成熟选型。

配图

作为大语言模型输入输出链路的核心前置组件,分词器的性能直接决定了用户请求的响应速度,但其优化工作长期以来被不少研发团队忽略,直到高并发落地场景的需求爆发,这一“隐形瓶颈”才逐渐走到行业聚光灯下。

现在大模型落地已经从尝鲜阶段进入规模化部署阶段,企业对推理成本的敏感度正在快速提升。此前行业的优化重点大多集中在模型量化、推理引擎加速等环节,而分词器作为所有请求的必经处理环节,其CPU占用和延迟往往会占到整条推理链路的10%到30%,高并发场景下占比还会进一步上升。

目前行业应用最广泛的Hugging Face tokenizers库虽然兼容性强、支持多类分词算法,但受限于架构设计,在生产环境的性能表现始终无法满足头部企业的极致优化需求,不少企业为了消化这部分算力开销,不得不单独扩容服务器节点,直接推高了大模型的落地成本。

Perplexity AI此次开源的Unigram分词器,完全基于Rust语言重写了核心逻辑,针对高并发生产场景做了大量定向优化。官方测试数据显示,该分词器的p50延迟相较Hugging Face同类方案降低5倍,也就是说在同等并发量下,一半的用户请求的分词处理时间仅为原有方案的1/5,能直接缩短整体响应时长。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。