近日英伟达推出全新投影引导跨分词器知识蒸馏技术X-Token,通过P-KL与H-KL双损失函数优化蒸馏流程,无需对齐教师模型与学生模型的分词体系,在Meta开源的Llama 3.2 1B参数小模型测试中,平均性能较行业现有GOLD蒸馏基准高出3.82个百分点,为小参数大语言模型的性能提升提供了更高效的技术路径,有望大幅降低边缘侧AI部署的算力门槛。

近两年端侧AI的落地需求正在进入爆发期,1B-3B参数区间的轻量级大语言模型,因为可以在手机、智能车机、IoT设备等终端本地运行,已经成为科技公司布局的重点赛道。但作为小模型提升性能的核心技术,知识蒸馏的落地长期面临跨分词器适配的瓶颈,极大限制了小模型的迭代效率。
过去主流的知识蒸馏方案,要求作为“教师”的大模型和作为“学生”的小模型使用完全一致的分词体系,否则token对齐过程中产生的误差,会导致至少2-3个百分点的性能损耗。为了避免这类损耗,多数厂商只能统一研发链路中的分词器标准,反而限制了小模型的功能迭代和场景适配灵活性,也抬高了中小团队的技术研发门槛。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录