AI基础设施服务商Trajectory近日开源面向持续学习场景的并发多LoRA强化学习训练栈,相较于传统单租户强化学习训练方案,该工具链可实现2.81倍的实验吞吐量提升,大幅降低大模型持续微调、AI智能体迭代的算力成本与训练周期,为AGI落地阶段的高频模型迭代需求提供了新的开源技术选项。
随着大模型产业从预训练军备竞赛转向落地应用阶段,持续学习能力已经成为模型迭代、AI智能体进化的核心需求。传统大模型微调方案需要调动全量参数,成本高昂,低秩适配(LoRA)技术凭借仅调整少量参数即可实现等效微调效果的优势,已经成为行业主流的低成本微调方案。
但现有训练框架的调度能力并未匹配LoRA的技术特性,单租户强化学习训练模式下,单张GPU往往只能承载一个LoRA训练任务,算力空置率普遍超过60%,高频迭代需求下研发团队的时间成本被大幅拉高。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录