我可以帮您推荐合适的AI工具,有什么需要帮忙的吗?
2026年5月,英伟达正式推出面向编码类大语言模型训练的Polar框架,该框架可代理大语言模型API调用,在无需修改现有编码测试套件的前提下,还原token级真实强化学习轨迹,支持Codex、Claude Code、Qwen Code等主流编码大模型的GRPO训练,大幅降低编码类AI的定制训练门槛。

编码类大模型正在成为企业数字化转型的核心工具,而GRPO(组相对策略优化)作为当前效果最好的强化学习训练方法之一,此前始终存在落地门槛高的问题——针对闭源大模型的训练无法获取底层token输出,开源模型的训练适配也需要修改整套测试环境,单项目适配成本最高可达数十万元。
随着代码生成、自动化测试等场景的需求爆发,越来越多的企业希望基于现有成熟编码大模型做定制化训练,适配自身的业务开发规范。但现有GRPO训练流程要求训练方能够获取模型每一步的token生成数据,同时需要对编码测试套件做针对性改造,这对于没有底层模型权限的闭源API用户,以及研发能力有限的中小团队来说,几乎是难以跨越的门槛。
有行业统计数据显示,此前针对编码大模型的GRPO训练适配,平均要占整个项目研发周期的35%以上,大量资源消耗在非核心的流程适配工作上,严重拖累了编码类AI的落地速度。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录