3月4日,蚂蚁集团与清华大学联合正式开源大规模异步强化学习训练框架AReaL v1.0稳定版。该系统通过解耦数据生成与模型训练流程,打破了传统同步训练机制的算力瓶颈,可显著提升大语言模型尤其是推理模型的训练效率,实测AI推理训练速度最高可达2.77倍,为大模型逻辑推理能力升级提供了高效技术路径。
当前大语言模型正从通用对话向大规模推理模型(LRM)迭代,这类模型需要更强的逻辑推演、复杂问题拆解能力,而强化学习(RL)正是实现这一升级的关键技术。但目前主流的RL训练系统多采用同步运行模式,数据生成与模型训练需严格按批次推进,容易出现算力闲置、训练周期过长的问题。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录