Unsloth AI是一款开源的大模型微调与强化学习训练工具,支持GPT-OSS、Llama 4、DeepSeek-R1等主流大模型。它以极致效率为核心,实现30倍训练提速与90%内存占用节省,将原本30天的训练周期压缩至24小时,同时保持30%的精度提升。工具对新手友好,无需复杂技术配置即可快速上手,帮助用户定制专属化大模型。

9 天前
2026年3月26日,苹果公司联合威斯康星大学麦迪逊分校正式推出专注于密集图像描述的AI训练框架RubiCap。该框架采用创新强化学习机制,引入Qwen2.5担任“裁判”提供训练反馈,可精准捕捉图像细粒度内容,性能反杀参数规模为其10倍的同类型图像描述模型,有效解决了传统图像标注成本高、生成内容幻觉多的行业痛点。

15 天前
2026年3月20日,OpenAI正式宣布收购开源开发工具初创公司Astral,后者旗下Ruff、uv等高性能Python工具在开发者群体中认可度极高。本次收购后Astral团队将整体并入OpenAI,为AI编程产品Codex提供技术支撑,目前Codex周活跃用户已突破200万,2026年初以来用户增速翻三倍,本次交易也被视为对Anthropic、Cursor等竞争对手的强势回应。

17 天前
2026年3月18日,高性能微调方案提供商Unsloth AI正式推出开源无代码工具Unsloth Studio,这是行业首个本地可视化大语言模型微调平台。该产品基于Triton语言定制反向传播内核,实现训练速度提升100%、显存占用降低70%,单块RTX4090消费级显卡即可完成8B、70B参数大模型微调,大幅降低LLM开发门槛。

17 天前
2026年3月,国内AGI厂商MiniMax与腾讯云宣布达成深度技术合作,双方联合研发的Agent强化学习(RL)沙箱已完成测试阶段全量平稳运行。该沙箱具备百万级吞吐、十万级并发能力,标志着AI智能体落地的底层基建能力实现重要突破,为后续大规模智能体训练、全场景商业化落地提供了核心支撑。

23 天前
近日,云原生数据平台厂商Databricks宣布收购AI技术公司Quotient AI,将整合后者的AI模型评估技术与强化学习能力,优化企业级AI智能体的落地表现。本次收购瞄准当前CIO群体普遍面临的AI落地痛点,旨在解决企业场景下AI智能体行为一致性、可解释性与运行安全三大核心问题,为企业生成式AI落地提供全链路工具支撑。

24 天前
2026年3月10日,腾讯混元3D团队正式开源业界首个面向世界模型的强化学习后训练框架WorldCompass。作为混元世界模型1.5的官方RL扩展模块,该框架针对现有世界模型处理复杂指令偏差问题实现技术突破,调优后开源SOTA模型WorldPlay复合动作场景交互准确率从20%升至55%以上,提升幅度超35%,为世界模型落地交互场景提供了新的技术路径。

1 个月前
2026年3月4日,极客邦科技InfoQ发布行业观察报道,指出随着大模型与AI智能体(Agent)技术的快速迭代,强化学习(RL)已成为提升智能体自主决策能力的核心引擎,但传统强化学习训练存在计算成本高、数据需求大、系统复杂度高等痛点,AReaL框架正针对这些局限给出适配智能体场景的最佳实践,为AI智能体的规模化落地提供新的技术思路。

1 个月前
3月4日,蚂蚁集团与清华大学联合正式开源大规模异步强化学习训练框架AReaL v1.0稳定版。该系统通过解耦数据生成与模型训练流程,打破了传统同步训练机制的算力瓶颈,可显著提升大语言模型尤其是推理模型的训练效率,实测AI推理训练速度最高可达2.77倍,为大模型逻辑推理能力升级提供了高效技术路径。