京东开源JoyAI-LLM-Flash大模型 48B参数配高效激活架构

5 小时前 AI快讯 0

京东开源JoyAI-LLM-Flash大模型 48B参数配高效激活架构

2月14日,京东在Hugging Face平台开源JoyAI-LLM-Flash大模型,这款模型以48B总参数+3B激活参数的独特设计,在20万亿文本Token预训练底座支撑下,展现出强劲的前沿知识理解、推理及编程能力,其自研的FiberPO优化框架更破解了大模型规模扩展不稳定难题,为行业提供了高效部署的新范式。

在大模型技术从“参数竞赛”转向“效率竞赛”的当下,京东此次开源的JoyAI-LLM-Flash无疑踩中了行业痛点。不同于传统大模型追求全参数激活的思路,该模型采用动态激活机制:总参数规模达48B的同时,仅需激活3B参数即可运行。这一设计既保留了大参数预训练带来的知识广度和深度,又大幅降低了模型部署的算力成本,让中小企业和开发者也能快速接入高性能大模型能力,无需为全参数运行的高昂算力投入发愁。

支撑模型核心能力的是其扎实的预训练底座:20万亿文本Token的训练数据覆盖了全球前沿学术论文、行业技术文档、主流代码库、跨领域知识库等多元内容,使得JoyAI-LLM-Flash在复杂推理任务、多语言编程、智能体交互等场景中表现突出。据技术团队测试数据显示,在同等硬件条件下,该模型对2025年后发布的前沿技术术语理解准确率比同量级传统模型高出12%,Python代码生成的通过率提升近18%,能更好地满足科研机构、科技企业对专业级AI助手的需求。

而真正让JoyAI-LLM-Flash脱颖而出的,是其背后的FiberPO优化框架。京东首次将数学领域的纤维丛理论引入大模型强化学习训练,这一创新让模型不同模块的参数更新形成协同关联的“纤维结构”,避免了传统模型在规模扩张时容易出现的参数紊乱、性能波动问题——此前不少大模型在参数突破30B后,会出现推理精度不稳定、训练效率骤降的情况,FiberPO框架则从底层逻辑上解决了这一行业共性难题。搭配自研的Muon优化器与MTP(多任务并行)技术,该框架成功将模型训练的吞吐量提升了1.3x-1.7x,同时将参数扩展过程中的稳定性系数从72%提升至95%以上,为大模型向更大规模演进扫清了技术障碍。

行业专家认为,JoyAI-LLM-Flash的开源不仅是京东AI技术积累的一次对外输出,更将推动大模型高效化部署的技术迭代。此前,大模型的规模化落地始终受限于算力成本高、扩展不稳定等问题,而这款模型的“大参数底座+小激活参数”模式,结合FiberPO框架的技术突破,为企业级AI应用提供了可落地的参考方案。对于京东自身而言,该模型也将快速融入其电商、物流、云服务等业务场景,比如在智能客服的多轮推理、供应链的需求预测等环节,提升效率并降低运营成本。

随着AI技术的深入落地,企业对大模型的需求已从“能用”转向“好用、划算”。JoyAI-LLM-Flash的开源,标志着大模型行业正从追求极致性能向平衡性能与成本的方向迈进。未来,这类融合数学理论与工程实践的技术创新,将持续推动AI普惠化,让更多行业享受到大模型带来的价值。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创