印度Sarvam发布两款原生MoE大模型 性能超越谷歌Gemini同类产品

7 小时前 AI快讯 2

印度Sarvam发布两款原生MoE大模型 性能超越谷歌Gemini同类产品

当地时间2月18日,印度AI实验室Sarvam在印度人工智能影响力峰会上推出两款从零构建的MoE架构大语言模型,其中旗舰型号105B-A9B在印度本地语言基准测试中表现优于谷歌Gemini 2.5 Flash。两款模型即将在Hugging Face开放开源权重,后续还将提供API访问和仪表盘支持,为印度本土AI生态注入新动力。

MoE(混合专家)作为当前大语言模型领域的主流架构之一,通过稀疏激活机制让模型仅调用特定专家模块处理对应任务,在保证核心性能的同时大幅降低推理成本,尤其适配印度多语言、多场景的复杂市场需求。此次Sarvam发布的两款模型均为原生MoE架构,从训练数据到模型结构均围绕印度本土语言特性打造,而非基于通用模型微调,这也是其能在本地场景脱颖而出的核心原因。

定位轻量化的30B-A1B模型,预训练数据集规模达到16万亿tokens,支持32K上下文窗口,主打低延迟响应能力。该模型专为实时客服、语音助手、即时翻译等对速度要求极高的场景设计,能够在普通消费级硬件上实现高效推理,为中小企业降低AI应用的落地门槛——此前这类企业往往因成本问题难以接入高质量大模型。

旗舰型号105B-A9B则成为本次发布会的核心亮点。据Sarvam公布的测试数据显示,该模型在印度本地化语言基准测试中,各项核心指标均优于谷歌Gemini 2.5 Flash。印度拥有22种官方语言及数十种方言,此前多数国际大模型在本地语言理解、文化场景适配等方面存在明显短板,而105B-A9B通过针对性的原生训练,在方言识别、本土语义理解、区域文化场景生成等任务中展现出显著优势。

为了推动印度本土AI产业的自主发展,Sarvam采取了开放开源的策略。两款模型即将在Hugging Face平台开放全部训练权重,API访问权限和可视化管理仪表盘也将在未来几周内逐步上线。这一举措意味着印度本土开发者无需投入巨额训练成本,就能基于这两款模型开发适配本地需求的AI应用,打破了此前国际巨头对高质量AI模型的垄断格局。

长期以来,印度AI市场的技术话语权被谷歌、OpenAI等国际企业主导,本土AI应用多依赖通用模型的二次开发,难以深度贴合用户需求。Sarvam此次发布的原生MoE大模型,不仅填补了印度本地化高性能大模型的空白,也为全球AI产业提供了“区域定制化”的发展样本。随着印度AI企业对本土市场的深挖,未来或许将涌现更多兼具本地化优势与国际竞争力的AI技术成果,推动全球AI生态向更加多元的方向发展。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创