印度Sarvam发布两款原生MoE大模型性能超越谷歌Gemini同类产品

7 小时前 AI快讯 2

当地时间2月18日，印度AI实验室Sarvam在印度人工智能影响力峰会上推出两款从零构建的MoE架构大语言模型，其中旗舰型号105B-A9B在印度本地语言基准测试中表现优于谷歌Gemini 2.5 Flash。两款模型即将在Hugging Face开放开源权重，后续还将提供API访问和仪表盘支持，为印度本土AI生态注入新动力。

MoE（混合专家）作为当前大语言模型领域的主流架构之一，通过稀疏激活机制让模型仅调用特定专家模块处理对应任务，在保证核心性能的同时大幅降低推理成本，尤其适配印度多语言、多场景的复杂市场需求。此次Sarvam发布的两款模型均为原生MoE架构，从训练数据到模型结构均围绕印度本土语言特性打造，而非基于通用模型微调，这也是其能在本地场景脱颖而出的核心原因。

定位轻量化的30B-A1B模型，预训练数据集规模达到16万亿tokens，支持32K上下文窗口，主打低延迟响应能力。该模型专为实时客服、语音助手、即时翻译等对速度要求极高的场景设计，能够在普通消费级硬件上实现高效推理，为中小企业降低AI应用的落地门槛——此前这类企业往往因成本问题难以接入高质量大模型。

旗舰型号105B-A9B则成为本次发布会的核心亮点。据Sarvam公布的测试数据显示，该模型在印度本地化语言基准测试中，各项核心指标均优于谷歌Gemini 2.5 Flash。印度拥有22种官方语言及数十种方言，此前多数国际大模型在本地语言理解、文化场景适配等方面存在明显短板，而105B-A9B通过针对性的原生训练，在方言识别、本土语义理解、区域文化场景生成等任务中展现出显著优势。

为了推动印度本土AI产业的自主发展，Sarvam采取了开放开源的策略。两款模型即将在Hugging Face平台开放全部训练权重，API访问权限和可视化管理仪表盘也将在未来几周内逐步上线。这一举措意味着印度本土开发者无需投入巨额训练成本，就能基于这两款模型开发适配本地需求的AI应用，打破了此前国际巨头对高质量AI模型的垄断格局。

长期以来，印度AI市场的技术话语权被谷歌、OpenAI等国际企业主导，本土AI应用多依赖通用模型的二次开发，难以深度贴合用户需求。Sarvam此次发布的原生MoE大模型，不仅填补了印度本地化高性能大模型的空白，也为全球AI产业提供了“区域定制化”的发展样本。随着印度AI企业对本土市场的深挖，未来或许将涌现更多兼具本地化优势与国际竞争力的AI技术成果，推动全球AI生态向更加多元的方向发展。

开源大模型印度AI大模型 MoE架构 Sarvam

!

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

DeepSeek

AI国内

深度求索旗下开源大模型与AI服务平台

AI脚本创作 Top 20

3k

印度Sarvam发布两款原生MoE大模型性能超越谷歌Gemini同类产品

DeepSeek