Gladia是国外专注于AI语音转文字技术的专业服务商,核心定位为开发者和企业提供高性能的语音转录API服务,依托自研的Solaria-1通用语音转写大模型,主打多语种支持、低延迟、低幻觉的转写能力。相比传统语音转写工具,Gladia的实时转写延迟可控制在300ms以内,部分转写输出甚至低于100ms,能够适配对性能要求较高的各类语音交互场景,帮助企业降低自研STT模型的技术与时间成本。
在实时对话场景中,比如跨境视频会议的实时字幕输出,Gladia可以做到转写几乎与说话同步,即使是多语种混合对话也能准确识别,不会出现卡顿或延迟过高的问题;在批量转写场景中,针对数小时的播客、学术访谈音频,转写准确率可达95%以上,几乎不会出现传统STT模型常见的乱码、杜撰内容等幻觉错误;在小语种转写场景中,也能保持稳定的准确率,不会因为语种小众出现识别错误。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
4 天前
2026年4月3日,微软正式发布自研MAI系列第三款AI模型MAI-Transcribe-1,该语音转写模型在FLEURS基准测试中实现25种语言平均词错误率仅3.9%,11种核心语言转写精度登顶,性能优于OpenAI Whisper-large-v3、Google Gemini 3.1 Flash等同类产品,是目前全球精度最高的通用多语种语音转写模型。

11 天前
2026年3月28日,AI服务平台AI亦为正式推出大模型聚合服务,已接入OpenAI GPT-4、Anthropic Claude、Google Gemini、DeepSeek等全球主流厂商共534款大模型,提供统一API接口,支持最低1元起充、模型调用费率低至官方1-2折,大幅降低开发者多模型对接成本,实现开发环节的“AI自由”。

26 天前
美国初创公司AgentMail近期完成600万美元种子轮融资,面向AI代理场景推出专用邮箱API平台,支持双向会话、内容解析、线程管理、标签分类、全局搜索与自动回复等全链路邮件处理能力,填补了当前AI智能体对外交互场景的基础设施空白,本轮融资将主要用于技术研发与商业化落地拓展。

1 个月前
2026年2月25日,通义千问团队宣布Qwen3.5开源大模型家族新增Qwen3.5-122B-A10B、35B-A3B、27B(Dense)等多款模型,同步在阿里云百炼平台上线Qwen3.5-Flash生产级API服务。新模型通过架构优化等路径提升性能,部分超越前代更大参数版本,复杂Agent任务表现突出,显著缩小与顶尖闭源模型的差距。

1 个月前
火山引擎日前推出豆包大模型2.0系列,同步开放面向企业与开发者的API服务,个人用户可通过指定渠道体验。该版本针对大规模生产环境系统性优化,具备高效推理、多模态理解及复杂指令执行能力,可更好应对真实世界复杂任务;核心亮点为推理成本较业界顶尖模型降低约一个数量级,目前其日均Tokens使用量较推出初期已增长超500倍。

1 小时前
2026年4月7日,清华大学智能产业研究院(AIR)联合水木分子正式开源生物医药大模型插件集OpenBioMed Skills,首批推出覆盖五大核心领域的45项Agent技能,可直接调用多款垂直生物医药大模型,专业能力显著优于通用大模型。清华大学首席研究员、水木分子首席科学家聂再清表示,该项目将大幅降低药研工程门槛,推动生物医药研发全流程智能化。

1 小时前
2026年4月7日,通义千问宣布升级旗下“深度研究”功能,正式上线专业财经分析模块。本次升级基于Agentic架构整合同花顺实时金融数据,覆盖全球1.3万只股票分钟级行情、近百万份上市公司财报及权威研报,可全链路自主生成可溯源的专业研报,当前已在多端开放免费体验。

1 小时前
根据全球大模型聚合平台OpenRouter2026年4月发布的监测数据,2026年3月30日至4月5日中国AI大模型周调用量达12.96万亿Token,环比增长31.48%,是美国同期调用量的4倍以上。全球大模型周调用量榜单前六均为国产模型,阿里旗下Qwen3.6系列、小米MiMo-V2-Pro分列前三,凸显中国AI应用端的规模领先优势。