网站截图
Gladia是国外专注于AI语音转文字技术的专业服务商,核心定位为开发者和企业提供高性能的语音转录API服务,依托自研的Solaria-1通用语音转写大模型,主打多语种支持、低延迟、低幻觉的转写能力。相比传统语音转写工具,Gladia的实时转写延迟可控制在300ms以内,部分转写输出甚至低于100ms,能够适配对性能要求较高的各类语音交互场景,帮助企业降低自研STT模型的技术与时间成本。
在实时对话场景中,比如跨境视频会议的实时字幕输出,Gladia可以做到转写几乎与说话同步,即使是多语种混合对话也能准确识别,不会出现卡顿或延迟过高的问题;在批量转写场景中,针对数小时的播客、学术访谈音频,转写准确率可达95%以上,几乎不会出现传统STT模型常见的乱码、杜撰内容等幻觉错误;在小语种转写场景中,也能保持稳定的准确率,不会因为语种小众出现识别错误。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 个月前
2026年4月7日,谷歌正式在iOS App Store上架AI语音转写应用Google AI Edge Eloquent,该应用面向用户免费开放且无使用次数限制,默认搭载本地Gemma ASR模型完成语音识别与文本整理,全程无需联网、数据不流出用户设备,同时支持切换至云端调用Gemini大模型进行文本润色,兼顾隐私安全与转写效果。

1 个月前
2026年4月3日,微软正式发布自研MAI系列第三款AI模型MAI-Transcribe-1,该语音转写模型在FLEURS基准测试中实现25种语言平均词错误率仅3.9%,11种核心语言转写精度登顶,性能优于OpenAI Whisper-large-v3、Google Gemini 3.1 Flash等同类产品,是目前全球精度最高的通用多语种语音转写模型。

1 个月前
2026年3月28日,AI服务平台AI亦为正式推出大模型聚合服务,已接入OpenAI GPT-4、Anthropic Claude、Google Gemini、DeepSeek等全球主流厂商共534款大模型,提供统一API接口,支持最低1元起充、模型调用费率低至官方1-2折,大幅降低开发者多模型对接成本,实现开发环节的“AI自由”。

2 个月前
美国初创公司AgentMail近期完成600万美元种子轮融资,面向AI代理场景推出专用邮箱API平台,支持双向会话、内容解析、线程管理、标签分类、全局搜索与自动回复等全链路邮件处理能力,填补了当前AI智能体对外交互场景的基础设施空白,本轮融资将主要用于技术研发与商业化落地拓展。

2 个月前
2026年2月25日,通义千问团队宣布Qwen3.5开源大模型家族新增Qwen3.5-122B-A10B、35B-A3B、27B(Dense)等多款模型,同步在阿里云百炼平台上线Qwen3.5-Flash生产级API服务。新模型通过架构优化等路径提升性能,部分超越前代更大参数版本,复杂Agent任务表现突出,显著缩小与顶尖闭源模型的差距。

3 个月前
火山引擎日前推出豆包大模型2.0系列,同步开放面向企业与开发者的API服务,个人用户可通过指定渠道体验。该版本针对大规模生产环境系统性优化,具备高效推理、多模态理解及复杂指令执行能力,可更好应对真实世界复杂任务;核心亮点为推理成本较业界顶尖模型降低约一个数量级,目前其日均Tokens使用量较推出初期已增长超500倍。

3 小时前
2026年5月,世界一级方程式锦标赛(F1)Scuderia Ferrari HP车队与科技巨头IBM达成技术合作,将基于IBM定制化AI交互系统重构赛事粉丝服务体系。双方已披露多套落地场景,预计可覆盖全球超2亿法拉利F1核心粉丝,将观赛互动转化率提升30%以上,同时为车队周边消费、会员运营提供全链路数据支撑。

4 小时前
近日,微软宣布调整Office套件的Copilot AI助手交互逻辑,新增悬浮Copilot按钮的手动关闭选项,解决了此前用户反馈的常驻悬浮键遮挡编辑区域、误触率高等问题。作为微软面向办公场景落地的核心AI工具,Copilot目前已覆盖Office全系列办公应用,全球付费企业用户规模已突破3000万,本次功能更新将进一步优化不同使用习惯用户的体验。