2026年3月16日,IBM正式发布专为边缘计算与企业级部署打造的紧凑型多模态语音大模型Granite 4.0 1B Speech。该模型参数量仅为前代产品的50%,性能实现显著跃升,新增日语自动语音识别、关键词偏置功能,英文转录准确率大幅提升,目前已支持6种主流语言的语音识别与双向互译。
对于大量布局线下语音交互场景的企业而言,语音大模型的落地长期面临两难选择:云端部署存在传输延迟高、敏感数据泄露风险等问题,端侧部署则受限于终端算力,往往要在模型准确率和运行效率之间做取舍。IBM此次推出的新语音模型,恰好击中了这一长期存在的市场痛点。
近年来,零售门店智能客服、工业设备语音操控、线下网点实时翻译等场景的需求持续增长,这类场景普遍要求语音交互能力在本地运行,既不能有过高的延迟,也不能将用户语音数据上传至云端处理。过往行业内的同级别语音模型要么参数过大无法在普通边缘终端运行,要么为了压缩体积牺牲了识别准确率,无法满足企业级场景的可靠性要求。
此次发布的Granite 4.0 1B Speech最核心的优势在于参数量仅为上一代同系列产品的50%,但核心性能反而实现了显著提升。该模型采用创新的两阶段设计架构:第一阶段先将音频信号转换为文本,第二阶段再调用专属的Granite语言模型完成后续推理任务,这种模块化设计允许开发者根据场景需求灵活裁剪功能,比如仅需要语音转录能力时可以关闭翻译模块,进一步降低资源占用。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 天前
近日,AI智能剪辑工具ClipMake正式启动公开测试,其搭载自研多模态视频理解大模型,可将长素材自动剪辑为适配多平台的短视频内容,剪辑效率较传统人工操作提升82%,支持抖音、小红书、YouTube等12个海内外主流内容平台的尺寸、字幕风格、黄金开头自动优化,公测上线3天累计注册用户已突破2.1万,引发内容创作领域广泛关注。

4 天前
2026年4月3日,美团技术团队正式发布原生多模态大模型LongCat-Next,该产品依托自主研发的DiNA(离散原生自回归)架构,突破传统“语言基座+插件”的拼凑式架构局限,实现图像、语音、文本的同源离散Token转化,视觉分词器压缩比达28倍,可原生实现对物理世界的“看”“听”能力,为多模态大模型发展提供了新的技术路径。

4 天前
2026年4月2日,国产大模型厂商智谱正式发布旗下首个多模态Coding基座模型GLM-5V-Turbo,该模型具备“视觉+代码”跨模态生成能力,可基于草图、UI设计稿直接生成可运行前端工程,实测视觉编程性能较Claude Opus高出4.6%,是智谱在GLM-5-Turbo之后推出的又一编程类大模型迭代产品。

4 天前
北京时间2026年4月3日,谷歌正式推出全新开源大模型Gemma4,该系列基于Gemini3技术栈打造,共包含2.3B、4.5B高效版及26B MoE、31B稠密版四种规格,全系支持多模态输入,高效版原生支持端侧实时语音理解,31B稠密版本在Arena AI文本榜单中位列全球开源模型第三,大幅降低前沿AI能力的本地部署门槛。

5 天前
2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。

5 天前
2026年4月2日,IBM正式发布30亿参数级视觉语言模型Granite 4.0 3B Vision,针对企业级复杂文档数据提取需求深度优化,可精准识别复杂表格、扫描件、多模态布局文档的关键信息,适配金融、法律、医疗等行业非结构化数据处理场景,兼顾云端、边缘侧部署能力,显著降低企业算力投入成本。

5 天前
2026年4月2日,字节跳动旗下云服务品牌火山引擎正式开启多模态视频生成模型Seedance 2.0的普通API客户申请通道,标志着该模型从限量邀测阶段转向广泛开放。Seedance 2.0支持文、图、音、视频四种输入模态,具备角色一致性保持、导演级镜头控制等能力,可覆盖短剧、电商营销、影视制作等多场景生产级需求。

5 天前
2026年4月2日,国内大模型厂商智谱正式推出专为视觉编程场景打造的多模态Coding基座模型GLM-5V-Turbo。该模型实现视觉与编程能力深度融合,支持图片、视频、设计稿、复杂文档版面识别,上下文窗口达200k,在多模态编程、GUI Agent核心基准测试中性能领先于同类产品,可大幅拓展AI Agent的感知边界。