2026年3月25日,梅赛德斯-奔驰正式公布产学研合作最新成果,其联合清华大学、智谱AI共同研发的定制化多模态大模型将落地新一代梅赛德斯-迈巴赫S级轿车,搭载于后排娱乐系统。奔驰也成为全球首个在超豪华车型后排应用该技术的汽车品牌,将重新定义超豪华出行的智能交互标准。
对于迈巴赫S级的后排乘客而言,此前调整座舱配置、点播影音内容大多需要借助触控面板或唤醒固定语音指令,操作繁琐且缺乏灵活性。而随着多模态大模型的落地,只需一个手势、一句模糊的需求描述,甚至无需主动发出指令,系统就能通过感知判断完成服务响应。
本次搭载的系统采用专为迈巴赫场景定制的端侧多模态架构,由奔驰中国研发团队联合智谱AI、清华大学智能产业研究院共同开发,没有直接沿用通用大模型的公有云部署模式,而是针对车载场景的低延迟、高隐私需求做了底层适配。
系统集成了自然语言处理、视觉感知、音频识别等多模态能力,除了支持更自然的连续对话交互外,还能通过车内摄像头识别乘客的手势动作、面部情绪,比如识别到乘客抬手动作时自动调亮阅读灯,感知到乘客疲惫状态时主动推送舒缓音乐并调整座椅角度,把后排从传统的乘坐空间升级为具备感知能力的“数字私人助理”。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
23 小时前
2026年4月3日,美团技术团队正式发布原生多模态大模型LongCat-Next,该产品依托自主研发的DiNA(离散原生自回归)架构,突破传统“语言基座+插件”的拼凑式架构局限,实现图像、语音、文本的同源离散Token转化,视觉分词器压缩比达28倍,可原生实现对物理世界的“看”“听”能力,为多模态大模型发展提供了新的技术路径。

1 天前
2026年4月2日,国产大模型厂商智谱正式发布旗下首个多模态Coding基座模型GLM-5V-Turbo,该模型具备“视觉+代码”跨模态生成能力,可基于草图、UI设计稿直接生成可运行前端工程,实测视觉编程性能较Claude Opus高出4.6%,是智谱在GLM-5-Turbo之后推出的又一编程类大模型迭代产品。

1 天前
北京时间2026年4月3日,谷歌正式推出全新开源大模型Gemma4,该系列基于Gemini3技术栈打造,共包含2.3B、4.5B高效版及26B MoE、31B稠密版四种规格,全系支持多模态输入,高效版原生支持端侧实时语音理解,31B稠密版本在Arena AI文本榜单中位列全球开源模型第三,大幅降低前沿AI能力的本地部署门槛。

2 天前
2026年4月2日,智谱正式发布专为视觉编程打造的原生多模态Coding基座模型GLM-5V-Turbo。该模型融合视觉理解与代码生成能力,上下文窗口达200k,可将设计稿、网页界面等视觉信息转化为可运行代码,在多模态编程、GUI Agent等核心基准测试中实现同尺寸模型性能领先,填补了AI Agent从纯字符感知到视觉感知的技术空白。

2 天前
2026年4月2日,字节跳动旗下云服务品牌火山引擎正式开启多模态视频生成模型Seedance 2.0的普通API客户申请通道,标志着该模型从限量邀测阶段转向广泛开放。Seedance 2.0支持文、图、音、视频四种输入模态,具备角色一致性保持、导演级镜头控制等能力,可覆盖短剧、电商营销、影视制作等多场景生产级需求。

2 天前
2026年4月2日,国内大模型厂商智谱正式推出专为视觉编程场景打造的多模态Coding基座模型GLM-5V-Turbo。该模型实现视觉与编程能力深度融合,支持图片、视频、设计稿、复杂文档版面识别,上下文窗口达200k,在多模态编程、GUI Agent核心基准测试中性能领先于同类产品,可大幅拓展AI Agent的感知边界。

2 天前
2026年4月2日,智谱AI正式发布专为视觉编程场景打造的多模态大模型GLM-5V-Turbo。该模型突破纯文本AI编程的固有局限,可直接识别设计稿、网页截图输出可运行前端代码,搭载200k超长上下文窗口,接入后智谱旗下AutoClaw(龙虾)智能体获得原生视觉感知能力,将大幅降低前端开发门槛。

3 天前
快手旗下AI生成平台可灵AI于2026年4月1日正式上线会员模型优惠计划,活动持续至当年6月30日,覆盖Web、App全端用户。活动期间铂金及以上会员可享3.0系列视频生成模型8折灵感值优惠,黄金会员享9折,同时图片模型优惠周期延长、部分功能免费。本次优惠意在降低高阶AI视频创作门槛,也折射出AI视频赛道竞争逻辑的转变。