小米开源首代机器人VLA大模型,80ms延迟刷新具身智能效率
在具身智能成为AI行业下一个核心叙事的节点,小米正式推出首款面向机器人的VLA大模型,并宣布全面开源。这款模型将推理延迟压缩至80ms,甚至消费级显卡RTX 4090即可流畅运行,试图打破当前具身机器人“秀得多、用得少”的行业困局,为落地生产生活场景提供新的技术支点。
刚过去的春节档,具身机器人成了各大晚会的“常客”——央视春晚上,多家企业的机器人轮番亮相,高难度舞蹈、协作动作刷屏社交媒体。从大厂密集布局到资本持续热捧,具身智能正快速接过AI大模型的“叙事接力棒”,成为科技行业最受瞩目的新赛道。
但热闹的表象下,具身机器人行业正站在一个尴尬的拐点:一边是大众因“看见”而对未来充满期待,各类翻爬、抓取等高难度演示视频不断刷新认知;另一边是从业者对“真实落地”的焦虑——当前多数具身机器人仍依赖人工辅助或单步遥操,缺乏自主决策能力,很难在工厂流水线、家庭服务等场景释放真实生产力。行业共识正在形成:具身机器人要成为真正的生产力,核心终究要落在“自主性”上,而低延迟的实时交互能力,正是实现自主性的关键前提。
小米VLA大模型的发布,正是瞄准了这一行业痛点。80ms的推理延迟是其核心亮点,这意味着机器人能近乎实时地根据环境反馈调整动作——在工厂分拣精密零件时,不会因延迟错过抓取时机;在家庭服务场景中,能流畅响应主人的连续指令。对比此前多数机器人模型动辄数百毫秒的延迟,VLA的丝滑体验直接填补了“演示动作”到“完成任务”的技术鸿沟。
更具行业冲击力的是,小米宣布VLA大模型全面开源,且支持消费级显卡运行。此前,具身机器人的核心技术大多掌握在少数大厂手中,中小企业与开发者面临技术门槛高、硬件成本贵的双重壁垒,很难在细分场景进行创新。而VLA模型仅需RTX 4090就能流畅运行,再加上开源的开放姿态,相当于为行业提供了一套“轻量化、易部署”的通用大脑,让更多参与者能基于此定制场景化解决方案——比如为快递分拣机器人优化抓取路径,为护理机器人开发更自然的交互逻辑。
有具身智能领域的研究者认为,小米的这一动作可能会重构行业生态。此前具身机器人的研发偏向“硬件堆料”,而VLA大模型将重心拉回“软件大脑”的实用化,低延迟+开源的组合,可能会引发行业从“炫技”到“落地”的转向。当低门槛、高响应的开源模型成为行业标配,具身机器人离走进工厂、家庭的未来,或许比想象中更近。
从AI大模型的“百模大战”到具身智能的“落地竞赛”,科技行业的叙事始终在“技术突破”与“价值实现”间寻找平衡。小米VLA大模型的出现,正是这种平衡的一次尝试——它没有追求极致的参数规模,而是聚焦于解决具身机器人落地的核心痛点,这种务实的技术路线,或许能为行业带来更持久的发展动力。

2 小时前
2026年4月2日,美团LongCat团队正式发布并开源端到端音频生成模型LongCat-AudioDiT,提供1B、3.5B两个参数版本。该模型首创波形潜空间直接建模架构,摒弃传统TTS系统的梅尔频谱中间表征,搭载全卷积设计的Wav-VAE可将24kHz波形压缩2000倍至11.7Hz帧率,大幅降低信息损耗与误差累积,成功刷新零样本音色克隆性能SOTA。

10 小时前
2026年4月1日消息,高德正式全量开源全球首个基于统一架构的具身操作基座模型ABot-M0。该模型可作为“通用大脑”适配多种形态的具身机器人,在Libero、Libero-Plus等多个权威基准测试中达到SOTA表现,其中在Libero-Plus基准上任务成功率达80.5%,较此前业界标杆方案Pi0提升近30%。

22 小时前
2026年4月1日,高德正式全量开源全球首个统一架构机器人具身操作基座模型ABot-M0,该模型旨在以“一个通用大脑适配多形态机器人”,打破异构硬件壁垒。其在Libero-Plus基准测试中任务成功率达80.5%,较此前行业标杆Pi0提升近30%,同时开源覆盖数据、算法、预训练模型三大维度,推动具身智能落地提速。

2 天前
2026年3月31日,AI接入层头部初创公司LiteLLM正式宣布全面移除平台内争议辅助工具Delve,回应开发者社区关于该工具数据隐私、模型透明度的质疑。LiteLLM创始人公开承认此前合作伙伴安全评估存在疏漏,团队将剔除全部关联代码,转向可审计的开源替代方案,该事件也暴露出AI中间层架构平衡效率与安全的行业共性难题。

2 天前
2026年3月31日,蚂蚁灵波科技正式开源大规模RGB-D深度数据集LingBot-Depth-Dataset,总规模达2.71TB,包含300万对高质量样本,其中200万对为真实场景采集、100万对为渲染生成,覆盖6款主流深度相机,是当前开源社区规模最大的真实场景RGB-D数据集,将为具身智能、三维视觉、空间感知等领域研发提供核心数据支撑。

3 天前
2026年3月28日举办的全球开发者先锋大会上,上海市委常委、副市长陈杰披露,上海目前已上线150余款备案大模型,人形机器人出货量位居全球前列,当地智算供给能力占全国10%,运营有全国首个语料公共服务平台,集聚AI相关人才超30万,已成为国内大模型与具身智能产业核心创新策源地。

3 天前
在2026中国网络媒体论坛上,宇树科技创始人兼CEO王兴兴发表《当机器人刷屏》主题演讲,明确定义具身智能行业临界点为机器人仅凭语音指令即可在陌生场景完成80%-90%的任务,其预判这一被称为具身智能“ChatGPT时刻”的里程碑将在两到三年内落地,部分硅谷专家则给出18个月的更乐观预期。

3 天前
在2026中国网络媒体论坛上,宇树科技创始人兼CEO王兴兴发表《当机器人刷屏》主题演讲,明确了具身智能GPT时刻的量化标准:陌生场景下可通过语音指令完成80%-90%的通用任务,该里程碑预计2到3年内落地。王兴兴同时提出“运动和干活并行推动”的技术路线,为具身智能行业发展提供了可参照的判断框架。