2026年4月,视频大模型Vidu开发商生数科技正式发布具身智能模型MotuBrain,该模型此前曾以匿名身份登顶物理世界理解基准WorldArena、动作执行基准RoboTwin2.0,刷新两项测试历史纪录,是唯一在复杂扰动环境下平均分突破95分的具身智能模型,打破了行业对具身智能决策效率与泛化能力的传统认知。
过去三周,具身智能领域的从业者都在猜测MotuBrain的来历:这款突然霸榜两大权威基准的模型,把此前榜单头部的海外厂商项目平均分值甩开了7个百分点,而其研发方始终没有公开身份,直到4月30日生数科技的官宣才让这匹“跨界黑马”浮出水面。
作为此前凭借AI视频生成产品Vidu走红的创业公司,生数科技切入具身智能赛道并非跨界玩票。业内分析认为,视频大模型对物理世界的空间关系、时序逻辑、物体交互规则的长期训练,刚好补上了传统具身智能模型的核心短板——过往多数具身智能方案仅针对特定场景训练,换个环境就要重新调参,泛化能力不足始终是落地最大障碍。
从测试数据来看,MotuBrain在考察物理规则理解能力的WorldArena基准中,对非结构化场景的识别准确率较第二名高出12%;在考察动作执行精度的RoboTwin2.0基准中,其应对外力扰动后的轨迹修正速度比行业平均水平快40%,是唯一在全场景测试中平均分突破95分的模型。
不同于传统具身智能“先感知建模、再规划执行”的串行架构,MotuBrain采用了创新的世界动作模型(World Action Model)技术路径,实现了“边看边动”的并行决策逻辑:机器人在感知周边环境的同时同步完成行动推演,感知误差不会传导到执行层被放大,不仅大幅提升了响应速度,还解决了复杂场景下的动作失控问题。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 天前
2026年4月28日,商汤科技正式发布并开源日日新SenseNova U1系列原生多模态模型,该产品基于商汤2026年3月自主研发的NEO-unify架构,摒弃主流拼接式设计,去除视觉编码器与变分自编码器,首次在单一框架下实现多模态理解、推理与生成的深度统一,标志着多模态AI从“集成式”向“原生统一”的核心技术跨越。

2 天前
2026年4月,腾讯 Robotics X 实验室与混元团队联合发布并开源了专为机器人具身任务优化的多模态大模型HY-Embodied-0.5-X。该模型推出MoT-2B端侧版与MoE-32B大参数两个版本,基于自研架构优化,强化机器人“感知-决策-执行”能力,在精细操作、空间推理等核心任务上表现突出,旨在推进具身智能机器人在真实场景的落地。

3 天前
2026年4月,小米正式开源旗下视觉-语言-动作(VLA)大模型Xiaomi-Robotics-0的真机后训练全流程,推动全球具身智能技术研发与落地。该模型依托预训练基座,仅用约20小时的任务数据训练,就能让机器人完成耳机精准收纳等高难度操作,实现亚毫米级对位精度。本次开源开放了模型权重、源代码与技术报告,大幅降低了具身智能领域的研发门槛。

10 天前
2026年4月国家统计局发布最新AI产业运行数据显示,我国人工智能日均Token调用量已突破140万亿次,较去年末增长超40%。这一里程碑数据标志着国内AI产业已从技术实验验证阶段迈入规模化应用期,当前腾讯、阿里巴巴加码底层“世界模型”研发,特斯拉推进具身智能硬件落地,多赛道共同推动AI产业格局加速重构。

12 天前
2026年4月15日,字节跳动Seed团队正式发布多模态视频生成模型Seedance 2.0的技术论文《Seedance 2.0:推动视频生成应对复杂世界》,系统披露该模型的四大核心技术能力与全维度评测结果,标志着国内视频生成技术在复杂场景适配层面实现新突破,受到全球AIGC领域从业者的广泛关注。

12 天前
2026年4月16日英伟达正式推出3D场景生成系统Lyra2.0,可依托单张照片生成延展90米的高连贯性3D虚拟环境,攻克长距离相机路径下的图像失真痛点,基准测试中在图像质量、相机控制等维度优于GEN3C、Yume-1.5等6款竞品,快速版本生成效率提升13倍,将有效满足具身智能训练对高质量虚拟场景的迫切需求。

13 天前
4月16日,戴盟机器人联合Google DeepMind,携手中国移动、新加坡国立大学等海内外数十家产学研机构,正式发布全球最大规模含全模态触觉信息的物理世界具身数据集Daimon-Infinity。该数据集将触觉信息纳入具身智能训练主干,可将机器人训练效率提升10倍,目前已向全行业开放10000小时标注数据,年内整体规模将扩展至数百万小时。

13 天前
2026年4月16日,波士顿动力宣布完成旗下Spot机器狗的AI能力升级,本次升级是波士顿动力与谷歌DeepMind达成的合作成果,双方将面向机器人场景开发的Gemini Robotics-ER1.6模型集成进Spot的自主决策系统,升级后的Spot在工业泄漏识别、仪表读数读取等核心工业检测任务上的能力获得显著提升,进一步拓展了四足机器人在高危工业场景的落地空间。