2026年3月31日,蚂蚁灵波科技正式开源大规模RGB-D深度数据集LingBot-Depth-Dataset,总规模达2.71TB,包含300万对高质量样本,其中200万对为真实场景采集、100万对为渲染生成,覆盖6款主流深度相机,是当前开源社区规模最大的真实场景RGB-D数据集,将为具身智能、三维视觉、空间感知等领域研发提供核心数据支撑。
在具身智能、三维视觉领域,训练数据的真实性和丰富度,直接决定了AI模型的落地效果。但长期以来,公开渠道可获取的深度数据集普遍存在规模不足、真实场景占比低、适配硬件单一等问题,大量合成数据与真实传感器的成像特性存在明显偏差,不少研发团队不得不投入大量人力财力自行采集数据,拖慢了技术落地节奏。
此次开源的LingBot-Depth-Dataset,是目前开源社区中规模最大的真实场景RGB-D数据集,核心参数远超行业同类开源项目:总容量达2.71TB,共包含300万对高质量样本,其中200万对来自真实场景采集,覆盖家居、办公、工业生产等多个具身智能核心落地场景,剩余100万对为渲染生成样本,用于补充真实场景难以覆盖的极端情况。
不同于多数公开数据集仅适配单一硬件,该数据集覆盖了市面上6款主流消费级、工业级深度相机,同时提供传感器原始深度图与真值深度图,研发团队无需额外完成硬件适配和数据标注,即可直接用于模型训练与效果评估,大幅降低了研发门槛。
RGB-D数据是AI实现空间感知的核心基础,不管是服务机器人的避障导航、AR设备的空间定位,还是工业检测的三维重建,都依赖高质量的深度数据训练。此前行业常用的公开数据集样本量普遍不足百万级,且真实场景占比不足30%,训练出的模型往往在实验室环境下表现优异,落地到真实场景就容易出现识别误差大、适配性差等“水土不服”问题。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
4 小时前
2026年4月4日,大模型厂商Anthropic正式官宣生态政策调整:从美国东部时间4月4日15点(北京时间4月5日3点)起,旗下Claude大模型将禁用OpenClaw等第三方工具,用户后续仅能通过额外付费套餐或Claude API Key调用相关工具。该政策将率先在OpenClaw落地,未来覆盖全部第三方工具链,是大模型厂商收紧生态控制权、加速商业化的标志性动作。

10 小时前
近期Meta、微软、谷歌等海外头部科技企业相继公布天然气电厂建设计划,为旗下高速扩张的AI数据中心提供稳定电力支撑。随着生成式AI普及,单座AI算力中心能耗是传统数据中心的3-5倍,现有公共电网已难以满足企业爆发式算力供电需求,化石能源供电方案也引发了业内对碳目标达成、长期运营风险的广泛讨论。

11 小时前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。

11 小时前
2026年以来,微软、Meta、Google等全球科技巨头先后启动配套天然气发电厂建设项目,以满足AI大模型训练、推理所需的超算数据中心爆发式增长的能耗需求。行业测算显示,头部AI算力集群的单位能耗是传统数据中心的5-10倍,这一能源布局已引发行业关于碳排放、长期能源结构合理性的广泛讨论。

11 小时前
近期Anthropic源代码泄露事件中,安全研究者发现针对其旗下代码大模型Claude Code的新型prompt逃逸攻击路径,可绕过内容安全审查执行违规操作,而该类漏洞此前Anthropic公开表示已完成修复。目前该漏洞可导致代码生成环节出现恶意植入、数据泄露等风险,Anthropic尚未就新漏洞给出官方回应。

11 小时前
美国科技媒体Digital Trends近期发布的行业调查显示,全球已有超6成大中型保险公司引入AI系统负责核保风控、理赔核查等核心业务环节。美国消费者权益组织2024年调研数据显示,37%的拒赔案例由AI算法单独判定,其中42%存在事实认定偏差,相关算法决策的公正性问题已引发多国监管部门重点关注。

11 小时前
2026年4月3日,全球人工智能头部企业OpenAI宣布完成对美国科技访谈节目运营商TBPN的收购。据英国《金融时报》知情人士披露,本次收购对价达小几亿美元,标的团队仅11人,2025年全年营收达3000万美元。本次交易是OpenAI强化对外传播能力、重塑公众叙事体系的核心战略布局,也是2026年开年以来AI领域金额最高的内容生态类收购案。

11 小时前
2026年4月3日,阿里通义实验室正式发布视频创作大模型Wan2.7-Video,该模型支持文本、图像、视频、音频全模态输入,可实现从画面结构、局部细节到时序剧情的多维度编辑,用户仅需输入自然语言指令即可完成捏脸、换角色、改剧情等操作,同时自动保持光影材质一致性,大幅降低专业视频创作门槛。