近5000平米的“数据工厂”里,人类手把手教机器人“洗盘子”

专属客服号

微信订阅号
大数据治理
全面提升数据价值
赋能业务提质增效
怎样才能教会一个“人”洗碗、叠被、拿东西?
对于人类来说,这是刻在骨子里的肌肉记忆;但对于一台刚刚制造出来的机器人而言,它可能连拿起一块毛巾的力道都无从知晓。
3月19日,第一财经记者走进北京人形机器人创新中心具身智能机器人数据与训练基地一期,近5000平米的空间里,没有冰冷的流水线,而是复刻了家庭、商超、工业、医药、康养等真实场景。100多台形态各异的机器人,在人类操作员的“手把手”教导下,正经历着从“笨拙”到“丝滑”的蜕变。
没有数据的机器人,就像没有油的车。在这个巨大的训练场里,最忙碌的可能不是机器人,而是背后的一个个配备了采集设备或是身穿动捕服等专业装备的人类操作员和质检团队。人类正在用数据为未来的伙伴“加油”。

人类教机器人洗盘子、换尿不湿
基地里没有巨大的厂房,而是分隔出了一个个高度仿真的工作、生活切片。人类操作员戴着VR头显或通过遥操作设备,将自己的动作转化为机器人的指令。
在“养老院”场景中,一台机器人正小心翼翼地为假人模特盖被子;转角处的“儿童房”,另一台机器则在练习给婴儿更换尿不湿,厨房场景里,机器人正在小心翼翼地清洗餐盘。这些动作看起来简单,但对机器人来说却是高难度的“精细操作”。
“你不能只是操作机器动起来,动作必须像人类一样自然、流畅。”现场工作人员介绍道。基地里还有不少在“工业区”忙碌的机械臂,它们正在学习分拣零件、拧螺丝,甚至为未来的电力巡检做准备。
在更为复杂的“综合训练场”,不仅复制了办公桌、卫生间,还特意搭建了冷冻区、烘焙区和酒水区。从家庭厨房的精细操作,到商超货架的自动理货,这里的每一处场景都遵循“真实、泛化、可复用”的原则。
据介绍,这些场景并非静态的“样板间”,而是可动态配置、可组合重构的“数据工厂”。场景内的光照条件、物体摆放、人员动线均可按需调整,确保采集数据具备充分的泛化能力,能够覆盖算法训练所需的边缘案例与长尾场景。
在基地里,这种针对机器人的“沉浸式教学”并非简单的遥控,而是“数据投喂”。工作人员透露,目前基地拥有超过120台设备,日产能达到400小时,正全力为内部算法团队及外部合作伙伴如机器人企业和大模型公司们,“投喂”着海量的训练数据。
在这个基地里,最忙碌的是人类操作员。数据采集涉及动作捕捉、多模态同步、人工标注等环节,任何环节偏差都可能产出“低质数据”,低质数据浪费资源甚至误导模型。
具身智能机器人数据与训练基地负责人蒋未来告诉第一财经记者,三个月前,这里的数据合格率仅为50%。“那时候我们面临各种各样的挑战,比如灯光太亮导致画面曝光,或者机器人手臂不小心碰到了不该碰的道具。”
这背后经历了无数次的人员培训、流程建立、问题追溯与质量标准优化,经过几个月的磨合,现在的合格率已经稳定在95%。这意味着,每一条被采纳的数据,都必须是“示范动作”。
尽管数据的“合格率”在攀升,但当记者真正走近这些正在学习的机器人时,依然能清晰地感受到另一重现实:从“会做”到“做好”,再到“像人一样快”,中间还隔着一段不短的距离。
在“婴儿护理”场景中,一台机器人正以明显慢于常人的速度,小心翼翼地给婴儿道具更换尿不湿。如果是在真实场景下,那个哇哇哭闹的婴儿恐怕早就翻身爬走。不远处,正在学习整理货架的机器人,每一次抓取和摆放,在效率上还远远赶不上熟练的人类理货员。这些略显“稚嫩”的操作,也映射了揭示了当前人形机器人产业最核心的焦虑——数据量在增长,但机器人离真正的“干活”,还要继续努力。
据介绍,目前这个成立不到半年的数据基地已对外交付近2万小时高质量数据,70% 以上的产能用于服务行业客户,为模型训练、具身大脑研发提供核心数据支撑按照规划,这座基地正向着“100万小时高质量数据”的目标迈进。
蒋未来透露,目前主流客户的数据需求已经达到“十万甚至几十万小时”的量级,与去年相比“至少乘以10”。

“数据孤岛”与“窗户纸”
人形机器人想要真正走入千行百业,需要的是海量、多样、高质量的数据“原料”。其中,真机数据能够精准还原力觉反馈、触觉信息、环境干扰等仿真难以复制的细节,这些被称为“物理直觉”的关键信息只能通过真机采集的多模态数据来训练。更重要的是,真实环境中完整的任务闭环,一条简单的“抓取-操作-放置”轨迹中蕴含了大量人类在复杂环境中的隐性决策,其数据价值密度远高于其他类型的数据。
在现场,记者注意到一个细节:在水果相关展示区,机器人拿取的全部都是假水果。
“我们最早是用真苹果训练的,但一天下来要消耗大量苹果,成本太高且浪费。”蒋未来解释道,对于模型来说假水果和真水果差别不大。
资产折旧、人员效率、损耗率,这三个因素直接决定数据成本。目前真机采集的数据每小时成本不低,且涉及资产折旧和人力损耗。
此外,随着人形机器人产业的爆发,不同构型机器人之间“方言不通”导致的数据孤岛问题日益凸显。不同品牌的机器人传感器布局、关节自由度、控制接口各不相同,使得采集到的数据往往难以直接跨机型复用。为了打破这一壁垒,数据基地正在布局更多的采集技术路线。
行业正在探索几种路径:一是“无本体”采集路线,即通过头显、动捕设备等方式采集人类动作数据,再映射到不同机器人身上;二是世界模型的探索,试图从更底层的逻辑实现数据与机器人构型的解耦。
蒋未来对记者透露,目前基地也在探索“无本体”采集和遥操作舱等新模式。其中无本体的采集方式能够在一定程度上解耦数据与特定机器人的强绑定关系,理论上可以扩大规模、解决数据孤岛问题,但它的有效性还需要更多检验。一旦跑通并达到与真机同样优异的训练效果,就能极大丰富数据规模,推动统一数据交易市场的形成。
一边是底层技术的攻关,另一边,人形机器人走向商业落地的路上,还有多层“窗户纸”需要捅破。
“去年大家肉眼可见,机器人的全身运控水平上来了。”蒋未来话锋一转,但要真正进厂打工、下地干活,今年要解决几个问题:完全自主的导航,精度要比车高得多——车离一米没问题,机器人要走不到位,动作就完不成;然后是双手的精细操作,灵巧手的稳定性、精度、负载能力都需要突破;最后是大脑,能理解环境、拆解任务、串联逻辑等等。
他打了个比方:就像ChatGPT出来之前,没人能预测大模型需要多久突破。对于人形机器人,乐观者觉得1到2年内会有质变,也有人认为需要更长时间。这是一个一层一层捅窗户纸的过程,每一层的突破都需要时间,但一旦突破了,技术扩散的速度会很快。

