宿迁的机器人导师军团,正炼制千万小时“数字燃料”

2026-05-22 1 阅读 科技指北
成千上万居民,一边做着家务或者干着农活,一边参与全球规模最大的AI行动。这样的事,现在每天都在江苏的宿迁发生。 这些居民头戴的数据采集设备,会记录下他们擦桌子、炒菜、缝纫服装、照顾老人、剪枝摘果等各种动作数据。人们可能并不完全了解这件事的价值,但它确实在解决具身智能产业的根本瓶颈——“数据荒”。 机器人学习的不是知识,而是经验 过去几年,中国机器人的硬件与运动控制技术——“小脑”发展迅猛。四足机器人攀爬山地、人形机器人跑马拉松……在电机、减速器、关节控制等物理层面,中国企业交出了令世界瞩目的成绩单。中商产业研究院数据显示,2025年中国具身智能市场规模约9150亿元,同比增长20.4%,预计2026年将突破10900亿元。 然而,硬件竞赛的热闹背后,一个短板日益凸显: 机器人缺乏真正的“大脑” 。那些能表演、能炫技的机器人,无法理解真实的物理世界,连拧瓶盖、磕鸡蛋这类基础动作都做不好,遑论走进家庭与工厂。 问题的根源在于 数据 。训练一个具备泛化能力、适配多场景的高质量具身大模型,行业共识是需要数千万小时甚至上亿小时的训练数据。而现实是,全行业能获取的具身相关数据集加起来不过几十万小时—— 差了足足两个数量级 。物理AI真机交互数据量,不足大语言模型的两万分之一。这不是单纯的技术问题,而是一场 结构性短缺 。 更被低估的是数据质量与生产逻辑。许多人以为架几台摄像机拍下人类动作即可,但原始视频对机器人训练几乎毫无价值——它只记录了“发生了什么”,而机器人需要知道“怎么发生的”:手在哪里、物体在哪里、三维空间结构如何、动作意图是什么……这些信息必须经过精密处理与专业标注,才能转化为有效数据。 机器人学习的不是知识,而是经验。 它需要知道如何抓起装满水的杯子、如何调整力度、如何在失败后修正动作。这些人类长期积累的“操作经验”从未被数字化。正是这一痛点,让行业目光集中到一种此前被忽视的数据类型上—— 第一视角人类操作数据 。 为什么巨头都在争夺“第一视角数据” 过去一年,第一视角(Ego-centric)人类操作数据,正在成为全球具身智能领域最稀缺的资源。英伟达、Tesla、Figure、1X等公司纷纷大规模采集人类操作视频,用于训练机器人的模仿学习(Imitation Learning)。 相比传统互联网视频只能告诉模型“发生了什么”,第一视角数据能让机器人理解 “动作为何这样发生” 。它不仅记录结果,还保留了视线移动、手眼协同、空间关系、动作修正以及长任务决策链——这些隐性信息,正是机器人形成泛化能力的关键。 英伟达今年提出的EgoScale框架,明确将大规模第一视角数据视为机器人训练的核心基础设施。研究发现,随着这类数据规模持续扩大,Vision-Language-Action(VLA)模型的真实任务成功率会稳定提升。机器人领域正在出现类似大模型的 数据规模定律(scaling law) :模型能力上限,取决于真实世界行为数据的规模与质量。 然而,这类数据过去几乎不存在。实验室的标准化数据无法覆盖现实场景的随机性——仓库包裹每天不同,家庭环境不断变化,布料会褶皱滑动。这意味着, 具身智能最终竞争的,不只是模型能力,更是谁能持续获得大规模真实场景中的第一视角人类数据 。 为什么是京东做这件事 今年3月,京东官宣启动人类历史上最大规模的具身数据采集行动:两年内动员超过10万名内部员工、50万外部协作人员,在宿迁就会有10万人参与,完成 1000万小时 无本体真实场景视频数据,外加100万小时机器人本体数据。 这背后真正的稀缺资源不是采集设备,而是 场景 。目前行业多数公司依赖实验室采集或小规模众包,难以持续获得高频、长流程、跨场景的人类操作数据。而京东的特殊性在于,它是中国少数同时拥有超大规模 真实产业流、物流流与劳动流 的平台型企业:3600多个智能库房、遍布全国的配送站、超万家线下门店、20余万家合作药房,同时还是全国规模最大的家政服务公司,5万多名家政人员服务千万家庭——零售、物流、健康、家政、工业全场景覆盖。 基于场景优势,京东打造了全球首个 采、存、标、训、评、仿、测 全链路具身智能数据基础设施。 在数据采集端,JoyEgoCam通过车规级传感器与4K镜头完成第一视角采集,即便在快递分拣、货物搬运等高速运动场景下,也能稳定记录操作过程。 在数据处理端,原始视频进入京东云AI数据湖后,会经过任务切分、语义标注、深度重建、手势关键点定位等处理,最终转化为机器人可直接学习的结构化数据。 治理完成的数据再接入京东云JoyBuilder模型开发平台,模型训练效率提升了3.5倍——过去训练1亿+数据的千卡训练时间需要15小时,如今仅需22分钟。 基于这套数据体系训练的JoyAI-RA具身大模型,在仿真与真机测评中,任务执行平均成功率达到73.5%,超过英伟达GR00T N1.6、Physical Intelligence Pi0.5等行业头部模型。 在宿迁, 居民在家当“机器人老师” 5月20日,京东宣布全国首个具身智能数据采集社区已在宿迁正式运行。这是京东今年3月宣布建设全球最大具身数据采集中心以来,在具身智能数据基础设施建设方面的又一重要进展,也标志着京东距两年内积累超1000万小时人类真实场景视频数据的目标更进一步。 这座苏北城市与京东的渊源可追溯二十余年。这里不仅是刘强东的老家,也是京东早期重要的客服中心与物流基地,宿迁积累了大量熟悉电商物流场景的劳动力,当京东的数据采集需求与宿迁的人力资源相遇,一种新的产业合作模式便自然生长出来。从电商中心、客服中心、物流枢纽、再到今天的具身智能布局,京东在宿迁投资已超过200亿元。 在宿迁,参与数据采集的市民分布在各行各业,果园、服装厂、康养机构……他们摘果子、折衣服、递药杯、搬货,日常劳作被JoyEgoCam精准捕捉。这些市民成为真正的 “机器人老师” ,他们的真实行为动作为机器人提供了理解人类操作的优质“教材”。 这是一种双赢:京东获得高多样性的真实场景数据;宿迁迎来一批全新数字职业——数据采集师、数据标注师、数据处理师、质量检验师,实现家门口的高质量就业。这也回应了社会关切的重要命题: 具身智能并非只会替代就业,而是可以创造新职业、带动劳动者共同成长 。 更深层的意义在于,这是一条 数字经济时代的产业下沉新路径 :将前沿科技的基础能力落地地方,与本地就业深度绑定,让数据生产与价值收益实现本地化共享。宿迁继电商物流之后,再次迎来关键发展机遇。这一模式未来可复制到更多城市,形成可规模化的数字经济样板。 不做封闭的数据王国:京东要当行业的“水电煤” 为了进一步提升数据规模,京东还推出了Real to Sim数据泛化服务:将真实人类动作转化为仿真数据,再通过Sim to Real反向渲染生成逼真的机器人训练数据,实现数据高效扩增。这意味着,机器人数据开始具备类似“自我繁殖”的能力。在整个过程中,数据基础设施的重要性,开始超越单一模型本身。 京东收集的数据,并非只用于自身模型,而是以行业基础设施的定位,为全行业提供数据支撑。京东具身智能数据交易平台已正式上线,首批定向开放 EgoLive高精标注数据集 ,这是目前业内质量最高的开源数据集:60FPS超高帧