宿迁的机器人导师军团，正炼制千万小时“数字燃料”

成千上万居民，一边做着家务或者干着农活，一边参与全球规模最大的AI行动。这样的事，现在每天都在江苏的宿迁发生。这些居民头戴的数据采集设备，会记录下他们擦桌子、炒菜、缝纫服装、照顾老人、剪枝摘果等各种动作数据。人们可能并不完全了解这件事的价值，但它确实在解决具身智能产业的根本瓶颈——“数据荒”。机器人学习的不是知识，而是经验过去几年，中国机器人的硬件与运动控制技术——“小脑”发展迅猛。四足机器人攀爬山地、人形机器人跑马拉松……在电机、减速器、关节控制等物理层面，中国企业交出了令世界瞩目的成绩单。中商产业研究院数据显示，2025年中国具身智能市场规模约9150亿元，同比增长20.4%，预计2026年将突破10900亿元。然而，硬件竞赛的热闹背后，一个短板日益凸显：机器人缺乏真正的“大脑” 。那些能表演、能炫技的机器人，无法理解真实的物理世界，连拧瓶盖、磕鸡蛋这类基础动作都做不好，遑论走进家庭与工厂。问题的根源在于数据。训练一个具备泛化能力、适配多场景的高质量具身大模型，行业共识是需要数千万小时甚至上亿小时的训练数据。而现实是，全行业能获取的具身相关数据集加起来不过几十万小时—— 差了足足两个数量级。物理AI真机交互数据量，不足大语言模型的两万分之一。这不是单纯的技术问题，而是一场结构性短缺。更被低估的是数据质量与生产逻辑。许多人以为架几台摄像机拍下人类动作即可，但原始视频对机器人训练几乎毫无价值——它只记录了“发生了什么”，而机器人需要知道“怎么发生的”：手在哪里、物体在哪里、三维空间结构如何、动作意图是什么……这些信息必须经过精密处理与专业标注，才能转化为有效数据。机器人学习的不是知识，而是经验。它需要知道如何抓起装满水的杯子、如何调整力度、如何在失败后修正动作。这些人类长期积累的“操作经验”从未被数字化。正是这一痛点，让行业目光集中到一种此前被忽视的数据类型上—— 第一视角人类操作数据。为什么巨头都在争夺“第一视角数据” 过去一年，第一视角（Ego-centric）人类操作数据，正在成为全球具身智能领域最稀缺的资源。英伟达、Tesla、Figure、1X等公司纷纷大规模采集人类操作视频，用于训练机器人的模仿学习（Imitation Learning）。相比传统互联网视频只能告诉模型“发生了什么”，第一视角数据能让机器人理解 “动作为何这样发生” 。它不仅记录结果，还保留了视线移动、手眼协同、空间关系、动作修正以及长任务决策链——这些隐性信息，正是机器人形成泛化能力的关键。英伟达今年提出的EgoScale框架，明确将大规模第一视角数据视为机器人训练的核心基础设施。研究发现，随着这类数据规模持续扩大，Vision-Language-Action（VLA）模型的真实任务成功率会稳定提升。机器人领域正在出现类似大模型的数据规模定律（scaling law）：模型能力上限，取决于真实世界行为数据的规模与质量。然而，这类数据过去几乎不存在。实验室的标准化数据无法覆盖现实场景的随机性——仓库包裹每天不同，家庭环境不断变化，布料会褶皱滑动。这意味着，具身智能最终竞争的，不只是模型能力，更是谁能持续获得大规模真实场景中的第一视角人类数据。为什么是京东做这件事今年3月，京东官宣启动人类历史上最大规模的具身数据采集行动：两年内动员超过10万名内部员工、50万外部协作人员，在宿迁就会有10万人参与，完成 1000万小时无本体真实场景视频数据，外加100万小时机器人本体数据。这背后真正的稀缺资源不是采集设备，而是场景。目前行业多数公司依赖实验室采集或小规模众包，难以持续获得高频、长流程、跨场景的人类操作数据。而京东的特殊性在于，它是中国少数同时拥有超大规模真实产业流、物流流与劳动流的平台型企业：3600多个智能库房、遍布全国的配送站、超万家线下门店、20余万家合作药房，同时还是全国规模最大的家政服务公司，5万多名家政人员服务千万家庭——零售、物流、健康、家政、工业全场景覆盖。基于场景优势，京东打造了全球首个采、存、标、训、评、仿、测全链路具身智能数据基础设施。在数据采集端，JoyEgoCam通过车规级传感器与4K镜头完成第一视角采集，即便在快递分拣、货物搬运等高速运动场景下，也能稳定记录操作过程。在数据处理端，原始视频进入京东云AI数据湖后，会经过任务切分、语义标注、深度重建、手势关键点定位等处理，最终转化为机器人可直接学习的结构化数据。治理完成的数据再接入京东云JoyBuilder模型开发平台，模型训练效率提升了3.5倍——过去训练1亿+数据的千卡训练时间需要15小时，如今仅需22分钟。基于这套数据体系训练的JoyAI-RA具身大模型，在仿真与真机测评中，任务执行平均成功率达到73.5%，超过英伟达GR00T N1.6、Physical Intelligence Pi0.5等行业头部模型。在宿迁，居民在家当“机器人老师” 5月20日，京东宣布全国首个具身智能数据采集社区已在宿迁正式运行。这是京东今年3月宣布建设全球最大具身数据采集中心以来，在具身智能数据基础设施建设方面的又一重要进展，也标志着京东距两年内积累超1000万小时人类真实场景视频数据的目标更进一步。这座苏北城市与京东的渊源可追溯二十余年。这里不仅是刘强东的老家，也是京东早期重要的客服中心与物流基地，宿迁积累了大量熟悉电商物流场景的劳动力，当京东的数据采集需求与宿迁的人力资源相遇，一种新的产业合作模式便自然生长出来。从电商中心、客服中心、物流枢纽、再到今天的具身智能布局，京东在宿迁投资已超过200亿元。在宿迁，参与数据采集的市民分布在各行各业，果园、服装厂、康养机构……他们摘果子、折衣服、递药杯、搬货，日常劳作被JoyEgoCam精准捕捉。这些市民成为真正的 “机器人老师” ，他们的真实行为动作为机器人提供了理解人类操作的优质“教材”。这是一种双赢：京东获得高多样性的真实场景数据；宿迁迎来一批全新数字职业——数据采集师、数据标注师、数据处理师、质量检验师，实现家门口的高质量就业。这也回应了社会关切的重要命题：具身智能并非只会替代就业，而是可以创造新职业、带动劳动者共同成长。更深层的意义在于，这是一条数字经济时代的产业下沉新路径：将前沿科技的基础能力落地地方，与本地就业深度绑定，让数据生产与价值收益实现本地化共享。宿迁继电商物流之后，再次迎来关键发展机遇。这一模式未来可复制到更多城市，形成可规模化的数字经济样板。不做封闭的数据王国：京东要当行业的“水电煤” 为了进一步提升数据规模，京东还推出了Real to Sim数据泛化服务：将真实人类动作转化为仿真数据，再通过Sim to Real反向渲染生成逼真的机器人训练数据，实现数据高效扩增。这意味着，机器人数据开始具备类似“自我繁殖”的能力。在整个过程中，数据基础设施的重要性，开始超越单一模型本身。京东收集的数据，并非只用于自身模型，而是以行业基础设施的定位，为全行业提供数据支撑。京东具身智能数据交易平台已正式上线，首批定向开放 EgoLive高精标注数据集，这是目前业内质量最高的开源数据集：60FPS超高帧

订阅66必读