最大开源第一视角数据集 EgoLive 来了，名校站台、近百家机构争相申请

具身智能下半场，得“第一视角”者得天下最近几个月，具身智能赛道太火了。这种火爆在资本侧体现得尤为明显。仅 6 月前 17 天，具身智能赛道就发生了 11 起投融资事件。6 月 16 日，极佳视界宣布完成 10 亿元 B2 轮融资，资金将用于物理 AGI 基础模型研发迭代，以及 C 端家庭场景和 B 端工业场景规模化落地，前一日，世航智能宣布完成 A 轮融资，大晓机器人完成天使+轮融资。另据 IT 桔子数据，今年一季度，具身智能领域已发生投融资事件 132 起，融资金额合计 318.61 亿元。资本热度背后，是行业对具身智能产业化拐点的期待。但热钱并不意味着问题已经解决。相反，随着更多企业进入本体、模型、控制、灵巧手和场景应用，行业短板也更清晰地暴露出来：机器人要真正进入家庭、仓储、零售、医疗、工业等场景，仍然缺少足够真实、足够规模化、能够支撑模型训练和验证的数据。这也是具身智能下半场真正困难的地方。模型需要理解人看到什么、先拿什么、为什么换一种抓取方式、遇到遮挡如何调整、失败后如何恢复。这些细节，很难只靠文本、普通视频或仿真环境补齐。过去，具身智能数据主要来自三条路径：真实机器人原生数据、仿真数据和主从遥操作数据。真实机器人数据最贴近物理世界，但采集成本高、周期长，还容易受机器人硬件结构和动作空间限制，难以跨机型复用；仿真数据成本低、可批量生成，但始终存在虚实鸿沟，模型迁移到真实场景后容易掉性能；遥操作数据能提供机器人可执行的动作轨迹，但依赖专业设备和熟练操作人员，链路复杂，也容易和具体机型绑定。也正因为这三条路径很难同时满足真实、低成本、可规模化和可泛化的要求，第一视角数据才变得越来越重要。相比第三视角数据，它更接近操作者当时看到的世界；相比遥操作数据，它更容易在真实场景中规模化采集；相比纯仿真数据，它又保留了真实物理环境中的长尾变化。近年来，英伟达 FLARE、Meta Ego4D / Ego-Exo4D、苹果 EgoDex 等项目都在加码第一视角数据。而在今年4月，京东开源了当前业界最大规模的人类第一视角数据集 EgoLive ，首批开放 2000 小时视频、65,866 个 episode、346 个真实世界任务，覆盖家庭、仓储、药房等场景。目前，EgoLive 已收到来自 8 个国家及地区的近百家高校及科研机构申请。从使用反馈来看，高质量第一视角数据的稀缺性也得到了进一步验证。据清华大学、北京航空航天大学、中山大学、上海交通大学、南洋理工大学等海内外高校与科研机构集体反馈，EgoLive是当前行业中极为稀缺的可用第一视角数据集，在数据规模、任务覆盖和标注质量上具备很高的研究价值。这也从侧面说明，第一视角数据集正在成为具身模型训练和评估中的关键资源。 EgoLive 论文地址： https://arxiv.org/html/2604.23570v1 " 图注：与具身操作和人到机器人迁移相关的代表性人类第一视角数据集对比。只有当某一模态在该数据集的主要公开版本中提供时，表中才将其标记为具备该模态。EgoLive 面向真实世界场景，在采集时长上位居第二，同时在时空分辨率和标注完整性方面具有更优表现。 2000小时第一视角开源王炸数据集，EgoLive 的价值是什么？如果说第一视角数据正在成为具身智能训练的重要入口，EgoLive 更值得关注的地方在于，它并没有停留在“收集更多视频”这一层，而是试图把真实世界中的人类操作过程，整理成一套可以被模型训练、评测和复用的数据资产。这也是它和普通第一视角视频数据最大的差别。 EgoLive 的独特性主要体现在三个层面：一是用更接近人类自然行为的方式采集数据；二是把第一视角视频加工成带有几何、动作和语义信息的多模态数据；三是通过真实场景和长尾任务覆盖，提高数据对具身模型泛化能力的支撑价值。首先是采集方式。此次数据采集是由京东自研的头戴式采集设备 JoyEgoCam 完成。设备上有双目 RGB 相机，能提供类似人类双眼的宽视场；同时集成 IMU，IMU 频率是 200Hz。视频是 2160×2160、60Hz 的双目 RGB 数据，并配套相机标定文件、触发帧时间戳和同步 IMU 数据。图注：人体数据采集系统该系统采用 JoyEgoCam，这是一款定制设计的头戴式设备，用于在真实环境中采集人体行为数据。它配备立体 RGB 摄像头，提供宽广的视野，并集成 IMU，测量频率为 200Hz。这套设计的巧妙之处在于减少对人的干扰。它和 VR 头显不同，不会遮挡人的脸，也不像一些可穿戴设备那样影响手部动作，采集者可以比较自然地做日常动作。这样一来，采集者可以在家庭、零售、药房等真实场景中更自然地完成任务，系统则从人的第一视角记录整个操作过程。其次是标注方式，也是 EgoLive 数据集上的主要技术突破。第一视角数据的难点不只是采集，更在于标准化处理，操作者在移动、低头、转身时，画面会抖动；手与物体之间经常相互遮挡；一个完整任务又往往包含多个连续步骤。如果只把视频直接交给模型，里面大量有价值的信息仍然是“隐形”的。围绕人类第一视角视频数据，京东探索研究院研发了一整套多模态、高精度的自动化处理算法，可提供手部关键点、深度重建、手物分割、子任务切段、语义描述等多维标注信息。尤其在3D 场景恢复和 3D 轨迹重建方面，EgoLive 取得了业界领先精度：场景恢复达到毫米级精度，约3～5mm；3D轨迹重建达到厘米级精度，约1～1.5cm。这套能力为行业第一视角数据处理提出了具有京东特色的标准，也为具身智能模型训练提供了更充分、更精确的信息基础。换句话说，EgoLive 并不是简单把人类第一视角视频堆成一个数据池，而是把一个连续操作视频拆解成多层结构化信息：哪只手参与了操作，手部关节和手腕在三维空间中如何运动，操作者正在接触哪个物体，物体在画面中的位置和轮廓是什么，当前动作属于整个任务的哪一步，以及这一步可以怎样用语言描述。从技术层面来看，京东团队把这套自动标注能力拆成三个模块：运动追踪、语义理解和 3D重建。在运动追踪上，EgoLive 会估计手腕和手部关节的 6D 轨迹，并与相机自身运动同步，建立动作参考坐标系。系统先基于 HaMeR 估计手部 MANO 参数，再结合双目空间做优化；相机位姿则通过 ORB-SLAM3 融合双目 RGB 和 IMU 数据估计。这样，数据不只记录“手在画面哪里”，还记录“手在真实三维空间中如何移动”。在语义理解上，系统会检测人手和被交互物体，并通过跟踪、分割和大模型生成自然语言描述。EgoLive 使用 BoT-SORT 进行跟踪，用 SAM2 生成手和交互物体的分割 mask；每个 episode 会根据手物检测与跟踪结果切分成多个 sub-task，再由微调后的 Qwen3-VL-32B 对子任务片段生成细粒度描述。这样做的目的，是让数据同时具备视觉、动作和语言层面的监督信号。在3D重建上，EgoLive 利用双目视觉恢复场景深度和空间结构。系统使用 Foundation Stereo 从精细标定后的双目 RGB 视频中重建 1152×1152 分辨率的深度图。深度信息能帮助模