300美元跑通世界模型！比老黄便宜10倍

新智元报道【新智元导读】世界模型第一次塞进指甲盖芯片！X-Era Lab与星宸科技联手，成本砍掉90%，具身智能终于不靠云端活了。风筝和鸟，都能飞翔。但风筝长不出方向，是远处的手借风借线，决定它自由或回落；而鸟却长在自己的翅膀上，俯冲与停栖都来自大脑意志，无需指令。过去的具身智能像风筝：越飞越高，却被「延迟」系在云端，现实里一只倾倒的杯子、一场骤雨就让它崩乱，风会乱，线会断，真实世界等不起信号往返云端。 X-Era Lab（拓元智慧）和星宸科技最近做成的一件事，正是把风筝变成鸟—— 他们把自研的世界动作模型 VWA，跑进了一颗指甲盖大小的端侧芯片，完成了「感知—预测—控制」的全链路闭环。这次，他们剪断了那根线，让具身智能第一次，飞在自己的翅膀上。 X-Era Lab 与星宸科技联合推出的首款端侧世界模型解决方案把「大脑」真正装回身体一个产品最原始的出发点，决定了它后来所有的形状，也决定了它日后会在哪里走形。一件事如果同时背着「炫技」「拿融资」「赶风口」太多目的，就会从「为用户解决真问题」，悄悄变成「替团队完成一场表演」。动作开始替老板做、替发布会做，而不再替那只要去抓住正在倾倒的杯子的手做。而 X-Era Lab 把发心收敛到了一件事上：做全球第一个原生的世界动作模型。说穿了很朴素，如果不能稳稳托住现实生活里的一只杯子，再酷炫的 PPT 又有什么用。所以它从第一天就认定，推理这件事，必须发生在机器人本体上。具身智能的上半场，比的是谁的模型更大。下半场要回答的，是另一个更朴素的问题：谁能把「大脑」真正装回身体，让它在真实世界里跑起来，并且足够便宜地跑起来。世界模型必须走到端侧把模型放云端、机器人传画面回来等指令，这套链路在大模型时代很顺手，可一进物理世界就处处碰壁。说到底，那根「线」还在。这个道理几乎人人都懂。自动驾驶不能只靠云端决策，肉眼看见的绿灯，等画面传上云、决策再传回来，可能已经变成了红灯。云端能告诉你「世界长什么样」，却赶不上回答「此刻该怎么办」。工业场景里，亚毫米级的精密放置，机械臂的容错只有零点几毫米，决策一滞后，物体就被推过了头。家庭场景同样如此，一个几十公斤的机器人，若对人的状态判断慢了半拍，一个抬手就可能伤到人。在物理世界里，迟到的正确，约等于错误。而在带宽上，世界模型同样需要本地处理。大语言模型往云端传的是文本，带宽要求很低；可世界模型要「理解世界」，一旦是多传感器、多模态融合输入，上行带宽会急剧膨胀。在 X-Era Lab 研发总监蒲韬看来，这正决定了两类模型的命运：大语言模型可以留在云端，世界模型必然走向端侧。文字可以打包托运，而世界，太重了，传不动。依托端侧芯片把世界模型从云端搬到智能体上现阶段云端方案大多以 Token 使用量作为收费标准。然而理解物理空间所需要的 Token 用量远超现在的大语言模型所需，这使得具身智能商业化迟迟无法落地。一台机器人卖二十万，不便宜，但一算账才发现，反而是其整个生命周期中需要消耗的 Token 更有可能是个天文数字，谁都不敢保证上限在哪。这导致厂商看不到利润空间，客户估不准落地成本。而一个算不清账的商业模型，没有人敢真的下场。 X-Era Lab 的 CTO 陈添水觉得，国内硬件几乎都是一次性买断，极少订阅制能成立，原因正在于此。把模型放到端侧，这笔账才变成确定的：芯片装上去，怎么用都是那个成本。隐私问题也在把世界模型推向端侧。Token 承载的隐私信息相对有限，但「理解世界」要持续处理大量视觉与空间信息，家里长什么样、生产线在做什么，这些远比一段文本敏感。一旦这些数据必须上传云端才能用，许多场景从一开始就不会向你敞开。把世界搬到云上的那一刻，很多扇门就已经关上了。延迟和带宽，逼着世界模型往端侧走；成本和隐私，决定它走到端侧之后生意能不能做。前者是物理约束，后者是商业约束，两股力气，把答案推向同一个方向。对世界模型来说，走向端侧不是一道选择题，而是一道必答题；而它们共同指向的那个词，是确定性。这正是 X-Era Lab 从第一天就选端侧的理由。能塞进端侧的是为端侧而生的模型在市场上，相比友商 Thor-U 芯片动辄 3000 多美元的方案，他们想让世界模型跑在两三百美元的芯片上，但靠事后裁剪是塞不进去的，这个模型从娘胎里就为端侧而生。要看清 VWA 的不同，得先看看别人怎么走。当下的「世界模型」，大多走两条路线。一条是 VLA，建立在多模态大模型之上，加一个「动作专家」做改造；一条是以视频生成模型做内核，用 2D 表征渲染出 3D 世界。 VLA 的表征停留在语言模态——你问它面前的水瓶离自己多远，它能答「大概三十厘米」，但实际可能是十厘米，这是无法容忍的误差。视频生成模型停在 2D 像素空间，对真实 3D 刻画不足，做动作前还要先生成视频，成本高，2D 到 3D 的误差层层累积。一个把世界「说」出来，一个把世界「画」出来——可机器人要的，是把世界「算」出来。 X-Era Lab 的世界动作模型（VWA），绕开了两条路线面临的障碍。据陈添水介绍，VWA 在底层架构上做了三件事： 1. 把物理与动作向量放进同一个 Token 内联合建模，再加上时序维度，共同构成 4D 数据； 2. 没有沿用现成的多模态大模型骨干，而是专门为几何与动作设计了预训练网络； 3. 让预训练和后训练的目标保持统一。别人是在后训练阶段、针对特定场景「打补丁」，而 VWA 在预训练阶段就把对物理世界的理解灌进了模型。把三条路线摆在一起，差异其实落在同一个问题上：模型对「世界」的理解，到底停在哪一层？ VLA 停在语言层，所以它只能把物体的位置估个大概；视频生成式停在 2D 像素层，做动作前先得生成画面，3D 信息在这一步就漏掉了精度。原生世界动作模型的 4D 表征 VWA 通过预测未来的 4D 世界来建模真实物理世界，也就是刻画 3D 空间随时间如何变化。在这样统一的时空表征中，场景的深度结构、机器人的动作轨迹，以及交互过程中蕴含的接触、碰撞、形变等物理规律，都可以被放在同一套模型里联合学习。不同于许多基于视频生成的世界模型，VWA 不把主要算力消耗在纹理、光影、背景等与动作决策弱相关的视觉细节上，而是绕过这些表象，直接建模三维几何和时序运动。当模型学习点云如何位移、物体如何碰撞、形变如何发生时，它学到的不是「世界长什么样」，而是「世界会怎样变化」。更关键的是，X-Era Lab 并不是把 4D 表征只当作后训练阶段的辅助工具，用来重建空间或合成数据；而是从预训练阶段就把 4D 作为统一底座，让物理理解、空间预测和动作生成落在同一套表征里联合学习。换句话说，别人是在用 4D 补数据，VWA 是从一开始就长在 4D 上。因此，VWA 能以更小模型完成更复杂任务，并不是靠后期裁剪或蒸馏硬挤出来的，而是因为它从源头减少了无效负担。不需要背一个庞大的多模态大模型骨干，也不需要反复生成冗余视频画面。它把参数和算力集中用在与机器人行动最相关的空间、时间和物理规律上。这也是 VWA 同时具备端侧部署可行性和 Scaling Law 潜力的根本原因。 V

订阅66必读