智能AI evening

300美元跑通世界模型!比老黄便宜10倍

2026-06-09 1 阅读 新智元
新智元报道 【新智元导读】 世界模型第一次塞进指甲盖芯片!X-Era Lab与星宸科技联手,成本砍掉90%,具身智能终于不靠云端活了。 风筝和鸟,都能飞翔。 但风筝长不出方向,是远处的手借风借线,决定它自由或回落;而鸟却长在自己的翅膀上,俯冲与停栖都来自大脑意志,无需指令。 过去的具身智能像风筝:越飞越高,却被「延迟」系在云端,现实里一只倾倒的杯子、一场骤雨就让它崩乱,风会乱,线会断,真实世界等不起信号往返云端。 X-Era Lab(拓元智慧)和星宸科技最近做成的一件事,正是把风筝变成鸟—— 他们把自研的世界动作模型 VWA,跑进了一颗指甲盖大小的端侧芯片,完成了「感知—预测—控制」的全链路闭环。 这次,他们剪断了那根线,让具身智能第一次,飞在自己的翅膀上。 X-Era Lab 与星宸科技联合推出的首款端侧世界模型解决方案 把「大脑」真正装回身体 一个产品最原始的出发点,决定了它后来所有的形状,也决定了它日后会在哪里走形。 一件事如果同时背着「炫技」「拿融资」「赶风口」太多目的,就会从「为用户解决真问题」,悄悄变成「替团队完成一场表演」。 动作开始替老板做、替发布会做,而不再替那只要去抓住正在倾倒的杯子的手做。 而 X-Era Lab 把发心收敛到了一件事上:做全球第一个原生的世界动作模型。 说穿了很朴素,如果不能稳稳托住现实生活里的一只杯子,再酷炫的 PPT 又有什么用。 所以它从第一天就认定,推理这件事,必须发生在机器人本体上。 具身智能的上半场,比的是谁的模型更大。 下半场要回答的,是另一个更朴素的问题:谁能把「大脑」真正装回身体,让它在真实世界里跑起来,并且足够便宜地跑起来。 世界模型必须走到端侧 把模型放云端、机器人传画面回来等指令,这套链路在大模型时代很顺手,可一进物理世界就处处碰壁。 说到底,那根「线」还在。 这个道理几乎人人都懂。自动驾驶不能只靠云端决策,肉眼看见的绿灯,等画面传上云、决策再传回来,可能已经变成了红灯。 云端能告诉你「世界长什么样」,却赶不上回答「此刻该怎么办」。 工业场景里,亚毫米级的精密放置,机械臂的容错只有零点几毫米,决策一滞后,物体就被推过了头。 家庭场景同样如此,一个几十公斤的机器人,若对人的状态判断慢了半拍,一个抬手就可能伤到人。 在物理世界里,迟到的正确,约等于错误。 而在带宽上,世界模型同样需要本地处理。 大语言模型往云端传的是文本,带宽要求很低;可世界模型要「理解世界」,一旦是多传感器、多模态融合输入,上行带宽会急剧膨胀。 在 X-Era Lab 研发总监蒲韬看来,这正决定了两类模型的命运:大语言模型可以留在云端,世界模型必然走向端侧。文字可以打包托运,而世界,太重了,传不动。 依托端侧芯片把世界模型从云端搬到智能体上 现阶段云端方案大多以 Token 使用量作为收费标准。 然而理解物理空间所需要的 Token 用量远超现在的大语言模型所需,这使得具身智能商业化迟迟无法 落地 。 一台 机器人 卖二十万,不便宜,但一算账才发现,反而是其整个生命周期中需要消耗的 Token 更有可能是个天文数字,谁都不敢保证上限在哪。 这导致厂商看不到利润空间,客户估不准 落地 成本。而一个算不清账的商业模型,没有人敢真的下场。 X-Era Lab 的 CTO 陈添水觉得,国内硬件几乎都是一次性买断,极少订阅制能成立,原因正在于此。把模型放到端侧,这笔账才变成确定的:芯片装上去,怎么用都是那个成本。 隐私问题也在把世界模型推向端侧。Token 承载的隐私信息相对有限,但「理解世界」要持续处理大量视觉与空间信息,家里长什么样、生产线在做什么,这些远比一段文本敏感。 一旦这些数据必须上传云端才能用,许多场景从一开始就不会向你敞开。把世界搬到云上的那一刻,很多扇门就已经关上了。 延迟和带宽,逼着世界模型往端侧走;成本和隐私,决定它走到端侧之后生意能不能做。前者是物理约束,后者是商业约束,两股力气,把答案推向同一个方向。 对世界模型来说,走向端侧不是一道选择题,而是一道必答题;而它们共同指向的那个词,是确定性。这正是 X-Era Lab 从第一天就选端侧的理由。 能塞进端侧的 是为端侧而生的模型 在市场上,相比友商 Thor-U 芯片动辄 3000 多美元的方案,他们想让世界模型跑在两三百美元的芯片上,但靠事后裁剪是塞不进去的,这个模型从娘胎里就为端侧而生。 要看清 VWA 的不同,得先看看别人怎么走。当下的「世界模型」,大多走两条路线。 一条是 VLA,建立在多模态大模型之上,加一个「动作专家」做改造;一条是以视频生成模型做内核,用 2D 表征渲染出 3D 世界。 VLA 的表征停留在语言模态——你问它面前的水瓶离自己多远,它能答「大概三十厘米」,但实际可能是十厘米,这是无法容忍的误差。 视频生成模型停在 2D 像素空间,对真实 3D 刻画不足,做动作前还要先生成视频,成本高,2D 到 3D 的误差层层累积。 一个把世界「说」出来,一个把世界「画」出来——可机器人要的,是把世界「算」出来。 X-Era Lab 的世界动作模型(VWA),绕开了两条路线面临的障碍。 据陈添水介绍,VWA 在底层架构上做了三件事: 1. 把物理与动作向量放进同一个 Token 内联合建模,再加上时序维度,共同构成 4D 数据; 2. 没有沿用现成的多模态大模型骨干,而是专门为几何与动作设计了预训练网络; 3. 让预训练和后训练的目标保持统一。别人是在后训练阶段、针对特定场景「打补丁」,而 VWA 在预训练阶段就把对物理世界的理解灌进了模型。 把三条路线摆在一起,差异其实落在同一个问题上:模型对「世界」的理解,到底停在哪一层? VLA 停在语言层,所以它只能把物体的位置估个大概;视频生成式停在 2D 像素层,做动作前先得生成画面,3D 信息在这一步就漏掉了精度。 原生世界动作模型的 4D 表征 VWA 通过预测未来的 4D 世界来建模真实物理世界,也就是刻画 3D 空间随时间如何变化。 在这样统一的时空表征中,场景的深度结构、机器人的动作轨迹,以及交互过程中蕴含的接触、碰撞、形变等物理规律,都可以被放在同一套模型里联合学习。 不同于许多基于视频生成的世界模型,VWA 不把主要算力消耗在纹理、光影、背景等与动作决策弱相关的视觉细节上,而是绕过这些表象,直接建模三维几何和时序运动。 当模型学习点云如何位移、物体如何碰撞、形变如何发生时,它学到的不是「世界长什么样」,而是「世界会怎样变化」。 更关键的是,X-Era Lab 并不是把 4D 表征只当作后训练阶段的辅助工具,用来重建空间或合成数据;而是从预训练阶段就把 4D 作为统一底座,让物理理解、空间预测和动作生成落在同一套表征里联合学习。 换句话说,别人是在用 4D 补数据,VWA 是从一开始就长在 4D 上。 因此,VWA 能以更小模型完成更复杂任务,并不是靠后期裁剪或蒸馏硬挤出来的,而是因为它从源头减少了无效负担。 不需要背一个庞大的多模态大模型骨干,也不需要反复生成冗余视频画面。 它把参数和算力集中用在与机器人行动最相关的空间、时间和物理规律上。 这也是 VWA 同时具备端侧部署可行性和 Scaling Law 潜力的根本原因。 V