智能AI
morning
国产GPU开始造世界!国内首个全栈具身智能仿真平台来了
2026-05-19
1 阅读
十三
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 国产GPU开始造世界!国内首个全栈具身智能仿真平台来了 十三 2026-05-19 15:03:20 来源: 量子位 发布MT Lambda 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 没有新的GPU,没有新的智算卡。 但一家 国产GPU 厂商,却在一整场发布会的时间里,做了一件 非常物理 的事儿—— 发布 首个全栈国产化 的 具身智能 仿真平台。 先来看效果。 这只名叫 小飞 的机器狗,缓缓走上了舞台。 在走到舞台中央后,只见屏幕里仿真世界的小飞 侧空翻 了一下,随即,物理世界的小飞便做出了一模一样的动作。 转个身,再来一次,动作依旧是像 粘贴复制 的似的。 小飞的运动策略是这样的: 100%是在仿真世界中训练出来,并无损迁移到真实物理世界的。 那么它背后这家国产GPU玩家是谁?这个具身智能仿真平台又叫什么? 不卖关子。 正是由 摩尔线程 新鲜发布的 MT Lambda 。 刚才小飞的一套操作,可以理解为: 这是首次在全国产的硬件平台上训练出的运控策略,完整部署到全国产的端侧芯片上,第一次实现了Sim-to-Real(仿真到现实)的真机验证。 至此,摩尔线程也就成为了 国内唯一 打通 “大模型训练 — 仿真模拟 — 端侧部署” 全链路的GPU企业。 如果说大模型的爆发是依靠海量互联网数据“喂”出来的,那么具身智能的爆发,则迫切需要一个极度真实的虚拟世界。 而现在,国产GPU,开始自己动手造世界了。 更像是一套物理AI训练的流水线 若我们把MT Lambda拆开来看,其实,它更像一条围绕机器人训练展开的流水线。 最上层,是两个平台: MT Lambda-Lab 和 MT Lambda-Sim 。 MT Lambda-Lab更偏具身策略开发与训练,面向强化学习、模仿学习、VLA模型等任务。 对于开发者来说,这一层要解决的是“怎么让智能体学会做事”的问题,即动作策略怎么训练、行为怎么迭代、模型怎么在复杂任务中逐步变得更稳定等等。 MT Lambda-Sim则更偏高保真物理仿真与渲染,负责场景构建、传感器模拟、数据生成和仿真验证。 它关心的是另一个问题:机器人看到的世界、碰到的物体、执行动作后的反馈,能不能尽可能接近真实世界。 这两者合在一起,就构成一条具身智能开发的主链路: 数据合成—策略训练—仿真验证—端侧部署。 为什么这条链路重要?因为现实世界太贵了。 张建中在发布会上,便提到了训练一个好的智能体的三大痛点: 首先缺少大量高质量数据,靠人采集、靠遥操作采集,成本都很高; 其次,真机训练风险和代价很高,不可能让机器人或机器狗每天反复摔倒、损坏; 第三,真实场景往往不可控,也不容易泛化,实验室里能跑,换个环境就可能失效。 这几句话其实点出了具身智能行业当下最现实的矛盾,即模型进化很快,物理场景积累很慢。 大模型可以吃互联网数据,但机器人吃的是现实世界的数据。一个杯子从桌边滑落,一块布料被夹爪抓起,一辆车在雨夜里遇到突发障碍,这些任务很难用简单文本描述完整。它们涉及光照、材质、摩擦、碰撞、运动轨迹和传感器反馈。要让机器人真正学会行动,就必须把这些复杂场景低成本、大规模、可复现地生产出来。 MT Lambda的底层能力,就围绕三类引擎展开:物理、渲染、AI。 先看物理引擎。 MT Lambda集成了MuJoCo-Warp-MUSA、Newton-MUSA等开源后端,也包括摩尔线程自研的AlphaCore物理引擎。 它们基于MUSA架构进行并行求解,支持高精度、可微分的物理计算。在典型仿真负载下,整体仿真吞吐效率可实现约30倍提升。 这意味着什么? 对于机器人来说,物理引擎的价值远远不止让画面里的东西动起来。机械臂抓起一个柔性物体,指尖接触时有力的反馈;四足机器人落地时,不同地面材质会改变受力和姿态;自动驾驶仿真里,车辆、行人、障碍物之间的运动关系要符合真实物理规律。仿真如果不准,训练出来的策略就容易在现实中翻车。 再看渲染引擎。 MT Lambda搭载MT Photon光子引擎,融合光线追踪与混合渲染能力,同时引入3DGS和自研AI生成式渲染能力,用来提升仿真画面的真实感、细腻度和渲染效率。 这部分尤其关键。具身智能既要算动作,也要看世界。摄像头、深度相机、激光雷达、触觉传感器等多模态输入,都会影响机器人如何判断环境。渲染越真实,合成数据越接近真实数据,Sim to Real的鸿沟就越有机会缩小。 现场讲到与光轮智能合作时,张建中提到,MTT S5000具备RT Core光线追踪核心,可以带来接近3倍的图形渲染能力提升;在相关测试中,使用MTT S5000 RT Core硬件光线追踪加速渲染,可获得2.7倍性能提升。 最后是AI引擎。 MT Lambda集成深度适配PyTorch的Torch-MUSA框架,配合muSolver、muFFT等加速库,支持VLA模型开发部署,并融合强化学习和模仿学习训练范式。 放到具身智能里,AI引擎对应的是机器人大脑的训练:它要把视觉、语言、动作连接起来,把环境反馈变成下一步决策。 为什么摩尔线程能把“算、仿、渲”装进一个Lambda? 其实,这也是全功能GPU价值被放大的地方。毕竟,全功能GPU在国内本身便是稀缺的。 因为具身智能对芯片的要求,远不止AI矩阵计算。 机器人训练要跑VLA模型、强化学习和模仿学习,这是 AI智算 ;要模拟碰撞、摩擦、动力学和复杂接触,这是科学计算和 物理AI ;要生成足够真实的训练画面和传感器数据,这是 3D渲染 ;未来还会涉及大量视频数据的采集、传输、生成和回放,这又离不开超高清 视频编解码 。 TPU、NPU或者一些GPGPU路线,往往更聚焦AI计算或通用计算的某一类任务。它们在特定场景里可以把效率做到很高,但具身智能的问题更杂,既要训练数字大脑,也要构建物理世界,还要把真实画面和传感器反馈一起纳入训练闭环。 摩尔线程之所以能把MT Lambda做成物理、渲染、AI三大引擎一体的平台, 底层原因正在于它从成立以来坚持的全功能GPU路线。 按照摩尔线程给出的定义,全功能GPU依托自研MUSA架构,在单颗芯片中同时支持AI计算、图形渲染、物理仿真、科学计算和超高清视频编解码。 换句话说,MT Lambda并非是在一堆割裂工具之上硬拼出来的套件,而是长在全功能GPU和MUSA统一架构上的平台能力。 对于具身智能来说,这种 “算、仿、渲”一体化 ,恰好对应了机器人训练的真实需求,即一边跑AI模型、一边算物理碰撞、一边渲染真实画面。 过去,开发者可能需要在不同硬件、不同软件栈之间切换:AI训练用一套平台,图形渲染用另一套平台,物理仿真又要接第三套工具。数据在不同系统之间搬来搬去,效率低,调试难,误差也会累积。 MT Lambda想做的,是把这些原本割裂的环节尽可能放回同一套底座上。对于开发者而言,更理想的状态是少花时间和底层适配搏斗,把更多精力放在算法、任务和场景本身。 云端、端侧、生态,也开始闭环了