智能AI morning

一只机器狗,把英伟达的算力王座拱翻了

2026-05-17 1 阅读 Jay
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 一只机器狗,把英伟达的算力王座拱翻了 Jay 2026-05-17 23:10:59 来源: 量子位 人造劳动力,离普通家庭还有多远? 田晏林 发自 凹非寺 量子位 | 公众号 QbitAI 消费级机器人行业,可能要出现一次真正意义上的代际切换了。 过去几年,大家见过太多机器狗:能跑、能跳、能翻跟头。但问题一直没变。 它们很多时候其实看不清、听不清,也想不明白。 行业主流方案,还是200万像素摄像头、16线激光雷达、单芯片算力架构。 机器人能动,但 距离真正理解世界 ,始终差一口气。 直到刚才,我看到一组「离谱」数据—— 6600万像素 、HDR140db、223.2万点云/秒、 70亿参数 端侧运行 280TPS 。 更关键的是,它没有在英伟达的规则里卷。 而是用 6颗芯片 组成 异构计算集群 ,把消费级机器人的算力效率,直接拉到 行业10倍以上 。 这组数据,来自 蔚蓝科技 刚刚发布的 BabyAlpha A3消费级四⾜机器⼈ 。 这家已经卖出 超2.5万台 的消费级四足机器人、累计交互 6548万次 、用户使用时长 超9.5亿分钟 的公司,终于把过去几年积累下来的核心技术,集中兑现到了A3身上。 信号已经很明确:消费级四足机器人,正在从会动,进入会理解人的新阶段。 那么,问题也来了。 当机器人的感知和算力都捅破行业天花板,具身智能,究竟会被推到什么位置? 机器人终于不再“半盲” 过去几年,消费级机器人行业一直有个很隐蔽的问题。 大家都在卷 运动能力 。翻跟头、跑酷、越障、爬坡,动作越来越像科幻片。 但感知系统,其实一直停留在「能用」阶段。 逆光环境容易看不清,复杂空间容易误判,动态目标捕捉慢。 很多机器人表面上很聪明,本质上还是在模糊理解世界。 这也是为什么,行业里大量机器人看起来很灵活,但真正脱离遥控和预设环境后,依然像个「半盲选手」。 机器人如果连世界都看不清,就谈不上真正自主。 而A3最狠的地方,就是直接把 感知维度 拉高了一个时代。 先看视觉。 A3搭载了 超能视觉感知系统 ,由5000万像素主摄+f/2.8 超广角+4K全景摄像头组成,分辨率分别为8K、4K、4K, 总像素达到6600万 ,还包括了1/1.3英寸大底。 什么概念?很多旗舰手机主摄,才5000万像素。 更关键的是 感光能力 达到 HDR140db视网膜级别 。 行业主流机器人,大多还停留在HDR90db以下,而人类眼睛理论动态范围,大约在100db~120db之间。 A3第一次把 机器人视觉动态范围 ,推到了 超过人眼 的水平。 这意味着,以前机器人在强逆光、暗光、复杂明暗切换环境里,经常会瞬间「失明」。 但现在,A3真正具备了 复杂光线下 的环境理解能力。 还有一个特别容易被忽视的数据—— 最高帧率480fps 。 行业主流很多还是30fps,类似普通视频。 480fps,接近超慢动作视觉。 高速运动目标、儿童跑动、突然出现的障碍物, 在机器人眼中都是慢动作回放 ,是可以逐帧分析的清晰画面。 这还不是最夸张的。 真正拉开代差的,是空间感知。 A3用了 5组 3D ToF+3D结构光构成的 360°环视面阵 ,点云密度达到 223.2万点/秒 。 而行业大量16线激光雷达方案,点云密度只有4.8万点/秒。 「点云密度」可简单理解为:每秒钟机器人通过传感器采集到的三维空间点的数量。 高密度点云就像 高清照片 ,能分辨出细小的障碍物(比如电线、玩具、小台阶)。而低密度点云就是一张 马赛克图 。 4.8万点/秒VS 223.2万点/秒,差距接近两个数量级。 如果说别人的机器人还在用2G地图导航,那么 A3已经切到了4K实时地图 。 它看到的,不再只是障碍物轮廓,而是一个高精度、实时变化的三维世界。 听觉系统也一样。业内很多机器人只是「听到声音」。 A3全球首发12-Mic 3D Mesh仿生立体听觉 ,能「听懂声音从哪来」。 12个麦克风组成三维声场阵列,可以判断方向、距离、空间位置。 谦虚点说,它更接近具身智能。但依我看,这就是具身智能啊!不仅理解语言,还能理解环境。 就像人类干活儿,要求「知行合一」,只有感知对了,才能更好地行动。具身智能的终极目标不就是如此么? 在这样的感知能力下, A3也在挑战自己,目前它的最高速度能达到3.5m/s,能够爬上45°角的坡,最大越障能到28cm。 注意,这不是炫数字。 机器对复杂环境的理解,已经产生质变了 。 同时,这也意味着具身智能从实验室逻辑,进入真实世界逻辑。 但看得见,只是第一步。 独创异构计算集群,绕开英伟达路线 感知到了,还得「想得动」。 过去5年,无论是英伟达亲儿子OrinNX,还是国产性价比高手,大家本质上都是在单芯⽚⽅案⾥卷。 究其原因,还是 端侧算力 跟不上,无奈只能被拉进英伟达的路线上硬扛。 事实上,这种路线有非常明显的物理上限。功耗、散热、成本、实时协同能力,都会越来越难。 于是行业出现一种很诡异的状态。 机器人越来越贵,但真正的智能提升却越来越慢。 这也是为什么很多机器人看起来越来越像「高配遥控车」。 能动,但不会思考。 A3这次换个方向突围,不再继续堆参数,直接 绕开英伟达路线 。 它做了一套自研的 「具身智能边缘端混合异构计算集群」 。 简单理解,它更像一个「芯片智囊团」。不是让一颗芯片硬扛所有任务,而是 6颗芯片分工协作。 2颗5nm芯片、2颗8nm芯片、2颗3D堆叠芯片,共计22核CPU。 不同芯片负责不同任务。感知、决策、运动控制实时协同。 像公司里产品、技术、设计、运营同时开工,而不是一个人既写代码,又做PPT,还得拉融资。 这背后其实是路线之争 。跟着英伟达规则走,只能拾人牙慧,不如换条赛道,自己跑。 因为消费级机器人真正的问题,从来不是「能不能做出来」,而是 「能不能让普通家庭买得起」。 这也是为什么,A3最核心的一组数据,不是参数,而是效率。 15亿参数模型下,617TPS; 30亿参数模型下,427TPS; 70亿参数模型下,280TPS。 行业什么水平?很多竞品70亿参数根本跑不起来。能跑的,最高也就6TPS。 竞品思考⼀句话的时间,A3已经能完成⼀段对话了。 更关键的是成本, 国产方案300多美金 ,而英伟达Jetson Thor T5000, 约3000美金 。 蔚蓝打破了算力垄断, 用更少的成本做出超越英伟达的效果 ,这能不服? 其实这件事真正有价值的地方在于,它第一次把 「端侧真正跑通大模型」 ,拉进了消费级市场。 过去行业有一种很重的云端「依赖」,本质上还是芯片算力弱。 但机器人和ChatBot不一样。它得实时感知、实时决策、实时运动。 云端延迟,很多时候意味着机器人直接撞墙。 而A3因为算力够强,能在「端侧跑通大模型」。而这,恰恰是 Physical AI 得以落地的核心基石。 能进入家庭的机器人,首先得足够安全 感知、算力、运动能力这些参数再强,也只是消费级机器人的入场券。 真正决定一台