智能AI morning

全球首个人形机器人通用小脑来了!全球最大规模2万小时人类动作数据,实现零样本泛化

2026-06-19 1 阅读 衡宇
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 全球首个人形机器人通用小脑来了!全球最大规模2万小时人类动作数据,实现零样本泛化 衡宇 2026-06-19 11:28:37 来源: 量子位 人形机器人正式迈入“GPT时代” 允中 发自 凹非寺 量子位 | 公众号 QbitAI 近年来,随着具身智能快速发展,机器人正在逐步获得理解环境、理解任务和执行复杂指令的能力。 然而,要让机器人真正进入现实世界,除了负责感知、理解与决策的“大脑”, 同样需要一个能够完成全身协调控制、实时运动执行与稳定身体控制的“小脑”。 机器人需要在毫秒级时间内完成全身数十个自由度的实时协同控制,在复杂环境中保持平衡,在受到外部冲击时快速恢复稳定,并持续完成高动态、高精度的动作任务。 这些能力共同决定了它能否突破实验室演示,真正成为现实世界中的“生产力工具”。 近日,银河通用机器人正式发布 AstraBrain-WBC 0.5 ,这是银河星脑(AstraBrain)技术体系下,面向人形机器人全身实时运控的小脑基础模型。 作为银河星脑(AstraBrain)技术体系的重要组成部分,AstraBrain-WBC 0.5聚焦于机器人“通用小脑”基础设施级的能力建设,是银河通用在人形机器人运动智能领域的重要技术里程碑。 它不仅实现了对全身运动控制能力的系统性构建,更首次将GPT所代表的规模化训练范式引入人形机器人实时运控领域,为构建机器人运动基础模型开辟出一条全新的技术路径。 AstraBrain-WBC 0.5之所以引领人形机器人迈入“GPT时代”,并不仅仅因为采用了Transformer架构。 模型基于约20亿帧人类动作数据训练而成,数据规模比肩GPT-1量级,模型参数规模达到8000万级别,是全球首个达到该量级的人形机器人全身实时运控大模型。 更重要的是,它首次在人形机器人运控领域验证了类似GPT的Scaling Law——当数据规模、模型规模与训练体系同步扩展时,机器人的运动能力同样能够持续提升,并展现出更强的泛化性、稳定性与适应能力。 正如GPT推动人工智能从任务模型时代迈向基础模型时代一样,AstraBrain-WBC 0.5所探索的,是机器人运动控制从“单技能训练”走向“运动基础模型”的可能性。 这不仅是银河星脑在“小脑”维度的一次重要突破,更意味着人形机器人正在从“技能时代”迈向“基础模型”时代。 亮点一:20亿帧人类动作数据训练,打造行业最大规模人形机器人运动语料库 大模型时代有一个被反复验证的规律:能力来自规模。 GPT之所以能够展现出强大的泛化能力,本质上源于海量数据与大规模模型共同作用下产生的能力涌现。而AstraBrain-WBC 0.5所探索的,正是这条路径在人形机器人运动控制领域的首次验证。 为训练AstraBrain-WBC 0.5,银河通用机器人联合研究团队构建了目前行业最大规模的人形机器人动作训练数据集, 累计汇聚约 2 万小时人类动作数据,覆盖舞蹈、运动、日常行为、工业操作、协作搬运等丰富场景 。 这些数据不仅规模庞大,更具备极高的动作多样性。 相比传统动作数据集中大量重复的行走、站立等高频动作,AstraBrain-WBC 0.5的数据体系覆盖了复杂舞蹈、高动态运动、快速转向、跌倒恢复、协作搬运等大量长尾动作,为模型提供了更加丰富的人体运动先验。 结果显示,其动作空间覆盖范围相比行业广泛使用的数据集AMASS提升约4至5倍。 在此基础上,研究团队进一步将模型规模扩展至8040万参数级别,使 AstraBrain-WBC 0.5成为全球首个达到GPT-1量级的人形机器人全身实时运控大模型 。 这一规模在行业内具有里程碑意义。 此前业内代表性工作GAE训练数据规模数千小时、模型参数规模约1000万;SONIC训练数据规模约700小时、模型参数规模约1000万至2000万。 相比之下,AstraBrain-WBC 0.5无论在训练数据规模还是模型容量上都实现数量级跃升。 亮点二:首次将GPT式架构引入机器人运控领域 长期以来,人形机器人运控模型大多采用浅层MLP网络,这类模型虽然结构简单,但容量有限,很难随着数据规模增长持续获得性能提升。 AstraBrain-WBC 0.5则彻底改变了这一思路。 团队首次采用GPT风格的因果Transformer架构,将机器人全身控制重新定义为一个连续序列预测问题。 简单来说,AstraBrain-WBC 0.5不再只关注当前时刻应该如何运动,而是能够结合过去连续动作历史,对未来动作趋势进行实时预测和控制。 这种能力与GPT理解语言序列的方式高度类似,机器人看到的不再是孤立动作,而是一段连续的运动“语义”。 与此同时,研究团队还构建了由384个动作专家组成的运动先验库,并通过蒸馏训练将其融合为统一控制模型,实现从“专家技能集合”到“通用运动基础模型”的跃迁。 最终形成的AstraBrain-WBC 0.5模型 参数规模达到8040万级别,已经接近GPT-1时代的数据和模型规模。 更重要的是,AstraBrain-WBC 0.5并非简单地把模型做大。 该工作首次验证了机器人运动控制领域同样存在类似GPT的发展规律: 随着数据规模从百万级扩展至20亿帧、模型规模持续增长,模型性能持续提升,零样本泛化能力不断增强,没有出现传统运控模型常见的性能瓶颈。 这意味着,人形机器人运动控制正迈向“基础模型时代”。 如果说过去的机器人是在学习单个技能,那么AstraBrain-WBC 0.5更像是在学习整个人类动作世界。 亮点三:全身协同、敏捷运动、毫秒响应,让机器人拥有更接近人类的运动能力 规模化带来的价值最终体现在能力上。 AstraBrain-WBC 0.5 展现出了此前人形机器人运控系统难以兼顾的四项核心能力。 更高自由度的全身协同控制 传统控制器往往擅长单一动作,而在复杂全身协调任务中容易出现动作割裂。 AstraBrain-WBC 0.5在29自由度机器人上实现了全身协同控制,完成手脚联动、重心切换、身体协调等复杂动作。 无论是舞蹈、运动还是协作搬运,都能够保持稳定自然的动作表现。 更高动态运动能力 在真实机器人测试中,AstraBrain-WBC 0.5实现了大量训练集中从未出现过的高动态动作零样本执行。 包括篮球、拳击、舞蹈、翻身起立、协作搬运等复杂任务均能够直接完成,无需针对单个任务重新训练。 这意味着机器人首次展现出类似“运动泛化”的能力。面对从未见过的新动作,也能够快速完成迁移。 毫秒级实时响应 机器人控制必须满足严格实时性要求。 研究显示,AstraBrain-WBC 0.5经过工程优化后, 在单张RTX 4090显卡上实现低于1.5毫秒的端到端推理延迟,整套动捕链路设备的延迟小于20毫秒,可满足50Hz实时闭环控制需求。 从感知到决策再到执行,动作切换流畅自然。 即使连续复杂动作之间切换,也能够保持稳定控制。 前所未有的鲁棒性 对于机器人而言,真正困难的从来不是完成一