智能AI evening

英伟达开始搞机器人自己研究机器人那套了…

2026-06-20 1 阅读 henry
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 英伟达开始搞机器人自己研究机器人那套了… henry 2026-06-20 20:06:20 来源: 量子位 为了让你烧token,英伟达已经卷到机器人身上了 henry 发自 凹非寺 量子位 | 公众号 QbitAI 好好好,又给英伟达这家伙,找到了新的烧token的方式(doge) 刚刚,英伟达、CMU和Berkeley联合推出具身智能Autoresearch框架—— ENPIRE 。 简单来说,ENPIRE就是让AI agent自己做机器人研究,让8个Coding Agent,各自控制一台双臂机器人。 Agent们会自己读论文、改算法、训练策略、部署实验、分析结果、总结经验,不满意再换个思路重来。 GEAR的研究员们不用盯着屏幕调参数,只需要第二天早上过来看报告。 在最具代表性的Pin Insertion任务中,仅用了3小时,机器人把针插进4毫米孔洞的成功率从0一路拉到99%。 全程无人类参与,项目负责人之一的 Jim Fan 发推说: GEAR实验室的一部分现在已经在彻夜自我改进了。我们只需要早上来读报告。 不过也有网友表示: 高情商:彻夜自我改进;低情商:没日没夜的烧token。 具身智能研究的harness 先说明一点,ENPIRE并不是让Agent直接写控制代码操纵机器人,它更像一个机器人研究员,需要在真实世界里重置实验场景、检索文献、实施想法、验证结果、分析问题,优化下一轮迭代。 与类似code as policy的方法不同,ENPIRE的最终产物的不是一段控制脚本,而是一个真正能够部署到机器人上的Policy。 这种给现实环境搭建自动化框架的事儿,之所以难是因为现实世界不像代码世界。 在代码世界,Agent写错代码了,大不了删掉重来;实验跑崩了,重新启动即可。 但机器人研究不一样,实验失败之后,物体会歪掉,场景会乱掉,机器人甚至可能把东西碰飞。 如果每轮实验都要靠研究员手动复位、记录结果、整理数据,那么Agent根本不可能24小时连续做研究。 所以ENPIRE做的事情,本质上是给AI研究员搭建一套自动化实验台。 论文里把它称为 Harness Framework 。 可以理解为,它给Coding Agent配齐了一整套做物理实验所需的基础设施。 这套基础设施由四部分组成,也正好对应ENPIRE这个名字: EN(Environment)环境模块 :负责搭建实验环境,包括安全边界、自动复位和自动评分。 PI(Policy Improvement)策略改进 :Agent根据任务目标提出新方案。行为克隆、强化学习、启发式规则,甚至几种方法混搭,全都可以尝试。 R(Rollout)——部署测试 :把新策略部署到真实机器人上执行,记录轨迹、视频和传感器信号。 E(Evolution)——进化 : 多Agent协作的核心。8个Agent各自占用一台机器人,通过Git共享代码,互相吸收有效方案,淘汰失败路线。 四个模块连起来之后,就形成了一个完整闭环: 提出想法 → 训练策略 → 真机测试 → 自动评分 → 总结经验 → 再提出新想法。 整个过程不需要人工值守,Agent自己负责做实验,也自己负责从实验里学习。 而其中最关键的一环,其实是Environment模块。因为它解决的是具身智能研究里最令人头疼的问题: 怎么让实验自动跑起来。 在仿真环境里,复位往往只需要一句:env.reset() 但现实世界没有env.reset()。 一次失败实验结束之后,机器人必须先把场景恢复到初始状态,下一轮实验才能开始。 以GPU插拔任务为例,机器人需要先把GPU从主板上拔出来,再移动到指定位置释放,然后退回初始状态。 整个过程涉及复杂的力控操作,因为稍有不慎就可能损坏GPU针脚。 自动评分同样如此。 例如扎带穿扎任务中,Agent需要判断:“扎带尾巴到底有没有成功穿过扎带头?” 为了回答这个问题,Agent甚至自己设计了一套视觉检测方案。 顶部和侧面两个摄像头同时观察目标区域,各自进行图像分割;只有当两个视角都确认扎带尾端已经穿过扎带头,系统才会判定实验成功。 整个检测延迟被压缩到150毫秒以内,已经接近人类视觉反应速度。 这些自动复位、自动评分、安全控制接口一旦调通,就会被固化为标准API。 后续Agent做研究时,不再需要关心底层实验流程。 由此,真实世界终于第一次变成了一个可以被反复调用、持续优化的研究环境。 好的agent不比研究员差 当然,光有实验平台还不够。真正有意思的问题是: 当你把机器人、GPU和Token都准备好之后,Agent到底会不会做研究? ENPIRE给出的答案是:会,而且还挺像那么回事。 如开头所说,论文在四个高难度灵巧操作任务上进行了验证: Push-T(推动T形积木到目标位置)、Pin Insertion(把针插进4毫米孔洞)、GPU Insertion(把GPU插进主板插槽)以及Zip-tie(扎带穿扎与剪切)。 最终四个任务全部达到了99%的成功率。 但比结果更有意思的,是Agent达到这个结果的过程,最典型的是Pin Insertion任务。 论文直接公开了Agent的Idea Tree,也就是它完整的研究思路演化过程。 从中可以清楚看到一条非常熟悉的研究路径: 先试行为克隆(Behavior Cloning),效果一般; 加入在线强化学习数据,性能开始提升; 再增加正则化项,成功率出现明显跃升; 随后继续调整Batch Size,补偿控制器延迟,进一步提升稳定性。 整个过程中,Agent就跟人类研究员一样,一步一步往上试,一路把成功率从接近零推到接近100%。 整个过程中,没有人类告诉它应该加什么模块,也没有人类规定实验顺序。 所有方案都来自Agent自己提出的假设,再通过真实实验验证。 如果把这些记录隐藏起来,只看研究过程,很难说这和一个机器人博士生在实验室里做研究有什么本质区别。 更有意思的是,Agent甚至会根据任务特点主动改变研究路线。 在Zip-tie任务中,它很快发现端到端训练效果并不好。 原因很简单,因为这个任务实在太长了: 找到剪刀 → 抓起剪刀 → 找到扎带 → 对准位置 → 完成剪切。 整个操作链跨越多个阶段,单纯依赖端到端策略很难学好,于是Agent自己换了一条路线。 先利用VLA模型(Vision-Language-Action)完成粗定位,再调用工具API执行精细操作。 某种程度上,它甚至自己做了一次系统架构设计。 如果要找一个最直接的参照物,其实就是Karpathy前段时间提出的Autoresearch。 两者本质上都在做同一件事:让AI自动提出想法、运行实验、比较结果,再根据结果继续迭代。 区别在于,Autoresearch发生在数字世界。代码写崩了可以重来,实验跑错了可以重启。 算力几乎是唯一成本,而ENPIRE第一次把这套研究循环搬进了物理世界,机器人不是代码。 你没法对一台撞坏的机械臂执行Git