智能AI evening

特工终于长出了身体:九文共生背后的思考与实践

2026-06-13 1 阅读 一水
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> Agent终于长出了身体:Jiuwen Symbiosis背后的思考与实践 一水 2026-06-13 16:11:07 来源: 量子位 一起构建下一代物理世界的智能系统 如果你在三年前问AI圈:未来最强的AI长什么样? 大部分人可能会回答,一个更大的GPT,更多参数,更长上下文,更强推理能力。 然后我们一路从GPT-3.5走到GPT-4、Claude、Gemini、DeepSeek、Qwen。 直到今天,突然发现一个有趣的问题:AI已经学会写代码了,学会做数学题了,甚至学会和你讨论人生意义了,但它依然不会给自己倒一杯水。 这正是当前AI最大的局限之一: AI没有身体。 今天,openJiuwen社区正式开源 Jiuwen Symbiosis ,一个专为更高阶的physical AI打造的Symbiosis(共生)架构。 从虚拟数字世界到真实物理世界,我们给AI装上了感知和行动的“骨骼与肌肉”。 Gitcode传送门: gitcode.com/openJiuwen/jiuwensymbiosis (动动小手,Star一下不迷路⭐) Moravec悖论:最难的不是高数,而是走路 1988年,机器人学家Hans Moravec提出了后来著名的Moravec’s Paradox(莫拉维克悖论),其核心思想非常反直觉: 对于计算机来说: 下国际象棋很容易 做高等数学很容易 而对于人类婴儿都能完成的事情,反而异常困难: 行走 抓取 避障 保持平衡 原因很简单,这些能力并不是逻辑推导出来的,而是数百万年进化形成的身体智能。 这就是大模型时代的 “缸中之脑” 困境:智商200,但没有实体,对真实物理世界的摩擦力、重力和空间几何一无所知。 从“缸中之脑”到“身体力行”:智能的进化史 智能对外在机器本体控制的演进,本质上就是一场从数字世界到物理现实的历程: 1.0手搓任务(借助人的辅助): 依靠人的理解,进行极为原子化的控制操作。 2.0虚拟环境演练(Sim2Real): 在Habitat、AI2-THOR等仿真环境里模拟,开始有了空间概念,同时训练一个或多个模型,使得大脑可以分析理解指令,并进行任务执行。 在2.0这个阶段,一系列的问题会凸显出来,最为人诟病的是: 缺乏跨本体环境泛化能力 :模型一旦训练完成,其技能集合即固化。要让机器人学会“开抽屉后抓取内部物体”,需要重新采集数据、重新训练整个模型。VLA缺乏组合泛化能力——无法将已学的“开抽屉”与“抓取”零样本组合为新任务。 长程复合任务能力不足:当前模型擅长短程原子操作(如“抓取红色方块”),但面对长程复合任务(如“从料架上取Tray盘→绕过设备→放入机台→按压确认→返回原位”),单一VLA模型缺乏任务分解、子任务编排、异常回退的能力。它只能在训练分布内“模仿”,无法在运行时“规划”。 故障定位困难:当前模型将“视觉→语言理解→物理推理→动作生成”全部压缩进一个Transformer,运行时失败(如抓取偏移、碰撞)无法定位故障根因——是感知误识别、语言歧义、物理推理错误,还是控制轨迹发散。 成功率低,稳定性差:当前模型端到端基础模型为典型黑盒结构,直接输出关节位姿等底层动作指令,大模型兼顾认知决策与运动控制,整体实现难度大,模型稳定性差、任务成功率低。 3.0共生时代(Jiuwen Symbiosis正在做的): 模糊虚拟与现实的边界,让Agent能够真正理解物理法则,并直接输出控制硬件底层拓扑的Action序列。 Agent时代的到来 2023年以后,Agent成为整个AI领域最火热的方向之一。 大家发现:大模型已经具备不错的推理能力,真正缺少的是 行动能力 。于是出现了: Tool Calling Function Calling MCP Browser Agent Computer Use Agent Agent开始获得操作世界的能力,它们不再只是回答问题。但这里依然存在一个问题:这些Agent操作的仍然是数字世界。 不是物理世界。 但经过一系列的演进,openJiuwen团队相信具有物理能力的Agent时代已经悄然到来,它比前辈们向着真实世界更加向前迈进了一步。 下一步是让Agent走进现实世界。简单来说,传统Agent可以简化为如下过程: 而physical AI Agent的模式发生了本质的改变——Agent不再面对文本,而是面对真实世界,需要与现实环境进行交互反馈,整体过程可以简化为如下: 但openJiuwen团队认为这依然是远远不够的,人类在执行任务的过程中,观察、反馈等过程是一个不间断的实时系统。 同时,理论上,从传感器–>VLM–>LLM–>Planner–>ROS的整个过程看起来是非常优雅,但实际执行过程中,极有可能变成JSON的极限堆积,并且系统越复杂,这个现象越明显。 最终导致,Agent到底在想什么,为什么做出这个决策,为什么执行失败,全部变成糊涂账。 Jiuwen Symbiosis:让Agent拥有透明的态势感知系统 Jiuwen Symbiosis的设计理念非常简单: Agent的思考过程应该是可观察、可调试、可协作的。 团队尝试把Agent的内部状态显式暴露出来,而不是隐藏在黑盒中。 在Jiuwen Symbiosis中:认知层与执行层通过共享Workspace协作,解决复杂任务执行,保障认知正确与快速响应,并极大简化跨本体适配。 同时,其实现过程又是丰富且严谨的,openJiuwen团队将这个核心骨架称为: 态势感知环(Situation Awareness Loop) 。 在此基础上,团队增加了若干功能模块,例如安全规划,状态感知,观测反馈,空间记忆等关键技术模块。 多模态感知(Multimodal Perception) 使physical AI Agent主动感知世界,是Agent由数字走向物理的基础。 同时,把理解从决策中分离,在进行Action之前对场景进行充分理解,产出结构化世界状态,例如被检测对象、对象位姿、置信度等。 安全规划(Safe Planning) 基于Prompt任务指令与结构化世界状态,进行任务规划,对相关Skill中的参数动态赋值,并进行物理可行性、安全性与约束校检,拒绝不可执行方案。 物理执行(Physical Action) 按照Skill的建议,调用相关Action Tool原子能力,最终完成位移、抓取、放置、交互等一系列连续可控的物理运动。 状态观察(Observation) 负责对物理动作执行后的真实世界状态进行采集与结构化提取。 通过视觉等传感器获取执行结果,识别物体位姿、环境变化、交互效果等关键信息,输出结构化的世界观测状态,为后续Feedback偏差计算提供客观依据。 观测反馈(Feedback) 基于观测结果构建闭环修正机制,将执行偏差、异常状态、成功/失败判据回传至推理与规划模块。 实现动作参数实时调整、规划序列动态优化、异常场景自主