特工终于长出了身体：九文共生背后的思考与实践

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践一水 2026-06-13 16:11:07 来源：量子位一起构建下一代物理世界的智能系统如果你在三年前问AI圈：未来最强的AI长什么样？大部分人可能会回答，一个更大的GPT，更多参数，更长上下文，更强推理能力。然后我们一路从GPT-3.5走到GPT-4、Claude、Gemini、DeepSeek、Qwen。直到今天，突然发现一个有趣的问题：AI已经学会写代码了，学会做数学题了，甚至学会和你讨论人生意义了，但它依然不会给自己倒一杯水。这正是当前AI最大的局限之一： AI没有身体。今天，openJiuwen社区正式开源 Jiuwen Symbiosis ，一个专为更高阶的physical AI打造的Symbiosis（共生）架构。从虚拟数字世界到真实物理世界，我们给AI装上了感知和行动的“骨骼与肌肉”。 Gitcode传送门： gitcode.com/openJiuwen/jiuwensymbiosis （动动小手，Star一下不迷路⭐） Moravec悖论：最难的不是高数，而是走路 1988年，机器人学家Hans Moravec提出了后来著名的Moravec’s Paradox（莫拉维克悖论），其核心思想非常反直觉：对于计算机来说：下国际象棋很容易做高等数学很容易而对于人类婴儿都能完成的事情，反而异常困难：行走抓取避障保持平衡原因很简单，这些能力并不是逻辑推导出来的，而是数百万年进化形成的身体智能。这就是大模型时代的 “缸中之脑” 困境：智商200，但没有实体，对真实物理世界的摩擦力、重力和空间几何一无所知。从“缸中之脑”到“身体力行”：智能的进化史智能对外在机器本体控制的演进，本质上就是一场从数字世界到物理现实的历程： 1.0手搓任务（借助人的辅助）：依靠人的理解，进行极为原子化的控制操作。 2.0虚拟环境演练（Sim2Real）：在Habitat、AI2-THOR等仿真环境里模拟，开始有了空间概念，同时训练一个或多个模型，使得大脑可以分析理解指令，并进行任务执行。在2.0这个阶段，一系列的问题会凸显出来，最为人诟病的是：缺乏跨本体环境泛化能力：模型一旦训练完成，其技能集合即固化。要让机器人学会“开抽屉后抓取内部物体”，需要重新采集数据、重新训练整个模型。VLA缺乏组合泛化能力——无法将已学的“开抽屉”与“抓取”零样本组合为新任务。长程复合任务能力不足：当前模型擅长短程原子操作（如“抓取红色方块”），但面对长程复合任务（如“从料架上取Tray盘→绕过设备→放入机台→按压确认→返回原位”），单一VLA模型缺乏任务分解、子任务编排、异常回退的能力。它只能在训练分布内“模仿”，无法在运行时“规划”。故障定位困难：当前模型将“视觉→语言理解→物理推理→动作生成”全部压缩进一个Transformer，运行时失败（如抓取偏移、碰撞）无法定位故障根因——是感知误识别、语言歧义、物理推理错误，还是控制轨迹发散。成功率低，稳定性差：当前模型端到端基础模型为典型黑盒结构，直接输出关节位姿等底层动作指令，大模型兼顾认知决策与运动控制，整体实现难度大，模型稳定性差、任务成功率低。 3.0共生时代（Jiuwen Symbiosis正在做的）：模糊虚拟与现实的边界，让Agent能够真正理解物理法则，并直接输出控制硬件底层拓扑的Action序列。 Agent时代的到来 2023年以后，Agent成为整个AI领域最火热的方向之一。大家发现：大模型已经具备不错的推理能力，真正缺少的是行动能力。于是出现了： Tool Calling Function Calling MCP Browser Agent Computer Use Agent Agent开始获得操作世界的能力，它们不再只是回答问题。但这里依然存在一个问题：这些Agent操作的仍然是数字世界。不是物理世界。但经过一系列的演进，openJiuwen团队相信具有物理能力的Agent时代已经悄然到来，它比前辈们向着真实世界更加向前迈进了一步。下一步是让Agent走进现实世界。简单来说，传统Agent可以简化为如下过程：而physical AI Agent的模式发生了本质的改变——Agent不再面对文本，而是面对真实世界，需要与现实环境进行交互反馈，整体过程可以简化为如下：但openJiuwen团队认为这依然是远远不够的，人类在执行任务的过程中，观察、反馈等过程是一个不间断的实时系统。同时，理论上，从传感器–>VLM–>LLM–>Planner–>ROS的整个过程看起来是非常优雅，但实际执行过程中，极有可能变成JSON的极限堆积，并且系统越复杂，这个现象越明显。最终导致，Agent到底在想什么，为什么做出这个决策，为什么执行失败，全部变成糊涂账。 Jiuwen Symbiosis：让Agent拥有透明的态势感知系统 Jiuwen Symbiosis的设计理念非常简单： Agent的思考过程应该是可观察、可调试、可协作的。团队尝试把Agent的内部状态显式暴露出来，而不是隐藏在黑盒中。在Jiuwen Symbiosis中：认知层与执行层通过共享Workspace协作，解决复杂任务执行，保障认知正确与快速响应，并极大简化跨本体适配。同时，其实现过程又是丰富且严谨的，openJiuwen团队将这个核心骨架称为：态势感知环（Situation Awareness Loop）。在此基础上，团队增加了若干功能模块，例如安全规划，状态感知，观测反馈，空间记忆等关键技术模块。多模态感知（Multimodal Perception）使physical AI Agent主动感知世界，是Agent由数字走向物理的基础。同时，把理解从决策中分离，在进行Action之前对场景进行充分理解，产出结构化世界状态，例如被检测对象、对象位姿、置信度等。安全规划（Safe Planning）基于Prompt任务指令与结构化世界状态，进行任务规划，对相关Skill中的参数动态赋值，并进行物理可行性、安全性与约束校检，拒绝不可执行方案。物理执行（Physical Action）按照Skill的建议，调用相关Action Tool原子能力，最终完成位移、抓取、放置、交互等一系列连续可控的物理运动。状态观察（Observation）负责对物理动作执行后的真实世界状态进行采集与结构化提取。通过视觉等传感器获取执行结果，识别物体位姿、环境变化、交互效果等关键信息，输出结构化的世界观测状态，为后续Feedback偏差计算提供客观依据。观测反馈（Feedback）基于观测结果构建闭环修正机制，将执行偏差、异常状态、成功/失败判据回传至推理与规划模块。实现动作参数实时调整、规划序列动态优化、异常场景自主

订阅66必读