医疗健康
morning
物理世界:AI Agent 的下一个战场
2026-06-15
1 阅读
AGI-Signal
所有人都在讨论 Agent 能写多少行代码、提效多少百分比,但真正值得问的问题是:Agent 什么时候能替你开门、巡逻园区、调度工厂? 答案是:还早。 Agent 在数字世界的扩张速度确实惊人:OpenClaw 84 天内 Star 数突破 37.5 万;57% 的企业已部署多阶段 AI 工作流;86% 的企业在生产环境中运行Agent。但当你问,有多少 Agent 在真正操控物理设备?答案是沉默的。 物理世界,才是 Agent 真正的下半场。大模型厂商和科技巨头正在押注这个未来。NVIDIA 发布 RTX Spark 专攻端侧算力,Google DeepMind 把大模型推理注入 机器人 控制,Amazon 将 Alexa 升级为 AI 代理,Anthropic 则用一次意外源码泄露展示了 Agent 系统内部的工程深水区。他们在定义规则、建设底层基础设施,争夺 Agent 时代的话语权。 但还有另一群人,他们并不打算定义规则。 他们已经深耕某个行业十年,手里攥着一堆私有协议文档、场景模板和行业客户,正在问一个更具体的问题:Agent 在我的这个场景里,到底能不能用?怎么用才能真正省钱省力? 这是 Agent 落地的另一条路线。 通用路线的局限 在聊垂直落地之前,有必要先厘清一个认知陷阱:大模型变强,并不等于 Agent 在现实物理场景中就能用了。 Agent 落地有业界常说的“五面墙”——成本、速度、安全、发散性和运维。在物理场景里,这五面墙的每一面都比数字世界更难翻。 成本上,一个实时运行的物理 Agent 需要持续的视觉和传感推理,每秒数十次调用,Token 消耗是指数级的。速度上,数字 Agent 回邮件慢 3 秒没人在意,但物理 Agent 识别到有人闯入与触发告警之间慢 3 秒,可能就是安全事故。安全上,数字世界的错误可以回滚,现实物理场景中,控制错了门禁、放错了人,是不可逆的。发散性上,大模型输出的不确定性在文字对话里是优点,在物理设备操控里是灾难。运维上,几十个甚至上百个 Agent 同时跑在工厂或园区里,谁来保证它们每天都在正常工作? 这还不是最难的那面。物理世界还有第六面墙:设备碎片化。 数字 Agent 只需要面对 API、文件系统、浏览器这几种标准接口。物理场景中呢?仅中国智能家居市场就有上百个品牌各自维护私有协议和 SDK,一个通用的物理 Agent 如果要操控摄像头、门禁、传感器、报警器,理论上需要适配成百上千套私有协议。Matter 协议(由 CSA 连接标准联盟主导的智能家居互联互通标准)正在试图解决设备互联问题,Matter 1.5 + Thread 1.4 首次实现了跨品牌设备的底层互通。但 Matter 只解决了“连接管道”,设备可以说同一种语言了,谁来理解它们背后的业务意图、谁来协调决策,仍然是悬而未决的问题。 这正是通用路线天然难以触达的地方——大模型厂商和硬件巨头的工具链很强,但它们不了解海康、大华的私有协议,不了解工厂 AGV 调度的业务规则,不了解园区安防的异常判定逻辑。 垂直赛道正在探索 与此同时,一批深耕物理场景的公司,正在绕开“谁能定义 Agent 操作系统”这个问题,直接在自己的地盘上做实验。 西门子、施耐德等工业巨头正在将 AI Agent 引入产线调度和能源管理, 微软 也在将 Copilot 能力注入 IoT 边缘设备。 但也仍有挑战。 在消费级 IoT 领域,萤石在刚刚过去的ECDC 萤石云开发者大会上公开了一个令人意外的内部实验结论:公司鼓励全员使用 AI 编码工具,每月烧掉数十万 Token,结果研发交付速度没有显著提升。萤石云首席架构师的原话是:“问题出在水面以下。” AI 工具普及了,但底层体系还是旧的。传统开发流程与 AI 开发模式不兼容,IoT 场景需要匹配专属模型,海量私有协议脱离了通用 AI 的训练数据,人工需求表达的模糊性导致反复迭代——这四重困境叠加,让所有新工具的效率增益都停在了水面以上。 这在业界被称为“Harness 工程”——Harness 原意是马具,给 AI 这匹野马套上合适的马具,才能真正驾驭它。 萤石用了一年时间在内部做 Harness 工程的实战积累,然后把这套经验产品化,发布了两个平台: 一个是蓝海AIoT一站式工作台,核心是 AI 驱动的对话式开发。平台通过自然语言交互替代传统编码,将传统 AIoT 应用的开发周期从平均 45 天压缩到平均 2 天,最快 15 分钟可生成可预览原型,研发成本降至传统模式的五分之一。 关键是,平台内置了数十项 AIoT 专属技能包,兼容 海康威视 、大华、华为、 霍尼韦尔 等 20 多家主流品牌的视频、控制、传感设备,覆盖 GB28181、JT808、eHome 等多种 IoT 协议,开发者无需深入那些密密麻麻的私有协议文档,就能完成跨厂商设备集成。 另一个是 AI 巡检智能体开发平台。针对通用开源智能体落地 IoT 场景时成本高、启动慢、行为发散的问题,萤石专门做了代码重构和技术优化。目前,AI 巡检智能体已在某大型跨城企业园区落地,覆盖 20 多个跨城园区、300 多个消防通道、车库和商配巡检点位,实现 7×24 小时自主巡检,自动完成问题识别、上报、定位和复核全流程。 AIoT 商业模式重构 5 月 8 日,中国国家网信办、发改委、工信部联合发布《智能体规范应用与创新发展实施意见》和《人工智能终端智能化分级》(GB/Z 177—2026),确立了“灵肉双轨”的顶层设计——前者定义智能体软件主体,后者定义智能化硬件载体。L1(响应级)到 L4(协同级)的四级能力阶梯出台后,AIoT 产业有了统一的能力坐标系,L4“主动感知场景、跨设备协同、自主执行任务”被刻意留白,等待产业填写答案。 这个政策背景,正在加速 IoT 厂商的商业模式迁移。回看过去十年:IoT 1.0 核心价值是联网,2.0 走向认知(摄像头能认人脸、车辆、异常行为),3.0 走向辅助决策(主动推送告警和分析),4.0 正在浮出水面,核心是代理——Agent 主动感知场景、跨设备自主决策执行。 从卖硬件,到“硬件入口 + 能力订阅 + 数据资产”的三元模式,Amazon Alexa+ 的 AI 代理订阅、西门子及施耐德等工业巨头的 AI Agent 化改造,都在响应这个大趋势。 工业领域的树根互联,也在验证类似的逻辑。这家三一重工孵化的工业互联网平台此前发布了售后服务智能体,其根灵工业大模型已于 2026 年初完成国家级备案。 面对挖掘机、焊接机器人、产线设备等重工业场景,树根互联的做法是把多年积累的设备运维数据、工艺知识和专家规则注入模型底座,让 Agent 完成故障诊断、维修建议和产线调度。把 IoT 场景模板、私有协议适配积累沉淀为平台能力,本质上是同一件事: 把行业 know-how 转化为 Agent 可用的工程体系 。 垂直场景的护城河,不在于连接了多少设备,而在于对行业逻辑理解的深度。零代码 AIoT 工作台把开发周期从 45 天压缩到 2 天,背后不是大模型有多聪明,而是多年积累的设备协议适配、场景模板沉淀、行业数据标注。 物理场景中 Agent的 落地,正处在一个最