物理世界：AI Agent 的下一个战场

所有人都在讨论 Agent 能写多少行代码、提效多少百分比，但真正值得问的问题是：Agent 什么时候能替你开门、巡逻园区、调度工厂？答案是：还早。 Agent 在数字世界的扩张速度确实惊人：OpenClaw 84 天内 Star 数突破 37.5 万；57% 的企业已部署多阶段 AI 工作流；86% 的企业在生产环境中运行Agent。但当你问，有多少 Agent 在真正操控物理设备？答案是沉默的。物理世界，才是 Agent 真正的下半场。大模型厂商和科技巨头正在押注这个未来。NVIDIA 发布 RTX Spark 专攻端侧算力，Google DeepMind 把大模型推理注入机器人控制，Amazon 将 Alexa 升级为 AI 代理，Anthropic 则用一次意外源码泄露展示了 Agent 系统内部的工程深水区。他们在定义规则、建设底层基础设施，争夺 Agent 时代的话语权。但还有另一群人，他们并不打算定义规则。他们已经深耕某个行业十年，手里攥着一堆私有协议文档、场景模板和行业客户，正在问一个更具体的问题：Agent 在我的这个场景里，到底能不能用？怎么用才能真正省钱省力？这是 Agent 落地的另一条路线。通用路线的局限在聊垂直落地之前，有必要先厘清一个认知陷阱：大模型变强，并不等于 Agent 在现实物理场景中就能用了。 Agent 落地有业界常说的“五面墙”——成本、速度、安全、发散性和运维。在物理场景里，这五面墙的每一面都比数字世界更难翻。成本上，一个实时运行的物理 Agent 需要持续的视觉和传感推理，每秒数十次调用，Token 消耗是指数级的。速度上，数字 Agent 回邮件慢 3 秒没人在意，但物理 Agent 识别到有人闯入与触发告警之间慢 3 秒，可能就是安全事故。安全上，数字世界的错误可以回滚，现实物理场景中，控制错了门禁、放错了人，是不可逆的。发散性上，大模型输出的不确定性在文字对话里是优点，在物理设备操控里是灾难。运维上，几十个甚至上百个 Agent 同时跑在工厂或园区里，谁来保证它们每天都在正常工作？这还不是最难的那面。物理世界还有第六面墙：设备碎片化。数字 Agent 只需要面对 API、文件系统、浏览器这几种标准接口。物理场景中呢？仅中国智能家居市场就有上百个品牌各自维护私有协议和 SDK，一个通用的物理 Agent 如果要操控摄像头、门禁、传感器、报警器，理论上需要适配成百上千套私有协议。Matter 协议（由 CSA 连接标准联盟主导的智能家居互联互通标准）正在试图解决设备互联问题，Matter 1.5 + Thread 1.4 首次实现了跨品牌设备的底层互通。但 Matter 只解决了“连接管道”，设备可以说同一种语言了，谁来理解它们背后的业务意图、谁来协调决策，仍然是悬而未决的问题。这正是通用路线天然难以触达的地方——大模型厂商和硬件巨头的工具链很强，但它们不了解海康、大华的私有协议，不了解工厂 AGV 调度的业务规则，不了解园区安防的异常判定逻辑。垂直赛道正在探索与此同时，一批深耕物理场景的公司，正在绕开“谁能定义 Agent 操作系统”这个问题，直接在自己的地盘上做实验。西门子、施耐德等工业巨头正在将 AI Agent 引入产线调度和能源管理，微软也在将 Copilot 能力注入 IoT 边缘设备。但也仍有挑战。在消费级 IoT 领域，萤石在刚刚过去的ECDC 萤石云开发者大会上公开了一个令人意外的内部实验结论：公司鼓励全员使用 AI 编码工具，每月烧掉数十万 Token，结果研发交付速度没有显著提升。萤石云首席架构师的原话是：“问题出在水面以下。” AI 工具普及了，但底层体系还是旧的。传统开发流程与 AI 开发模式不兼容，IoT 场景需要匹配专属模型，海量私有协议脱离了通用 AI 的训练数据，人工需求表达的模糊性导致反复迭代——这四重困境叠加，让所有新工具的效率增益都停在了水面以上。这在业界被称为“Harness 工程”——Harness 原意是马具，给 AI 这匹野马套上合适的马具，才能真正驾驭它。萤石用了一年时间在内部做 Harness 工程的实战积累，然后把这套经验产品化，发布了两个平台：一个是蓝海AIoT一站式工作台，核心是 AI 驱动的对话式开发。平台通过自然语言交互替代传统编码，将传统 AIoT 应用的开发周期从平均 45 天压缩到平均 2 天，最快 15 分钟可生成可预览原型，研发成本降至传统模式的五分之一。关键是，平台内置了数十项 AIoT 专属技能包，兼容海康威视、大华、华为、霍尼韦尔等 20 多家主流品牌的视频、控制、传感设备，覆盖 GB28181、JT808、eHome 等多种 IoT 协议，开发者无需深入那些密密麻麻的私有协议文档，就能完成跨厂商设备集成。另一个是 AI 巡检智能体开发平台。针对通用开源智能体落地 IoT 场景时成本高、启动慢、行为发散的问题，萤石专门做了代码重构和技术优化。目前，AI 巡检智能体已在某大型跨城企业园区落地，覆盖 20 多个跨城园区、300 多个消防通道、车库和商配巡检点位，实现 7×24 小时自主巡检，自动完成问题识别、上报、定位和复核全流程。 AIoT 商业模式重构 5 月 8 日，中国国家网信办、发改委、工信部联合发布《智能体规范应用与创新发展实施意见》和《人工智能终端智能化分级》（GB/Z 177—2026），确立了“灵肉双轨”的顶层设计——前者定义智能体软件主体，后者定义智能化硬件载体。L1（响应级）到 L4（协同级）的四级能力阶梯出台后，AIoT 产业有了统一的能力坐标系，L4“主动感知场景、跨设备协同、自主执行任务”被刻意留白，等待产业填写答案。这个政策背景，正在加速 IoT 厂商的商业模式迁移。回看过去十年：IoT 1.0 核心价值是联网，2.0 走向认知（摄像头能认人脸、车辆、异常行为），3.0 走向辅助决策（主动推送告警和分析），4.0 正在浮出水面，核心是代理——Agent 主动感知场景、跨设备自主决策执行。从卖硬件，到“硬件入口 + 能力订阅 + 数据资产”的三元模式，Amazon Alexa+ 的 AI 代理订阅、西门子及施耐德等工业巨头的 AI Agent 化改造，都在响应这个大趋势。工业领域的树根互联，也在验证类似的逻辑。这家三一重工孵化的工业互联网平台此前发布了售后服务智能体，其根灵工业大模型已于 2026 年初完成国家级备案。面对挖掘机、焊接机器人、产线设备等重工业场景，树根互联的做法是把多年积累的设备运维数据、工艺知识和专家规则注入模型底座，让 Agent 完成故障诊断、维修建议和产线调度。把 IoT 场景模板、私有协议适配积累沉淀为平台能力，本质上是同一件事：把行业 know-how 转化为 Agent 可用的工程体系。垂直场景的护城河，不在于连接了多少设备，而在于对行业逻辑理解的深度。零代码 AIoT 工作台把开发周期从 45 天压缩到 2 天，背后不是大模型有多聪明，而是多年积累的设备协议适配、场景模板沉淀、行业数据标注。物理场景中 Agent的落地，正处在一个最

订阅66必读