开发者生态
morning
当 Agent 开始接管工作流,企业最在意的三件事:安全运行、稳定交付、持续进化
2026-05-14
1 阅读
陈姚戈
Agentic AI 的开发和大量落地,正在把一批过去不够显眼的基础设施问题推到台前。 过去两年,市场谈 AI 算力有一种简化认知:AI 算力,几乎等同于 GPU。 类似的简化也发生在云上。在很多人眼中,云计算等同于“租算力”。云像是一座远程大机房,负责把算力供给出去,至于应用如何运行、协作、演进,往往被放在次要位置。 这套认知已经脱离产业事实了。 AI 产业逐步从单纯聚焦模型训练,转向同时重视模型部署、推理效率与真实应用落地。在 Agent 爆发的背景下,AI 工作负载正变得更碎片化、更动态,也更依赖高频任务调度、内存管理、工具调用与系统编排。 随着 AI 负载类型和规模的变化,云计算和 CPU 都被委以重要使命和新的期待。 首先,CPU 正在重新获得更高的关注度。 Agent 负载的特点,正在催高市场对高核心数 CPU 的需求,尤其是在云端多租户、沙箱执行、会话并发和多 Agent 协作等场景里,CPU 承担着任务编排、执行铺开与资源调度的关键职责。 这种变化已经传导到业务侧。AMD 全球副总裁、中国区互联网事业部总经理刘宏兵也提到,过去几个月,公司一直在尽最大可能保障客户需求及AI 基础设施。 与此同时,云计算的角色在发生变化。阿里云智能集团研究员、容器服务负责人易立表示,过去云计算主要提供的是算力,而现在,云还要提供一整套能够让智能体安全运行、稳定交付、持续进化的平台能力。 作为云原生的操作系统,容器的重要性因此再次凸显。它是 Agent 在云端部署的主流承载方式,提供标准化、轻量隔离的运行环境,并协同编排系统实现任务调度、弹性扩容,为上层的持续治理与监控奠定基础。根据 Docker 发布的《State of Agentic AI》报告,94% 的受访者在 Agent 的开发或生产环境中使用容器,其中 98% 延续了传统软件时代的云原生工作流。这表明,当 Agent 从实验走向生产,行业并没有舍弃已有的基础设施体系,反而更加依赖这些经过验证的交付和治理能力。 这背后对应的,其实正是 Agent 开发和使用者最在意的几件事:安全、稳定和可持续迭代。 最近爆火的 Agent 项目,包括 Kimi 的深度研究、通用 Agent 模式“OK Computer”、MiniMax 的 MaxClaw、MaxHermes等产品,背后都有阿里云支撑。而 AMD 也为阿里云提供了底层算力支撑。 为了支撑这一轮变化,云计算和芯片厂商分别做了哪些调整,又如何共同应对 Agent 负载带来的新压力? 在本期《C 位面对面》中,极客邦科技创始人、CEO 霍太稳邀请阿里云智能集团研究员、容器服务负责人易立,以及 AMD 全球副总裁、中国区互联网事业部总经理刘宏兵,一起讨论 Agent 时代基础设施正在发生的变化,以及这些变化把云计算和芯片引向什么方向。 技术和商业的早熟,推动龙虾爆发 OpenClaw 的爆火,让行业第一次更直观地看到 Agent 接管工作的可能。随后,越来越多厂商开始推出“国产龙虾”,把部署门槛、使用成本和上手难度一起拉低。结果是,Agent 不再只是少数人的玩具,而是在更大范围内快速扩散。 阿里云智能集团研究员、容器服务负责人易立,已经把龙虾真正嵌入了自己的工作流。他在不同环境里部署了不同角色的 Agent。云上 Agent,会在他上班路上提前整理好关注的新闻、热点和技术论文;作为容器服务团队负责人,他还需要 24 小时值守的 SRE Agent,帮助分析线上集群问题、处理异常;而桌面端的 Agent,则负责日程整理、技术规划、会议安排和纪要输出。 InfoQ 也关注到了更加“激进”的应用。霍太稳表示,TGO 鲲鹏会硅谷分会长黄东旭与超过 2500 个智能体协作,已经重写了过去一个团队花 10 年才完成的 TiDB 体系,他每天消耗的 Token 量,已经超过 10 亿。 与此同时,一些平台开始让 Agent 与 Agent 之间直接通信与协作,智能体逐渐形成网络结构,不再只是围绕人展开。 在观察到这种规模跃迁后,AMD 全球副总裁、中国区互联网事业部总经理刘宏兵打趣说,也许未来会出现一个“龙虾社会”。当越来越多人同时拥有、调用、依赖多个 Agent,而这些 Agent 又彼此协作时,这个略带玩笑意味的说法,正在变成一种现实。 这轮增长不只是技术能力带来的,也与商业闭环比过去来得更快有关。 AMD 全球副总裁、中国区互联网事业部总经理刘宏兵提到,互联网客户过去一直有时间焦虑,即前期的大规模投入,究竟什么时候才能真正变现。无论是早年的云计算,还是后来的 AI,产业都曾经历过很长的投入期,商业闭环来得很慢。 这一轮 Agent 热潮的特别之处在于,从模型、平台到应用,整个链条的变现速度都明显加快了。提供 Token 和云资源的大厂可以更快获得收入;个人用户和中小企业,也能更直接地把 Agent 转化为效率提升,甚至业务收益。 AI 负载的新需求 随着 Agent 应用的规模化落地,AI 工作负载正经历结构性分化。 与传统软件处理确定性、边界清晰的任务不同,Agent 需面向开放式目标进行自主决策、持续环境交互与长链路任务执行。这种范式转变,使得 Agent 在应用、推理与训练三个层面呈现出与传统 AI 负载截然不同的技术特征。 在应用层面,Agent 不再仅是简单的文本生成,它可以调用工具、连接系统,甚至执行代码。安全、隔离和可控性成为首要前提。每个 Agent 都需要运行在沙箱环境中,依托计算、存储和网络的协同控制,才能既安全又高效地完成任务。与此同时,Agent 常将复杂任务拆解成多步并行操作,例如新闻检索、数据分析或子 Agent 协作,这就对冷启动延迟、并发吞吐能力提出了高要求。再加上任务跨越多轮对话和多阶段执行,状态保存与休眠唤醒能力,成为保障连续性和降低成本的关键。 推理层的负载特征也发生显著变化。Agent 的上下文窗口不仅包含用户指令,还需动态嵌入规则定义、工具返回数据及历史交互轨迹,导致内存占用与计算开销呈非线性增长。这要求底层架构打破单一 GPU 加速的传统思路,转向 CPU、GPU、内存与高速网络的协同优化,以在保障长窗口推理稳定性的同时实现成本控制。 易立还指出,Agent 模型训练与传统的预训练也很不一样。传统预训练更关注 GPU 性能,但 Agent 模型必须在真实场景中模拟、学习复杂任务决策,其能力很大程度上取决于对工具调用的掌控,这意味着 CPU 计算吞吐、内存带宽以及分布式调度架构的协同效率,反而成为影响训练迭代速度的关键瓶颈。 整体而言,Agent Infra 的核心命题早已不再是高效运行模型,而是实现智能体的安全隔离、状态管理与规模化运行。 Agent Infra 的四个关键问题 AI 负载的变化,也在改变行业真正关心的指标。刘宏兵说,过去大家更关注模型刷分,看榜单、看参数、看单点能力;但到了生产环境里,客户最终关心的,是能不能稳定交付业务结果,以及端到端体验和 ROI。 在这种前提下,Agent Infra 至少要解决四个问题:强隔离、高并发和低时延、状态和记忆管理,以及长链路执行。 首先是强隔离。 Agent 不只是生成文本,它还会调用工具、连接企业