当 Agent 开始接管工作流，企业最在意的三件事：安全运行、稳定交付、持续进化

Agentic AI 的开发和大量落地，正在把一批过去不够显眼的基础设施问题推到台前。过去两年，市场谈 AI 算力有一种简化认知：AI 算力，几乎等同于 GPU。类似的简化也发生在云上。在很多人眼中，云计算等同于“租算力”。云像是一座远程大机房，负责把算力供给出去，至于应用如何运行、协作、演进，往往被放在次要位置。这套认知已经脱离产业事实了。 AI 产业逐步从单纯聚焦模型训练，转向同时重视模型部署、推理效率与真实应用落地。在 Agent 爆发的背景下，AI 工作负载正变得更碎片化、更动态，也更依赖高频任务调度、内存管理、工具调用与系统编排。随着 AI 负载类型和规模的变化，云计算和 CPU 都被委以重要使命和新的期待。首先，CPU 正在重新获得更高的关注度。 Agent 负载的特点，正在催高市场对高核心数 CPU 的需求，尤其是在云端多租户、沙箱执行、会话并发和多 Agent 协作等场景里，CPU 承担着任务编排、执行铺开与资源调度的关键职责。这种变化已经传导到业务侧。AMD 全球副总裁、中国区互联网事业部总经理刘宏兵也提到，过去几个月，公司一直在尽最大可能保障客户需求及AI 基础设施。与此同时，云计算的角色在发生变化。阿里云智能集团研究员、容器服务负责人易立表示，过去云计算主要提供的是算力，而现在，云还要提供一整套能够让智能体安全运行、稳定交付、持续进化的平台能力。作为云原生的操作系统，容器的重要性因此再次凸显。它是 Agent 在云端部署的主流承载方式，提供标准化、轻量隔离的运行环境，并协同编排系统实现任务调度、弹性扩容，为上层的持续治理与监控奠定基础。根据 Docker 发布的《State of Agentic AI》报告，94% 的受访者在 Agent 的开发或生产环境中使用容器，其中 98% 延续了传统软件时代的云原生工作流。这表明，当 Agent 从实验走向生产，行业并没有舍弃已有的基础设施体系，反而更加依赖这些经过验证的交付和治理能力。这背后对应的，其实正是 Agent 开发和使用者最在意的几件事：安全、稳定和可持续迭代。最近爆火的 Agent 项目，包括 Kimi 的深度研究、通用 Agent 模式“OK Computer”、MiniMax 的 MaxClaw、MaxHermes等产品，背后都有阿里云支撑。而 AMD 也为阿里云提供了底层算力支撑。为了支撑这一轮变化，云计算和芯片厂商分别做了哪些调整，又如何共同应对 Agent 负载带来的新压力？在本期《C 位面对面》中，极客邦科技创始人、CEO 霍太稳邀请阿里云智能集团研究员、容器服务负责人易立，以及 AMD 全球副总裁、中国区互联网事业部总经理刘宏兵，一起讨论 Agent 时代基础设施正在发生的变化，以及这些变化把云计算和芯片引向什么方向。技术和商业的早熟，推动龙虾爆发 OpenClaw 的爆火，让行业第一次更直观地看到 Agent 接管工作的可能。随后，越来越多厂商开始推出“国产龙虾”，把部署门槛、使用成本和上手难度一起拉低。结果是，Agent 不再只是少数人的玩具，而是在更大范围内快速扩散。阿里云智能集团研究员、容器服务负责人易立，已经把龙虾真正嵌入了自己的工作流。他在不同环境里部署了不同角色的 Agent。云上 Agent，会在他上班路上提前整理好关注的新闻、热点和技术论文；作为容器服务团队负责人，他还需要 24 小时值守的 SRE Agent，帮助分析线上集群问题、处理异常；而桌面端的 Agent，则负责日程整理、技术规划、会议安排和纪要输出。 InfoQ 也关注到了更加“激进”的应用。霍太稳表示，TGO 鲲鹏会硅谷分会长黄东旭与超过 2500 个智能体协作，已经重写了过去一个团队花 10 年才完成的 TiDB 体系，他每天消耗的 Token 量，已经超过 10 亿。与此同时，一些平台开始让 Agent 与 Agent 之间直接通信与协作，智能体逐渐形成网络结构，不再只是围绕人展开。在观察到这种规模跃迁后，AMD 全球副总裁、中国区互联网事业部总经理刘宏兵打趣说，也许未来会出现一个“龙虾社会”。当越来越多人同时拥有、调用、依赖多个 Agent，而这些 Agent 又彼此协作时，这个略带玩笑意味的说法，正在变成一种现实。这轮增长不只是技术能力带来的，也与商业闭环比过去来得更快有关。 AMD 全球副总裁、中国区互联网事业部总经理刘宏兵提到，互联网客户过去一直有时间焦虑，即前期的大规模投入，究竟什么时候才能真正变现。无论是早年的云计算，还是后来的 AI，产业都曾经历过很长的投入期，商业闭环来得很慢。这一轮 Agent 热潮的特别之处在于，从模型、平台到应用，整个链条的变现速度都明显加快了。提供 Token 和云资源的大厂可以更快获得收入；个人用户和中小企业，也能更直接地把 Agent 转化为效率提升，甚至业务收益。 AI 负载的新需求随着 Agent 应用的规模化落地，AI 工作负载正经历结构性分化。与传统软件处理确定性、边界清晰的任务不同，Agent 需面向开放式目标进行自主决策、持续环境交互与长链路任务执行。这种范式转变，使得 Agent 在应用、推理与训练三个层面呈现出与传统 AI 负载截然不同的技术特征。在应用层面，Agent 不再仅是简单的文本生成，它可以调用工具、连接系统，甚至执行代码。安全、隔离和可控性成为首要前提。每个 Agent 都需要运行在沙箱环境中，依托计算、存储和网络的协同控制，才能既安全又高效地完成任务。与此同时，Agent 常将复杂任务拆解成多步并行操作，例如新闻检索、数据分析或子 Agent 协作，这就对冷启动延迟、并发吞吐能力提出了高要求。再加上任务跨越多轮对话和多阶段执行，状态保存与休眠唤醒能力，成为保障连续性和降低成本的关键。推理层的负载特征也发生显著变化。Agent 的上下文窗口不仅包含用户指令，还需动态嵌入规则定义、工具返回数据及历史交互轨迹，导致内存占用与计算开销呈非线性增长。这要求底层架构打破单一 GPU 加速的传统思路，转向 CPU、GPU、内存与高速网络的协同优化，以在保障长窗口推理稳定性的同时实现成本控制。易立还指出，Agent 模型训练与传统的预训练也很不一样。传统预训练更关注 GPU 性能，但 Agent 模型必须在真实场景中模拟、学习复杂任务决策，其能力很大程度上取决于对工具调用的掌控，这意味着 CPU 计算吞吐、内存带宽以及分布式调度架构的协同效率，反而成为影响训练迭代速度的关键瓶颈。整体而言，Agent Infra 的核心命题早已不再是高效运行模型，而是实现智能体的安全隔离、状态管理与规模化运行。 Agent Infra 的四个关键问题 AI 负载的变化，也在改变行业真正关心的指标。刘宏兵说，过去大家更关注模型刷分，看榜单、看参数、看单点能力；但到了生产环境里，客户最终关心的，是能不能稳定交付业务结果，以及端到端体验和 ROI。在这种前提下，Agent Infra 至少要解决四个问题：强隔离、高并发和低时延、状态和记忆管理，以及长链路执行。首先是强隔离。 Agent 不只是生成文本，它还会调用工具、连接企业