阿里巴巴重新做云的决心，还是被低估了

过去一年，外界对阿里云乃至阿里巴巴的讨论，大多集中在一件事上，它以史无前例的资本投入，重注AI基础设施。外界甚至有些不解，做一个面向AI时代的云底座，需要花费这么多钱么，阿里巴巴是不是过于激进，想靠AI的资本叙事推升股价？这些问题本身没有错，但它隐含了一个前提，还是用老框架评估阿里云，看市场份额、看增速、看跟AWS和Azure的差距。 5月20日的阿里云峰会，阿里云给出的答案，不在这个框架里。阿里云资深副总裁刘伟光表示，Agent突破临界点之后可以24小时不间断工作，对AI和云的需求无穷无尽。阿里云正在进行全栈技术革新，从底层芯片、Agentic Cloud、模型到推理平台全面升级，建设中国最大的AI工厂。无独有偶，同期谷歌的I/O大会核心主题也是Agent，谷歌把智能体全面塞进所有核心入口，从搜索框到Chrome浏览器，从Android手机到智能眼镜，Gemini不再只是一个对话助手，变成一个可以持续运行、跨应用执行任务的AI代理。AWS，微软Azure都同样基于Agent的逻辑，重塑自己的业务和基础设施底座。全球头部云厂商，他们自身也是大模型头部厂商，达成了一种默契，旧的云撑不住未来的Agent，基础设施需要为Agent重建。就以往而言，大多数厂商的路线是，在现有架构上叠加一个Agent层，底层基础设施改动有限。现在，阿里云真正意义上将云、芯片、模型做成一体化的组合。当云的客户从人变成Agent 理解阿里云这次重构的关键，在于一个判断，Agent的负载特征，和传统云计算的负载特征，是两种完全不同的逻辑。传统云计算的典型负载是稳态的，一个企业买一台ECS，跑一个网站或者一个数据库，流量相对可预测，资源长期占用，云厂商的商业模式也因此围绕资源出租来设计，计算、存储和网络，是云计算生意的三大件。但Agent的工作模式完全不同，一个Agent在执行任务时，可能在毫秒间连续发起数十次模型调用，执行完任务立即销毁环境，下一次被唤醒可能是几分钟后，也可能是几秒后，它的负载特性无规律且突发，在短生命周期内瞬时起量，用完即走。表面上Agent调用的是模型，实际上是一整套AI全栈体系，它还需要沙箱环境来运行代码，需要数据库存储中间状态，需要网络访问外部工具，一个Agent的一次任务执行，牵动计算、存储、网络、模型推理等多种资源的协同调度。新旧时代的云计算，复杂度完全是两个量级的问题。刘伟光提到，今年春节后，龙虾类智能体产品上线后，阿里云发现了一个有趣的现象，过去企业开通云资源需要人登录控制台手动操作，当下Agent直接在后台自动激活了云计算资源。 “Agent能够以分钟为单位完成的云计算资源服务开通，可能是过去我们人以天为单位完成的工作。”刘伟光说。这由不得云厂商不注意，Agent已经在成为云计算的新界面，阿里云由此做出的判断是，未来云计算产品的主要使用对象，将逐渐从人类工程师变成Agent。这个判断，也贯穿阿里云的整个重构逻辑，为了让Agent真正用得上云，阿里云对云产品进行了三个维度的改造，Skill化、MCP化和CLI化。简单来说，就是把每一个云产品都变成Agent可以像调函数一样调用的标准化能力模块，传统云产品的控制台对人友好，但对Agent毫无意义，Agent需要的是结构化的能力描述，以及明确的调用协议。这套体系被阿里云命名为“Agentic Cloud”，区别于以往几年为大模型训练和推理服务的“AI Native Cloud”。两者的区别在于，AI Native Cloud更多专注在模型的生产迭代，提供弹性高效的算力调度，Agentic Cloud面向的是智能体的运行时，提供沙箱、AI网关、记忆管理、安全防护与编排治理等全套能力。数年之前云厂商做AI，主要是把算力资源卖给模型公司去训练和推理，如今阿里云要做的，是让云本身成为Agent运行的操作系统。阿里云补上所有拼图如果说，Agentic Cloud是阿里云在架构层面的回答，那芯片就是这个回答的物理基础。在本次峰会上，阿里云公布了自研芯片的路线图，平头哥发布了新一代训推一体AI芯片真武M890，144GB显存，片间互联带宽800GB/s，性能是上一代真武810E的3倍。配套发布的ICN Switch 1.0互联芯片，可以将128张AI芯片组成一台超节点服务器，P2P时延低于150纳秒。据介绍，平头哥未来两年将陆续推出算力更强的真武V900、真武J900两代芯片，这大概率意味着，阿里云的芯片迭代节奏，与模型迭代节奏对齐，每一代芯片性能的提升，直接转化为大模型训练和推理能力的跃升。目前真武系列AI芯片累计出货56万片，已服务20多个行业的400多家客户，覆盖电信、汽车、金融等领域。加上阿里自研的倚天系列CPU、磐脉智能网卡、镇岳存储主控芯片，阿里芯片版图已经从单点突破走到了全面覆盖，算力、网力、存力三个维度的数据中心芯片矩阵，在国内云厂商中独一份。刘伟光也反复强调了芯片－云－模型－推理一体化的逻辑，“今天给客户最终呈现的结果，是齿轮咬合的组合效应，是模型能力、芯片能力和云能力三件事的完整有机结合。” 在芯片和模型之间，百炼推理平台起到“生产车间”的作用，阿里云在百炼上构建了大规模GPU资源集群，并通过一套针对Agent场景的技术栈来应对推理侧的特殊挑战，并池调度将GPU资源统一管理，提升整体利用率；上下文缓存消除Agent在多轮对话和长链路任务中的重复计算开销；吞吐弹性调度应对Agent并发请求的波峰波谷，确保流量激增时不崩溃、低谷期不浪费。更值得注意的是Agentic RL机制，基于Agent实际执行反馈的强化学习，让模型在真实场景中越用越好，形成持续迭代的闭环。此外，百炼内建了安全治理能力，这一点在Agent自主运行的语境下极其关键，一个24小时不间断执行任务的Agent，如果没有边界约束，后果不可控，百炼的安全机制确保Agent始终在预设的权限范围内行动。类比谷歌，谷歌的TPU和Gemini模型的深度绑定，在其自有的深度学习框架里跑出了最高的性价比，不论是技术还是资本市场，都已经高度认可这条路线。阿里用自研芯片跑自研模型，通过软硬件的深度协同，也可以把每一张芯片的每一个算力单元都榨到极致。再看模型部分，最新发布的Qwen3.7-Max在三方机构Arena全球大模型盲测总榜中，Qwen3.7-Max位列国产模型第一，与GPT、Claude、Gemini的最强模型接近。 Qwen3.7-Max可独立执行35小时的长程复杂任务更有说服力的是一个实战案例，在从未接触过的真武M890芯片上，Qwen3.7-Max仅凭一份任务说明，从零开始自主工作35小时，独立完成了一个生产级AI计算内核的编写与调优，最终性能较官方版本提升10倍。没有人类干预，没有中间指导，35小时，从零到生产级，这充分体现出模型“自主完成复杂工程任务”的能力，它运行的硬件底座，恰恰是阿里自研的芯片，芯片和模型的协同进化，在这个案例里被具象化了。值得一提的是，近3个月内千问旗舰模型已经连续迭代了3.5、3.6、3.7三个版本。这种发布节奏本身就说明，阿里巴巴在刻意加速模型进化，以匹配Agent时代对模型能力的指数级增长需求。反

订阅66必读