科技头条
morning
阿里巴巴重新做云的决心,还是被低估了
2026-05-25
1 阅读
TechPulse
过去一年,外界对阿里云乃至阿里巴巴的讨论,大多集中在一件事上,它以史无前例的资本投入,重注AI基础设施。 外界甚至有些不解,做一个面向AI时代的云底座,需要花费这么多钱么,阿里巴巴是不是过于激进,想靠AI的资本叙事推升股价? 这些问题本身没有错,但它隐含了一个前提,还是用老框架评估阿里云,看市场份额、看增速、看跟AWS和Azure的差距。 5月20日的阿里云峰会,阿里云给出的答案,不在这个框架里。 阿里云资深副总裁刘伟光表示,Agent突破临界点之后可以24小时不间断工作,对AI和云的需求无穷无尽。阿里云正在进行全栈技术革新,从底层芯片、Agentic Cloud、模型到推理平台全面升级,建设中国最大的AI工厂。 无独有偶,同期谷歌的I/O大会核心主题也是Agent,谷歌把智能体全面塞进所有核心入口,从搜索框到Chrome浏览器,从Android手机到智能眼镜,Gemini不再只是一个对话助手,变成一个可以持续运行、跨应用执行任务的AI代理。AWS,微软Azure都同样基于Agent的逻辑,重塑自己的业务和基础设施底座。 全球头部云厂商,他们自身也是大模型头部厂商,达成了一种默契,旧的云撑不住未来的Agent,基础设施需要为Agent重建。就以往而言,大多数厂商的路线是,在现有架构上叠加一个Agent层,底层基础设施改动有限。 现在,阿里云真正意义上将云、芯片、模型做成一体化的组合。 当云的客户从人变成Agent 理解阿里云这次重构的关键,在于一个判断,Agent的负载特征,和传统云计算的负载特征,是两种完全不同的逻辑。 传统云计算的典型负载是稳态的,一个企业买一台ECS,跑一个网站或者一个数据库,流量相对可预测,资源长期占用,云厂商的商业模式也因此围绕资源出租来设计,计算、存储和网络,是云计算生意的三大件。 但Agent的工作模式完全不同,一个Agent在执行任务时,可能在毫秒间连续发起数十次模型调用,执行完任务立即销毁环境,下一次被唤醒可能是几分钟后,也可能是几秒后,它的负载特性无规律且突发,在短生命周期内瞬时起量,用完即走。 表面上Agent调用的是模型,实际上是一整套AI全栈体系,它还需要沙箱环境来运行代码,需要数据库存储中间状态,需要网络访问外部工具,一个Agent的一次任务执行,牵动计算、存储、网络、模型推理等多种资源的协同调度。 新旧时代的云计算,复杂度完全是两个量级的问题。刘伟光提到,今年春节后,龙虾类智能体产品上线后,阿里云发现了一个有趣的现象,过去企业开通云资源需要人登录控制台手动操作,当下Agent直接在后台自动激活了云计算资源。 “Agent能够以分钟为单位完成的云计算资源服务开通,可能是过去我们人以天为单位完成的工作。”刘伟光说。这由不得云厂商不注意,Agent已经在成为云计算的新界面,阿里云由此做出的判断是,未来云计算产品的主要使用对象,将逐渐从人类工程师变成Agent。 这个判断,也贯穿阿里云的整个重构逻辑,为了让Agent真正用得上云,阿里云对云产品进行了三个维度的改造,Skill化、MCP化和CLI化。 简单来说,就是把每一个云产品都变成Agent可以像调函数一样调用的标准化能力模块,传统云产品的控制台对人友好,但对Agent毫无意义,Agent需要的是结构化的能力描述,以及明确的调用协议。 这套体系被阿里云命名为“Agentic Cloud”,区别于以往几年为大模型训练和推理服务的“AI Native Cloud”。两者的区别在于,AI Native Cloud更多专注在模型的生产迭代,提供弹性高效的算力调度,Agentic Cloud面向的是智能体的运行时,提供沙箱、AI网关、记忆管理、安全防护与编排治理等全套能力。 数年之前云厂商做AI,主要是把算力资源卖给模型公司去训练和推理,如今阿里云要做的,是让云本身成为Agent运行的操作系统。 阿里云补上所有拼图 如果说,Agentic Cloud是阿里云在架构层面的回答,那芯片就是这个回答的物理基础。 在本次峰会上,阿里云公布了自研芯片的路线图,平头哥发布了新一代训推一体AI芯片真武M890,144GB显存,片间互联带宽800GB/s,性能是上一代真武810E的3倍。配套发布的ICN Switch 1.0互联芯片,可以将128张AI芯片组成一台超节点服务器,P2P时延低于150纳秒。 据介绍,平头哥未来两年将陆续推出算力更强的真武V900、真武J900两代芯片,这大概率意味着,阿里云的芯片迭代节奏,与模型迭代节奏对齐,每一代芯片性能的提升,直接转化为大模型训练和推理能力的跃升。 目前真武系列AI芯片累计出货56万片,已服务20多个行业的400多家客户,覆盖电信、汽车、金融等领域。加上阿里自研的倚天系列CPU、磐脉智能网卡、镇岳存储主控芯片,阿里芯片版图已经从单点突破走到了全面覆盖,算力、网力、存力三个维度的数据中心芯片矩阵,在国内云厂商中独一份。 刘伟光也反复强调了芯片-云-模型-推理一体化的逻辑,“今天给客户最终呈现的结果,是齿轮咬合的组合效应,是模型能力、芯片能力和云能力三件事的完整有机结合。” 在芯片和模型之间,百炼推理平台起到“生产车间”的作用,阿里云在百炼上构建了大规模GPU资源集群,并通过一套针对Agent场景的技术栈来应对推理侧的特殊挑战,并池调度将GPU资源统一管理,提升整体利用率;上下文缓存消除Agent在多轮对话和长链路任务中的重复计算开销;吞吐弹性调度应对Agent并发请求的波峰波谷,确保流量激增时不崩溃、低谷期不浪费。 更值得注意的是Agentic RL机制,基于Agent实际执行反馈的强化学习,让模型在真实场景中越用越好,形成持续迭代的闭环。此外,百炼内建了安全治理能力,这一点在Agent自主运行的语境下极其关键,一个24小时不间断执行任务的Agent,如果没有边界约束,后果不可控,百炼的安全机制确保Agent始终在预设的权限范围内行动。 类比谷歌,谷歌的TPU和Gemini模型的深度绑定,在其自有的深度学习框架里跑出了最高的性价比,不论是技术还是资本市场,都已经高度认可这条路线。阿里用自研芯片跑自研模型,通过软硬件的深度协同,也可以把每一张芯片的每一个算力单元都榨到极致。 再看模型部分,最新发布的Qwen3.7-Max在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max位列国产模型第一,与GPT、Claude、Gemini的最强模型接近。 Qwen3.7-Max可独立执行35小时的长程复杂任务 更有说服力的是一个实战案例,在从未接触过的真武M890芯片上,Qwen3.7-Max仅凭一份任务说明,从零开始自主工作35小时,独立完成了一个生产级AI计算内核的编写与调优,最终性能较官方版本提升10倍。 没有人类干预,没有中间指导,35小时,从零到生产级,这充分体现出模型“自主完成复杂工程任务”的能力,它运行的硬件底座,恰恰是阿里自研的芯片,芯片和模型的协同进化,在这个案例里被具象化了。 值得一提的是,近3个月内千问旗舰模型已经连续迭代了3.5、3.6、3.7三个版本。这种发布节奏本身就说明,阿里巴巴在刻意加速模型进化,以匹配Agent时代对模型能力的指数级增长需求。 反