两个第一,两场战争,火山引擎依然是阿里云的最大变量

2026-05-21 1 阅读 强调Next
文 | 强调Next 5月20日,阿里云发布新一代旗舰模型Qwen3.7-Max。当晚蔡崇信和吴泳铭发布股东信表态,再次强调阿里云的战略地位。 两周前,火山引擎刚刚披露一组数字:根据IDC报告 2025年全年,火山引擎在中国企业级MaaS市场的Token调用量份额达到49.5%,阿里云28%,百度10%。 阿里云的模型更强了。但在调用量这张榜单上,它还落在火山引擎后面将近二十个百分点。 而就在Qwen3.7-Max发布会的前一天,阿里云高调发布了另一个行业榜单。Omdia统计的包含IaaS、PaaS、MaaS全链条的AI云整体收入,阿里云以35.8%排在第一,火山引擎14.8%。 两张榜单,两个第一,两种叙事,足以窥见双方的竞争烈度。两张榜单背后,谁在建真正的护城河,还没有答案。 01.评测的游戏,已经不只是跑分 昨天的发布会上,阿里云列出的评测清单比以往长了很多。除了GPQA、数学、代码这些通用项,还出现了SWE-Pro、MCP-Mark、Qwen SVG、Qwen World Bench、Qwenclaw、ClawEval等一批更偏Agent场景的测试。 大模型行业跑了三年基准测试,MMLU、HumanEval、Arena已经被磨得快没有区分度了,回答不了“谁更强”这个问题。 于是新一轮竞争转移到了出题权上。Agent任务的评测更复杂,变量更多:模型本身的能力、工具接口质量、任务拆解方式、评分规则,每一个环节都能影响最终结果。这给了有研发余量的大厂足够的操作空间,他们把自己擅长的任务形态写进评测框架,在新赛道上先占有利位置。 OpenAI有自己的Evals,Anthropic有Claude工程任务集,Google有AIME和代码竞赛系列。阿里云这次密集推出Qwen前缀的专项测试,逻辑一样。火山引擎的豆包大模型2.0在今年2月密集更新了多模态能力评测维度,重点强调OS Agent和复杂指令遵循,刻意回避了与Qwen正面竞争的赛道选择。 各家都在用自己擅长的题目给自己打分。阿里出的题阿里能赢,火山出的题火山能赢,有参考意义,但不大。 旗舰模型之间的能力差距还在快速收窄,benchmark的边际解释力也在同步下降。一个模型在某张榜单领先0.5分,未必能转化为真实业务中的稳定优势。企业客户最终关心的不是谁拿了第一,而是模型能不能持续完成任务、出错后能不能自己改正、成本能不能算清楚。 Agent竞争的重心正在从“回答质量”迁移到“执行可靠性”。这是Qwen3.7-Max这次想证明的东西,但仅靠发布会数字还不够。 02.开发者入口:三条截然不同的路 阿里云强调,Qwen3.7-Max具备跨框架泛化能力,并点名支持Claude Code、OpenClaw、Qwen Code等工具。 Claude Code是Anthropic今年增长最快的产品线之一,用户基数和粘性越来越高。 阿里云的切入方式是把工具层和模型层显式拆开。开发者继续用Claude Code,但底层调用换成Qwen。 阿里云的如意算盘是,让Anthropic做生态,自己做替换。这个逻辑能不能跑通,取决于Anthropic愿不愿意配合,而Anthropic现在正在把Claude和Claude Code绑得越来越紧。 火山引擎走的是另一条路。2026年3月,它正式发布ArkClaw。这是一款云端SaaS版的OpenClaw托管服务。 字节的策略是不让开发者折腾本地环境、配API、装Python,在火山方舟控制台开通会员、点“立即创建”,两分钟内一个云端OpenClaw实例就跑起来了。ArkClaw深度绑定飞书生态,支持飞书应用市场一键安装,聊天窗口里直接@智能体就能订会议室、批量生成文档、管理多维表格。 DeepSeek也在同一时间节点出手。近日DeepSeek发布了Harness产品经理和Harness研发工程师两个新岗位,岗位 JD直接写明:“除模型本身以外,所有工作都属于Harness的范畴”,相关人员将参与“DeepSeek桌面端Agent产品”的全过程,并“定义DeepSeek对Harness的理解”。更早的3月,DeepSeek曾一口气放出17个Agent方向岗位,要求候选人“深度使用过Claude Code、OpenClaw、Manus等知名Agent”。从大量招聘到组建专项团队,DeepSeek从“只做模型”到“也做上层产品”的转变,现在已经够明确了。 阿里云盯住全球开发者工具链里的模型替换空间,火山引擎把Agent能力嵌进中国企业最常用的办公IM,DeepSeek则直接做桌面端Agent产品,正面和Claude Code竞争。三家的目标客群有交叉,核心打法差异很大。 这三种路径各有壁垒,也各有弱点。ArkClaw的优势在低门槛和飞书生态的自然渗透,弱点是字节的B端客户以前沿开发者和AI创业公司为主,进入金融、制造、政府等重型企业客户的能力还有限,也很难像阿里云那样把模型服务和存储、数据库、安全等周边云产品打包销售。阿里云的全栈布局让它在企业客户里有更强的话语权,但这也意味着销售周期更长、客制化交付更重。DeepSeek的强项是模型本身的技术声誉,但产品、运营、用户留存,这些都不是做模型的公司天然擅长的事。 有开发者坦言,即便阿里推出了百炼平台也没有迁移的打算。“迁移本身就是成本。除非千问的能力强到明显碾压其他模型,或者完全免费,我才会考虑迁移。” Anthropic已经开始把Claude模型和Claude Code绑定得更深:更稳定的项目级上下文、更精细的工具调用协议,以及一些设计上只有Claude才能完整激活的能力。工具层和模型层一旦重新耦合,第三方模型即便能接入,也只是“能跑”,而不是“好用”。 03.模型强不等于云收入强 发布Qwen3.7-Max的同一天,阿里巴巴集团主席蔡崇信和CEO吴泳铭联合发布致股东信,措辞罕见地直接:“AI业务已跨越初期投入阶段,正式迈入商业化回报周期。”信中还写道,阿里正在加大对全栈AI能力的投资,要“打造更强大的MaaS产品,来更高效地实现模型与应用的连接”。 这是阿里云最想讲的资本故事:模型越强,云业务越受益。 阿里的布局从云基础设施、大模型、企业客户、电商和办公场景、芯片到服务器全覆盖,是国内云厂商中最接近真正意义上“AI全栈”的。去年11月,阿里启动“百炼战役”,目标是短期内将百炼Token调用规模提升三倍以上;今年3月,集团CEO吴泳铭直接带队成立Alibaba Token Hub事业群。市场大体上认可这个方向。 但增长数字并不意味着增长质量。 回到开头那两张榜单。IDC按Token调用量统计,火山引擎2025年全年占49.5%,阿里云28%;Omdia按全链条AI云收入统计,阿里云35.8%,火山引擎14.8%。这种“双第一”格局的背后,是两套完全不同的商业逻辑。 有数据显示,按Token计费的MaaS服务收入,目前仅占整个AI云市场规模的不到1%。Token调用量增速惊人,但它还没有成为真正的收入大头。这意味着,火山引擎“MaaS Token调用量第一”的标签,和“AI云收入第一”之间,还有相当长的距离需要穿越。同样,阿里云“全栈AI云收入领先”,也不能直接转译为Qwen的模