两个第一，两场战争，火山引擎依然是阿里云的最大变量

文 | 强调Next 5月20日，阿里云发布新一代旗舰模型Qwen3.7-Max。当晚蔡崇信和吴泳铭发布股东信表态，再次强调阿里云的战略地位。两周前，火山引擎刚刚披露一组数字：根据IDC报告 2025年全年，火山引擎在中国企业级MaaS市场的Token调用量份额达到49.5%，阿里云28%，百度10%。阿里云的模型更强了。但在调用量这张榜单上，它还落在火山引擎后面将近二十个百分点。而就在Qwen3.7-Max发布会的前一天，阿里云高调发布了另一个行业榜单。Omdia统计的包含IaaS、PaaS、MaaS全链条的AI云整体收入，阿里云以35.8%排在第一，火山引擎14.8%。两张榜单，两个第一，两种叙事，足以窥见双方的竞争烈度。两张榜单背后，谁在建真正的护城河，还没有答案。 01.评测的游戏，已经不只是跑分昨天的发布会上，阿里云列出的评测清单比以往长了很多。除了GPQA、数学、代码这些通用项，还出现了SWE-Pro、MCP-Mark、Qwen SVG、Qwen World Bench、Qwenclaw、ClawEval等一批更偏Agent场景的测试。大模型行业跑了三年基准测试，MMLU、HumanEval、Arena已经被磨得快没有区分度了，回答不了“谁更强”这个问题。于是新一轮竞争转移到了出题权上。Agent任务的评测更复杂，变量更多：模型本身的能力、工具接口质量、任务拆解方式、评分规则，每一个环节都能影响最终结果。这给了有研发余量的大厂足够的操作空间，他们把自己擅长的任务形态写进评测框架，在新赛道上先占有利位置。 OpenAI有自己的Evals，Anthropic有Claude工程任务集，Google有AIME和代码竞赛系列。阿里云这次密集推出Qwen前缀的专项测试，逻辑一样。火山引擎的豆包大模型2.0在今年2月密集更新了多模态能力评测维度，重点强调OS Agent和复杂指令遵循，刻意回避了与Qwen正面竞争的赛道选择。各家都在用自己擅长的题目给自己打分。阿里出的题阿里能赢，火山出的题火山能赢，有参考意义，但不大。旗舰模型之间的能力差距还在快速收窄，benchmark的边际解释力也在同步下降。一个模型在某张榜单领先0.5分，未必能转化为真实业务中的稳定优势。企业客户最终关心的不是谁拿了第一，而是模型能不能持续完成任务、出错后能不能自己改正、成本能不能算清楚。 Agent竞争的重心正在从“回答质量”迁移到“执行可靠性”。这是Qwen3.7-Max这次想证明的东西，但仅靠发布会数字还不够。 02.开发者入口：三条截然不同的路阿里云强调，Qwen3.7-Max具备跨框架泛化能力，并点名支持Claude Code、OpenClaw、Qwen Code等工具。 Claude Code是Anthropic今年增长最快的产品线之一，用户基数和粘性越来越高。阿里云的切入方式是把工具层和模型层显式拆开。开发者继续用Claude Code，但底层调用换成Qwen。阿里云的如意算盘是，让Anthropic做生态，自己做替换。这个逻辑能不能跑通，取决于Anthropic愿不愿意配合，而Anthropic现在正在把Claude和Claude Code绑得越来越紧。火山引擎走的是另一条路。2026年3月，它正式发布ArkClaw。这是一款云端SaaS版的OpenClaw托管服务。字节的策略是不让开发者折腾本地环境、配API、装Python，在火山方舟控制台开通会员、点“立即创建”，两分钟内一个云端OpenClaw实例就跑起来了。ArkClaw深度绑定飞书生态，支持飞书应用市场一键安装，聊天窗口里直接@智能体就能订会议室、批量生成文档、管理多维表格。 DeepSeek也在同一时间节点出手。近日DeepSeek发布了Harness产品经理和Harness研发工程师两个新岗位，岗位 JD直接写明：“除模型本身以外，所有工作都属于Harness的范畴”，相关人员将参与“DeepSeek桌面端Agent产品”的全过程，并“定义DeepSeek对Harness的理解”。更早的3月，DeepSeek曾一口气放出17个Agent方向岗位，要求候选人“深度使用过Claude Code、OpenClaw、Manus等知名Agent”。从大量招聘到组建专项团队，DeepSeek从“只做模型”到“也做上层产品”的转变，现在已经够明确了。阿里云盯住全球开发者工具链里的模型替换空间，火山引擎把Agent能力嵌进中国企业最常用的办公IM，DeepSeek则直接做桌面端Agent产品，正面和Claude Code竞争。三家的目标客群有交叉，核心打法差异很大。这三种路径各有壁垒，也各有弱点。ArkClaw的优势在低门槛和飞书生态的自然渗透，弱点是字节的B端客户以前沿开发者和AI创业公司为主，进入金融、制造、政府等重型企业客户的能力还有限，也很难像阿里云那样把模型服务和存储、数据库、安全等周边云产品打包销售。阿里云的全栈布局让它在企业客户里有更强的话语权，但这也意味着销售周期更长、客制化交付更重。DeepSeek的强项是模型本身的技术声誉，但产品、运营、用户留存，这些都不是做模型的公司天然擅长的事。有开发者坦言，即便阿里推出了百炼平台也没有迁移的打算。“迁移本身就是成本。除非千问的能力强到明显碾压其他模型，或者完全免费，我才会考虑迁移。” Anthropic已经开始把Claude模型和Claude Code绑定得更深：更稳定的项目级上下文、更精细的工具调用协议，以及一些设计上只有Claude才能完整激活的能力。工具层和模型层一旦重新耦合，第三方模型即便能接入，也只是“能跑”，而不是“好用”。 03.模型强不等于云收入强发布Qwen3.7-Max的同一天，阿里巴巴集团主席蔡崇信和CEO吴泳铭联合发布致股东信，措辞罕见地直接：“AI业务已跨越初期投入阶段，正式迈入商业化回报周期。”信中还写道，阿里正在加大对全栈AI能力的投资，要“打造更强大的MaaS产品，来更高效地实现模型与应用的连接”。这是阿里云最想讲的资本故事：模型越强，云业务越受益。阿里的布局从云基础设施、大模型、企业客户、电商和办公场景、芯片到服务器全覆盖，是国内云厂商中最接近真正意义上“AI全栈”的。去年11月，阿里启动“百炼战役”，目标是短期内将百炼Token调用规模提升三倍以上；今年3月，集团CEO吴泳铭直接带队成立Alibaba Token Hub事业群。市场大体上认可这个方向。但增长数字并不意味着增长质量。回到开头那两张榜单。IDC按Token调用量统计，火山引擎2025年全年占49.5%，阿里云28%；Omdia按全链条AI云收入统计，阿里云35.8%，火山引擎14.8%。这种“双第一”格局的背后，是两套完全不同的商业逻辑。有数据显示，按Token计费的MaaS服务收入，目前仅占整个AI云市场规模的不到1%。Token调用量增速惊人，但它还没有成为真正的收入大头。这意味着，火山引擎“MaaS Token调用量第一”的标签，和“AI云收入第一”之间，还有相当长的距离需要穿越。同样，阿里云“全栈AI云收入领先”，也不能直接转译为Qwen的模

订阅66必读