科技头条
morning
全球Token,短缺了
2026-05-25
1 阅读
影子备忘录
文 | 影子备忘录 你有没有发现,最近的AI好像越来越“小气”了? 打开Claude Code写代码,没过多久弹窗提示“本周Token使用量已达限额的90%”;用Kimi查资料,高峰期经常提示“算力不足,请稍后再试”;就连Seedance生成一个视频,排队时间也越来越长。 这不仅仅是网络卡顿,而是一场正在席卷全球的“Token短缺”危机。 Token——AI处理信息的最小单元,你可以理解为AI的“呼吸”。一次简单的问答消耗几个Token,而让AI帮你写一份竞品分析报告、整理一周的工作日志,它就得“深呼吸”千百次。现在的问题是,全球AI的“肺活量”快不够用了。 一个叫Token的“新货币”,正在被挤兑 先看一组数据。 OpenAI面向企业客户的API平台,Token调用量从2025年10月的每分钟60亿次,飙升至2026年3月底的每分钟150亿次——不到半年,增长150%。摩根士丹利的统计更加震撼:2026年1月初,全球每周Token使用量还是6.4万亿次,到3月已经冲到22.7万亿次,三个月翻了两倍多。 国内市场同样疯狂。到2026年3月,国内日均Token调用量已突破140万亿,相比2024年初增长了1000多倍。主流平台日均Token消耗量较年初增长超300%,部分头部平台的API调用配额在两周内被消耗殆尽。 需求侧烈火烹油,供给侧呢? 算力供给的调整周期受制于硬件生产(GPU交付周期约6-9个月)和数据中心建设(18-24个月)的双重刚性约束,导致2026年3月算力市场出现“硬缺口”,部分地区算力溢价率突破200%。 这已经不是什么“趋势”了。这是一场正在发生的资源挤兑,只是挤兑的不是银行的现金,而是AI的“呼吸权”。 Token消耗量为何突然指数级飙升? 答案是智能体(Agent)AI的爆发。 2026年初,以OpenClaw为代表的智能体工具正式登场。过去的AI像个问答机器人,你问它答,一锤子买卖。 但智能体从“回答问题”升级到了“执行任务”:它可以自己打开文件夹、阅读文档、调用软件、填写表格、发送邮件。 这意味着什么?单次任务的算力消耗,比简单问答高出10到100倍。 华源证券首席分析师一针见血地指出:“OpenClaw最核心的颠覆点,在于它把AI的价值衡量方式,从‘回答得像不像人’推进到‘事情办没办成’。” 智能体任务占整体AI算力消耗的比例,从2025年的12%飙升至2026年Q1的47%。更值得关注的是,头部5%的高复杂度任务消耗了超过60%的总算力资源。 简单说:AI从“动嘴”进化到了“动手”。以前是打字员,现在变成了全能助理。问题是,这个全能助理的“伙食费”贵了至少一个数量级。 芯片、电力、人力:短缺这堵墙,至少三层 如果你觉得“算力不够”只是芯片买少了,那就把事情想简单了。 第一层:芯片制造。 英伟达的GPU要在台积电的晶圆厂里,用ASML的EUV光刻机一层一层刻出来。EUV光刻机一年只产几十台,交付排队时间超过十八个月。GPU离不开的HBM高带宽内存,产能同样有限。 大摩的预测很直接:当前AI算力需求的增速,是英伟达供给增速的3倍。供需之间的口子还在继续撕大。 第二层:电力。 一台装满GPU的服务器机柜,跑起来的功耗抵得上十几台家用空调同时运转。一个大型数据中心,每天吞掉的电够一座小型城市用。 大摩预测,2025至2028年间美国数据中心将面临约55吉瓦(GW)的电力缺口。服务器供应链的ODM厂商坦言,现在最缺的不是订单,而是“三力”——电力、人力、财力,其中电力与人力最让厂商伤脑筋。 美国计划中的数据中心,有三分之一到一半正面临延期或取消,核心障碍不是芯片太贵,而是电力基础设施严重短缺——大型变压器、开关设备的交货期长达数年。 第三层:人力。 现在连建数据中心的人都不够了。技术工人短缺导致项目延期超三个月,甚至连建造数据中心的劳动力都成了瓶颈。 正如德州仪器技术专家指出的:现代高端GPU功耗已步入“千瓦”时代,整座数据中心大楼的规划必须看到吉瓦规模——“在处理器层面谈论千瓦功耗,意味着整座数据中心大楼的规划必须看到吉瓦规模,这几乎相当于一座传统核电站的完整发电量”。 这场AI大战,已经从“追逐GPU”变成了“追逐千兆瓦电力”。甚至可以说,现在最大的瓶颈,就是**到处都是瓶颈**。 “Token工厂”来了,但工厂还没建好 英伟达CEO黄仁勋在2026年GTC大会上抛出了一个新概念——“AI Token工厂”。 他认为,未来的数据中心不再是存放文件的仓库,而是日夜不停运转的轰鸣工厂。它们生产的不再是传统产品,而是数字世界最核心的大宗商品:Token。 黄仁勋将AI产业拆解为能源→芯片→基础设施→模型→应用五层架构,而Token是贯穿五层的语言和货币。就像千瓦时让电力有了价格,桶让石油有了期货市场,Token让AI经济有了可计量、可定价的单位。 这个比喻很美,但现实很残酷。 截至2026年全年及2027年部分可用电力配额已被全部预订一空,新数据中心短期内根本无法上线。H100算力的全球实际利用率仅维持在15%–18%**之间,大量算力处于空转状态。 国际能源署预测,到2030年全球数据中心总耗电量将突破1000太瓦时,超过日本全国的年发电总量。 “工厂”还没建好,订单已经排到三年后了。 你可能还记得,2024年的Token还是“白菜价”。 厂商们把Token单价压到“厘”级,用补贴换用户增长。但到2026年,云厂商开始在AI算力、存储及模型调用服务上陆续调价。阿里云四天内三次调价,腾讯混元最高涨价463%,百度智能云上调5%至30%。 海外同样涨声一片。亚马逊AWSEC2实例实施15%的价格上调,谷歌云AI计算实例价格上调20%至50%。 算力租赁市场同样疯狂:英伟达Blackwell芯片每小时租用价格从2.75美元涨到4.08美元,两个月涨了48%;H100的一年期租赁合约价格从1.70美元涨到2.35美元/小时,涨幅近40%。 云服务商CoreWeave将服务价格上调逾20%,并要求小客户签订至少三年的长期合约。OpenAI推出了“保障产能”服务,企业签订1至3年的长期合同,可以锁定价格并确保算力供应——换句话说,OpenAI开始卖“算力期货”了。 有意思的是,虽然Token单价较2023年下跌了超过一个数量级,但调用它需要花的钱却越来越多了——因为消耗量的增长远快于单价的下降。 涨价潮背后,是算力从“水电气”蜕变为稀缺的硬通货。过去20年“算力只会越来越便宜”的逻辑,在2026年——暂时失效了。 “短缺卖家”吃肉,“短缺买家”挨打 华尔街的逻辑正在发生巨变。 现在头部的AI巨头,比如Anthropic,创收速度不是按年算——是每周新增25亿美元的年化收入。Anthropic年化营收从2025年底的90亿美元,在短短两个月内跃升至140亿美元,此后再度翻倍至300亿美元。 这背后是一道冷酷的财富方程式:谁是“短缺的卖家”,谁就有绝对的定价权。谁是“短缺的买家”,谁就只能挨打。 微软CFO坦言,GPU等硬件组件价格上涨将推高全年资本开支约250亿美元,云算力供给紧张的局面“至少将贯穿整个2026年”。 微软、谷歌、亚马逊这些万亿美元级别的云厂商,为了不掉队,必须砸