代币价格陷阱

大模型确实越来越便宜，但企业使用AI这件事，正在变得越来越贵。这听起来矛盾，却是当下Token经济最真实的一面。以OpenAI公开定价为锚，2023年3月GPT-4发布时每百万Token输入30美元/输出60美元，到2024年5月GPT-4o发布时降至5美元/15美元，再到今天，大量够用级推理模型已经把价格打到每百万Token几毛美元甚至更低。如果以早期GPT-4价格作为高位锚点，部分通用推理Token价格在三年内最高降幅达99%。这也是过去两年行业最流行的判断：大模型会像带宽一样，越用越便宜。但进入2026年，这个判断只说对了一半。便宜的是部分模型Token价格，企业的AI运营总支出并未缩减。原因在于，通用Token价格虽然在探底，企业却正从简单问答转向Agent协作、代码生成等复杂工作流，而这类任务的Token消耗量往往是简单问答的十倍甚至百倍，导致算力总支出膨胀。由此形成价格撕裂期：通用Token在探底，高价值能力在分层，企业AI支出在调用结构中膨胀。但这种膨胀并非雨露均沾，而是沿着芯片、光模块、云平台直至应用等产业链环节，进行重新分配。在投资视角下，这种价格分裂的本质，是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景，谁就更有机会在Token用量爆发中持续收费。本文试图回答一个更现实的问题：在这场价格撕裂中，AI产业链中谁在真正赚钱，谁被成本和价格战挤压？谁在真正赚钱？过去两年，简单问答、摘要、翻译、分类等通用任务，在MoE架构、缓存、蒸馏和推理优化推动下，成本在逼近“水电价”。这些任务有几个共同特征：可预期、可缓存、可替代、对模型能力要求不极致。这类Token最容易被技术优化，也最容易被价格战打穿。它们正在从“AI能力”变成“基础设施能力”。所谓99%的降价红利，主要发生在这一层。但企业真正花钱越来越多的地方，并不在这里，更多集中在编程、Agent协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来，重新按“旗舰能力”计费。以智谱为例，其GLM-5.1对准编程与Agent场景，输入价格为每百万Token 6-8元，输出价格为24-28元；日常轻量任务则建议继续用GLM-4.7，输入价格为2-4元，输出价格为8-16元。两者价差约3倍。这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量，低价获客；同时开始向编程、Agent、复杂推理、多模态这类场景要利润。与此同时，底层的物理成本并未跟随通用Token的降价变化。HBM价格高位运行、数据中心电力与液冷成本高企，这些硬约束迫使阿里、腾讯、百度等云厂商在3月罕见上调了AI算力服务价格。即，当可压缩场景的Token成本不断探底，不可压缩场景的算力成本依然坚挺，这正是企业算力支出失控的底层推手之一。但更大的问题，不是单价，是用量膨胀。过去企业用大模型，大多是一问一答，单次调用成本相对可控。现在更多付费场景变成了Agent协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下，即使Token单价下降，但单轮单次任务消耗的Token数量可能放大十倍、几十倍的情况下，企业AI运营总成本反而可能上涨。这是为什么一些企业在大规模开放AI编程工具后，很快遇到预算失控问题。如Uber在为5000名工程师开放AI编程工具后，仅4个月便烧光了2026全年预算；国内米哈游技术团队负责人郑银河在2026年5月阿里云峰会上公开披露，团队一位工程师测试多Agent协作时，因未设熔断、数十个Agent进入循环调用，费用飙升，13小时内收到200万元Token账单。正是这三层结构的叠加，导致了“99%降价”与“企业AI更贵”的共存。而企业多花出去的钱，并没有消失，它变成了产业链上某些环节的收入和利润。因为通用Token越便宜，越容易刺激企业把AI推向更复杂、更高频、更重算力的场景；而这些新增需求，最终会流向芯片、光模块、云平台、高价值模型API、应用场景和基础设施等。即，真正赚钱的，不是卖便宜Token的人，是能从Token用量爆发里持续收费的人。这是理解当下AI产业链分化的关键。接下来，对产业链上中下游分别展开讨论。上游要卡住瓶颈Token经济下，AI产业链的上游由计算芯片（GPU/NPU/LPU，加速器）、高速存储（HBM）、高速互联（含光模块）、智算中心基础设施（供电、冷却）等构成，这些环节决定Token生成的速度、稳定性和单位成本。但上游并不是一块铁板。真正掌握定价权的，是那些卡住了物理瓶颈的环节。首先是GPU和HBM。随着Agent与多模态处理的发展，瓶颈不再局限于算力，更在于显存容量、带宽和数据搬运能力。HBM产能周期长、扩产慢（一般需24–36个月），又被大客户长协锁定，供给刚性直接转化为利润护城河。海外三大存储巨头（SK海力士、三星和美光）凭借HBM，将DRAM综合毛利率拉回50%+，其中SK海力士2025年Q4的毛利率已达69%。更关键的是，稀缺的HBM带宽通常不单独出售，而是被封装进GPU加速卡、整机和高速互联系统中，最终以整套计算系统的出售溢价体现出来。因此，最厚的利润池并非单一的HBM或GPU，而是“GPU+HBM+独家互联技术”打包在一起的套餐。不过，国内破局之路尚处起步，长鑫存储作为唯一DRAM IDM（设计+制造一体化），正以低毛利换良率爬坡，攻坚HBM供给瓶颈；摩尔线程、沐曦、壁仞、燧原科技等GPU厂商则试图通过自研架构与开放互联标准（如OISA），在英伟达体系外构建可用的国产算力底座。从估值层面看，资本市场对于HBM赛道的追捧主要来自于供给紧张。只不过，据长城证券测算，2025-2026年全球HBM供需比分别为45%和27%，缺口确实存在，但有所收窄。这意味着估值锚正在从"有没有货"移向"高端占比与毛利率能不能守得住"。未来一旦HBM产能扩张速度超过需求增速，估值逻辑将会变化，届时需注意下调风险。至于GPU赛道，AI算力需求仍在情况下，资本市场仍会活跃。只不过，已经过了“讲故事”的阶段，转向“业绩检验期”。如数据中心收入质量、下一代架构的出货锁单、以及单位Token成本下降是否会压低"按集群付费"的天花线等都会被检验。未来任何关于“增速边际放缓”的信号，可能都会导致估值回调。其次是光模块。 AI集群不是简单堆砌GPU，单服务器内、跨服务器节点间、乃至跨数据中心的互联能力，共同决定了算力能不能真正跑起来。800G向1.6T光模块升级，本质上是Token海量爆发后对更高带宽、更低延迟的刚性需求，这是该赛道走强的重要驱动因素。所以，这一环节依靠“高端规格迭代+客户认证壁垒”构筑护城河，头部厂商如中际旭创、新易盛的毛利率已从早年30%左右攀升至40%以上。但要注意的是，中际旭创、新易盛等企业的前五大客户收入贡献均超7成，客户集中风险比较高，任何一个大客户的订单波动都会影响全年业绩。且这种情况下，光模块企业的议价能力较弱。未来若1.6T的放量速度不及预期，或买方议价让平均售价阶梯下行速度快于成本降幅，利润增速可能会面临拐点。而中际旭创、新易盛分别为102倍何75倍的滚动市盈

订阅66必读