代币价格陷阱

2026-06-18 1 阅读 张贝贝
大模型确实越来越便宜,但企业使用AI这件事,正在变得越来越贵。 这听起来矛盾,却是当下Token经济最真实的一面。 以OpenAI公开定价为锚,2023年3月GPT-4发布时每百万Token输入30美元/输出60美元,到2024年5月GPT-4o发布时降至5美元/15美元,再到今天,大量够用级推理模型已经把价格打到每百万Token几毛美元甚至更低。 如果以早期GPT-4价格作为高位锚点,部分通用推理Token价格在三年内最高降幅达99%。 这也是过去两年行业最流行的判断:大模型会像带宽一样,越用越便宜。 但进入2026年,这个判断只说对了一半。便宜的是部分模型Token价格,企业的AI运营总支出并未缩减。 原因在于,通用Token价格虽然在探底,企业却正从简单问答转向Agent协作、代码生成等复杂工作流,而这类任务的Token消耗量往往是简单问答的十倍甚至百倍,导致算力总支出膨胀。 由此形成价格撕裂期:通用Token在探底,高价值能力在分层,企业AI支出在调用结构中膨胀。 但这种膨胀并非雨露均沾,而是沿着芯片、光模块、云平台直至应用等产业链环节,进行重新分配。在投资视角下,这种价格分裂的本质,是产业利润的再分配。谁掌握稀缺资源、关键能力和高粘性场景,谁就更有机会在Token用量爆发中持续收费。 本文试图回答一个更现实的问题:在这场价格撕裂中,AI产业链中谁在真正赚钱,谁被成本和价格战挤压? 谁在真正赚钱?过去两年,简单问答、摘要、翻译、分类等通用任务,在MoE架构、缓存、蒸馏和推理优化推动下,成本在逼近“水电价”。 这些任务有几个共同特征:可预期、可缓存、可替代、对模型能力要求不极致。这类Token最容易被技术优化,也最容易被价格战打穿。它们正在从“AI能力”变成“基础设施能力”。所谓99%的降价红利,主要发生在这一层。 但企业真正花钱越来越多的地方,并不在这里,更多集中在编程、Agent协作、长上下文推理、多模态处理等高消耗场景。这些场景正在从低价补贴池里被剥离出来,重新按“旗舰能力”计费。 以智谱为例,其GLM-5.1对准编程与Agent场景,输入价格为每百万Token 6-8元,输出价格为24-28元;日常轻量任务则建议继续用GLM-4.7,输入价格为2-4元,输出价格为8-16元。两者价差约3倍。 这是模型厂商通过模型档位分层重新划分了价格池。它们正在把简单问答、翻译、摘要这类任务当作基础流量,低价获客;同时开始向编程、Agent、复杂推理、多模态这类场景要利润。 与此同时,底层的物理成本并未跟随通用Token的降价变化。HBM价格高位运行、数据中心电力与液冷成本高企,这些硬约束迫使阿里、腾讯、百度等云厂商在3月罕见上调了AI算力服务价格。 即,当可压缩场景的Token成本不断探底,不可压缩场景的算力成本依然坚挺,这正是企业算力支出失控的底层推手之一。 但更大的问题,不是单价,是用量膨胀。 过去企业用大模型,大多是一问一答,单次调用成本相对可控。 现在更多付费场景变成了Agent协作、长上下文记忆、复杂逻辑推理、代码生成和多模态处理等。此情况下, 即使Token单价下降,但单轮单次任务消耗的Token数量可能放大十倍、几十倍的情况下,企业AI运营总成本反而可能上涨。 这是为什么一些企业在大规模开放AI编程工具后,很快遇到预算失控问题。 如Uber在为5000名工程师开放AI编程工具后,仅4个月便烧光了2026全年预算;国内米哈游技术团队负责人郑银河在2026年5月阿里云峰会上公开披露,团队一位工程师测试多Agent协作时,因未设熔断、数十个Agent进入循环调用,费用飙升,13小时内收到200万元Token账单。 正是这三层结构的叠加,导致了“99%降价”与“企业AI更贵”的共存。 而企业多花出去的钱,并没有消失,它变成了产业链上某些环节的收入和利润。 因为通用Token越便宜,越容易刺激企业把AI推向更复杂、更高频、更重算力的场景;而这些新增需求,最终会流向芯片、光模块、云平台、高价值模型API、应用场景和基础设施等。 即,真正赚钱的,不是卖便宜Token的人,是能从Token用量爆发里持续收费的人。这是理解当下AI产业链分化的关键。 接下来,对产业链上中下游分别展开讨论。 上游要卡住瓶颈Token经济下,AI产业链的上游由计算芯片(GPU/NPU/LPU,加速器)、高速存储(HBM)、高速互联(含光模块)、智算中心基础设施(供电、冷却)等构成,这些环节决定Token生成的速度、稳定性和单位成本。 但上游并不是一块铁板。真正掌握定价权的,是那些卡住了物理瓶颈的环节。 首先是GPU和HBM。 随着Agent与多模态处理的发展,瓶颈不再局限于算力,更在于显存容量、带宽和数据搬运能力。HBM产能周期长、扩产慢(一般需24–36个月),又被大客户长协锁定,供给刚性直接转化为利润护城河。 海外三大存储巨头(SK海力士、三星和美光)凭借HBM,将DRAM综合毛利率拉回50%+,其中SK海力士2025年Q4的毛利率已达69%。 更关键的是,稀缺的HBM带宽通常不单独出售,而是被封装进GPU加速卡、整机和高速互联系统中,最终以整套计算系统的出售溢价体现出来。因此,最厚的利润池并非单一的HBM或GPU,而是“GPU+HBM+独家互联技术”打包在一起的套餐。 不过,国内破局之路尚处起步,长鑫存储作为唯一DRAM IDM(设计+制造一体化),正以低毛利换良率爬坡,攻坚HBM供给瓶颈;摩尔线程、沐曦、壁仞、燧原科技等GPU厂商则试图通过自研架构与开放互联标准(如OISA),在英伟达体系外构建可用的国产算力底座。 从估值层面看,资本市场对于HBM赛道的追捧主要来自于供给紧张。只不过,据长城证券测算,2025-2026年全球HBM供需比分别为45%和27%,缺口确实存在,但有所收窄。这意味着估值锚正在从"有没有货"移向"高端占比与毛利率能不能守得住"。未来一旦HBM产能扩张速度超过需求增速,估值逻辑将会变化,届时需注意下调风险。 至于GPU赛道,AI算力需求仍在情况下,资本市场仍会活跃。只不过,已经过了“讲故事”的阶段,转向“业绩检验期”。如数据中心收入质量、下一代架构的出货锁单、以及单位Token成本下降是否会压低"按集群付费"的天花线等都会被检验。未来任何关于“增速边际放缓”的信号,可能都会导致估值回调。 其次是光模块。 AI集群不是简单堆砌GPU,单服务器内、跨服务器节点间、乃至跨数据中心的互联能力,共同决定了算力能不能真正跑起来。800G向1.6T光模块升级,本质上是Token海量爆发后对更高带宽、更低延迟的刚性需求,这是该赛道走强的重要驱动因素。 所以,这一环节依靠“高端规格迭代+客户认证壁垒”构筑护城河,头部厂商如中际旭创、新易盛的毛利率已从早年30%左右攀升至40%以上。 但要注意的是,中际旭创、新易盛等企业的前五大客户收入贡献均超7成,客户集中风险比较高,任何一个大客户的订单波动都会影响全年业绩。且这种情况下,光模块企业的议价能力较弱。未来若1.6T的放量速度不及预期,或买方议价让平均售价阶梯下行速度快于成本降幅,利润增速可能会面临拐点。 而中际旭创、新易盛分别为102倍何75倍的滚动市盈