开发者生态
morning
买了卡不等于买到生产力:企业 Token 焦虑,逼出 AI Infra 新战场
2026-05-22
1 阅读
蔡芳芳
当大模型从实验室、Demo 和单点工具真正走向企业生产系统,企业对 AI 的态度正在变得矛盾:一方面,没人想错过大模型带来的效率窗口;另一方面,AI 一旦进入研发、客服、营销、办公、运维和业务流程,Token 消耗就会变成一笔越来越难忽视、也越来越难管理的账。 这种焦虑首先来自成本。过去企业采购服务器、存储和网络,成本边界相对清晰;但 AI 应用一旦规模化,Token 消耗会随着模型调用、长上下文、多轮对话、工具调用和 Agent 任务链条被不断放大。尤其在 Agentic AI 场景下,一个任务不再只是一次问答,而可能包含多轮规划、反思、检索、代码生成、工具调用和结果校验。业务越自动化,Token 消耗越可能从线性增长变成链式放大。 更麻烦的是,企业很难直接判断这些 Token 是否真的产生了价值。一个部门可能消耗了大量 Token,却没有明显提升交付效率;一个模型在公开榜单上表现很好,放到企业内部场景里却可能因为上下文、权限、数据质量和工具链适配问题,产出不稳定。对企业来说,真正焦虑的不只是“Token 用得多”,而是用了多少、花在哪里、是否值得、能不能控,以及这些消耗最终有没有转化为可衡量的业务结果。 这个现实问题被重新抛给了算力产业:企业到底需要什么样的 AI 基础设施? 过去几年,AI 基础设施的竞争很大程度上围绕 FLOPS、卡数、集群规模和训练能力展开。谁能组织更大规模的算力,谁就更接近模型能力的上限。但随着推理、Agent、多模态和行业大模型应用深入企业现场,单纯讨论算力峰值已经不够了。企业更关心的是:这些算力能不能稳定地产生高质量 Token,能不能靠近业务数据和流程,能不能以可控成本持续运行,最终能不能转化为真实业务价值。 这也是超聚变探索者大会 2026 算力高峰论坛试图回答的问题:当 AI 从数字世界走向企业流程和物理世界,底层算力系统必须怎样变化? FLOPS 之后,AI Infra 进入 Token 生产力时代 超聚变在多个分享中反复强调一个观点,AI 时代的企业都会变成某种意义上的“制造”企业。这里的“制造”,并不是指所有企业都会变成传统工厂,而是指每个企业都需要持续生产知识、代码、内容、决策和服务结果。超聚变算力事业部 CTO 邱亮表示,在这个新的生产体系中,Token 具有三重身份:它是 AI 时代的动力引擎,是企业可衡量的产能单位,也是价值链上的通货。 这也意味着,AI Infra 和算力的评价体系正在发生根本变化。过去衡量算力,行业首先看峰值性能、节点规模和硬件配置;进入 Token 生产力时代,评价标准则转向从能源到价值的全链转化效率。WATT、FLOPS、TOKENS 和 VALUES 形成一条连续的生产链路:能源被转化为计算,计算被转化为 Token,Token 再进入业务流程,最终形成价值,每一步的转化效率都至关重要。 虽然企业购买的可能仍然是“卡”,但真正要的却是高质量 Token。两者之间存在一道巨大的落差:企业花的是 100% 的预算,但在私有化部署后,受制于互联抖动、带宽瓶颈、调度低效、资源闲置、散热降频等因素,真正可用的有效算力可能只有 40% 到 60%。换句话说,同样的电、同样的卡、同样的模型,有没有全链路协同,Token 产出可能出现明显差距。 因此,AI Infra 的竞争正在从单点硬件能力,转向能源、计算、存储、网络、模型、调度、软件栈、运维和生态能力的全链协同。企业需要的不是把服务器、GPU、模型和工具一件件采购后再自行拼装,而是在同一个产品和体系中,同时获得私有化部署、大参数模型承载、最新模型适配、高效 Token 转换、广泛 Skill 和工具调用支持、ISV 生态赋能。 在这个背景下,Token Factory 可以理解为超聚变对新一代 AI Infra 的系统化回答。它不是单一产品,而是一套把算力供给、模型服务、推理加速、Agent 执行、Token 运营和行业生态连接起来的企业 AI 生产体系。但要让这套体系成立,第一步仍要回到底层算力本身:Token 背后是能源、芯片、服务器、互联、散热、供电、调度和数据中心工程的共同作用,Token Factory 的底座首先是一座能够把 WATT 高效、稳定转化为 FLOPS 的 AIDC。 从WATT 到 FLOPS:系统工程能力是关键 超聚变认为,现阶段 AIDC 正在经历散热、供电、互联三场并行发生的革命。 散热方面,液冷正在成为 AIDC 标配,45°C 温水液冷、金刚石铜复合热沉、余热回收等技术开始进入系统设计。供电方面,单柜 300kW 带来的电力传输损耗和供电稳定性问题,正在推动 HVDC 与 VPD 等技术进入核心架构。互联方面,随着带宽持续暴增,铜缆在 224G 以上面临损耗和串扰快速上升的问题,CPO、光铜结合等技术成为下一阶段 Scale-up 域的重要方向。 这三场革命并不是彼此独立的技术升级,而是同一场系统性重构的不同侧面。更高的功率密度要求更强散热,更强散热和更大机柜功率又对供电效率提出要求,而更大规模的训练和推理集群则需要更高带宽、更低时延、更稳定的互联。AIDC 的难点正在从单点性能提升,转向多物理场耦合下的系统工程能力。 超节点正是在这一背景下成为关键基础设施形态。大模型训练和高并发推理需要在更大的 Scale-up 域内降低通信开销,传统服务器简单堆叠已经难以满足万卡、十万卡级集群协同。超节点的意义,不只是把更多 GPU 放在一起,而是通过供电、散热、互联、管理和调度的一体化设计,把分散的硬件资源组织成更高效的有效算力。 在超聚变的技术路径中,超节点不是封闭系统,而是走向产业开放。围绕超节点的关键能力,超聚变选择开放散热、高速互联、电源等核心部件能力,并兼容不同 Scale-up 协议,让产业伙伴能够在统一底座上进行适配和共创。这背后是一个更现实的判断:AI 算力的资本开支、技术门槛和生态复杂度都在迅速抬高,任何单一企业都很难独自穿越这一轮算力基础设施重构周期,开放协同反而会成为更可持续的路径。 如果说超节点和 AIDC 解决的是更大规模、更高密度、更高效率的算力底座问题,那么 FusionServer“无极”架构则是在服务器产品层面回应多元算力、多样化场景和快速交付需求。面对 xPU 持续涌现、业务负载快速变化和客户配置差异增大的现实,传统固定形态服务器越来越难以覆盖不同场景。 “无极”架构的核心思路,是通过三段式模块化解耦,提升异构兼容和配置灵活性。据介绍,该架构强调接口标准统一、组件共享率高、统一管理和一站运维,并在内存带宽、AI 推理性能、全闪存储 IOPS 等方面实现提升。它要解决的不是某一款服务器的性能问题,而是让服务器形态能够更快适配不同 CPU、GPU、xPU、内存、存储和网络组合,支撑从通用计算到 AI 推理、超融合和边缘场景的持续演进。 这些能力并不如模型参数和 GPU 数量那么抓眼球,却是 AI 基础设施真正走向生产系统时绕不开的部分。供电效率决定长期成本,散热设计决定部署密度和稳定性,互联能力决定规模扩展上限,管理能力决定故障定位和运维效率。只有当供电、散热、互联、模块化、异构兼容和运维管理同时优化升级,每一瓦特