当 Token 成为商品,AI 基础设施会怎么变化?

2026-06-18 1 阅读 陈姚戈
在大模型能力如此强大的当下,模型背后智能的生产和交付,仍远没有实现工业化。 九章云极副总裁胡宗星给出了一个直观的数据对比:顶级 8 卡 GPU 服务器的聚合内存带宽,理论上支持每秒生成约 1000 个 Token;但在实际工程中,主流推理框架的解码速度往往只有几十 Token/s,中间存在超过 10 倍的性能鸿沟。 这道鸿沟来自推理系统里的“执行间隙”。GPU 本身并不缺理论算力,但在真实推理链路中,不同计算任务之间会出现等待,通信和计算也很难充分并行。尤其在解码阶段,单个 Kernel 的执行时间可能只有微秒级,CPU 与 GPU 之间频繁的启动、调度和同步,反而会成为关键瓶颈。再加上 KV Cache 等推理状态需要在 HBM、DRAM、NVMe 等不同存储层级之间反复搬运 这些都使得算力消耗在等待、同步和数据移动中,而客户最后为这道性能鸿沟买单。 这说明,智能的工业化不能只追求更大的算力规模,也不能只比较更低的 Token 单价。真正重要的是同样的能源和算力投入,能不能生产出更多有效 Token;同样的 Token 消耗,能不能完成更多业务任务。 因此,AI 基础设施需要同时回答智能如何计量,以及智能如何生产。 “我们正处于智能工业化时代的拐点,但现在,一个更根本、更现实的考验摆在我们所有人面前:时代所需要的不仅是技术突破,更是‘智能生产力’的突破。 ”九章云极 DataCanvas 公司创始人、董事长方磊说。 在 6 月 17 日的发布会上,九章云极提出 AI 工厂战略,并发布 Alaya NeW Cloud 3.0。训练工厂负责把通用智能生产为专业模型,Token 工厂负责把专业模型封装为可调用、可计量、可保障的专业 Token。与此同时,九章还提出了 DCU 与 Token 的度量体系,以及围绕推理效率、状态复用、跨集群调度和算电协同展开的一系列底层工程设计。 成立 13 年来,九章云极经历了 AI 的多轮浪潮,也走过了 PaaS、云、智算平台的多次转型。现在,它试图把自己从算力资源提供者,进一步推向智能工业生产者,组织智能的生产、计量、流通和交付。 智能工业化的第一步:统一度量衡 智能走向工业化的第一道关卡,是建立统一度量衡,即用什么指标,来衡量智能的生产、交易与交付。 过去,AI 基础设施主要围绕资源计量。企业买算力,看 GPU 数量、显存规模、集群性能;买模型服务,看参数规模、API 调用量、Token 单价。 这些指标都重要,但它们描述的主要是供给侧。它们能说明厂商有多少资源、模型有多大、调用有多便宜,却不能回答企业真正关心的问题:一次任务能不能完成,结果是否可靠,响应是否够快,失败和重试会不会把总成本推高。 因此,九章云极提出,AI 基础设施要从“资源计量”转向“智能计量”。 在九章云极看来,Token 是最适合作为智能计量的基础单位。模型接收输入、处理信息、生成输出,都围绕 Token 展开。相比 GPU、参数和 API 调用量,Token 更接近智能被加工和交付的过程。 但 Token 只是基础单位,还不是价值单位,更有计量价值的概念是“有效 Token”。 一个模型可以生成很多 Token,但如果回答错误、响应超时、无法进入业务流程,这些 Token 对客户来说仍然没有意义。 一个有效 Token,至少要同时满足几个条件:请求成功,质量达标,时延达标,并且能够进入真实业务流程。只有这样的 Token,才构成可交付的智能产出。 胡宗星指出,企业真正关心的不是 Token 单价,而是有效 Token ——那些请求成功、质量达标、时延可控、能够进入真实业务流程的 Token。客户买的不是便宜 Token,而是更低的任务完成成本。 基于这一判断,九章云极对 Token 进行了重新分级。 九章云极将专业 Token 划分为三个层级:消费级 Token 是智能社会的“基础电力”;专业级 Token 封装行业知识与合规逻辑,让企业购买的是效率、风控与决策支持;前沿级 Token 面向高复杂度科研场景。九章云极的战略聚焦,在于企业级与前沿级 Token。 当计量单位发生变化,基础设施的形态也必须发生变化。企业需要的就是一套完整的生产体系:它既要把通用模型训练成能解决具体业务问题的专业模型,也要把这些模型能力封装成稳定、可计量、可调度、可保障的专业 Token。 也是在这个背景下,九章云极提出了“训练工厂 + Token 工厂”。 打造智能工业化的训练和 Token 工厂 统一度量衡之后,新的问题出现了:有效 Token 从哪里来? 九章云极认为,有效 Token 不能单纯通过通用模型得到,它需要被专业生产。训练工厂负责生产专业模型,Token 工厂负责交付专业 Token。前者解决模型能力是否足够专业,后者解决专业能力能否稳定进入业务。 训练工厂把通用模型加工成能处理具体业务任务的专业模型。这个过程需要领域数据、强化学习、精调、评测反馈和持续优化。通用模型提供基础能力,训练工厂负责把这些基础能力压进具体行业、具体场景、具体任务里。 专业模型训练出来之后,还不能直接变成企业可消费的智能商品。企业需要的不是一个模型文件,而是稳定 API、权限管理、版本管理、SLA 保障、成本控制和按需调用能力。 Token 工厂要做的,是把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。这样,模型能力才能从一次性项目交付,变成可以反复调用、持续复用、按量计费的智能服务。 训练工厂的算力投入用 DCU 衡量,Token 工厂的只能产出用专业 Token 衡量。 DCU 衡量的是算力投入。专业 Token 衡量的是智能产出。 DCU 解决算力侧的问题。传统算力计量往往围绕 GPU 卡数、核时或集群规模展开,但这些指标很难反映不同硬件、不同架构、不同调度方式之间的真实效率差异。DCU 的意义,是把复杂的异构算力抽象成更统一的计算单位,让客户不必理解底层硬件拓扑,也能像采购电力一样采购算力。 Token 解决智能侧的问题。抽象的模型能力无法直接买卖,必须变成可度量、可定价、可交付的商品。专业 Token 的意义,是把昂贵、复杂、稀缺的模型能力,转化为可以按量调用、持续复用、标准化交付的智能单元。 这就意味着,企业可以按业务需求调用专业智能。AI 服务可以像水电一样,按需接入、按量计费、持续运营。 如何通过 AI 工厂,把算力转化为更多有效 Token? 水电之所以能被按需使用,背后有发电、输配、计量、调度和运维系统。专业智能也一样。一个模型能力要变成企业可以稳定购买和使用的专业 Token,背后要先经过接入、训练、封装、推理、缓存、调度和计费。 九章云极这次发布的产品体系,正是沿着这条链路展开。 最前端的 Aladdin 处理算力入口问题。 过去,算力大多藏在后台。客户买 GPU、开实例、配环境、调集群,再把模型和应用部署上去。算力已经存在,但离开发者、Agent 和业务流程还有距离。每一次接入、调试、迁移、部署,都会消耗工程时间,也会拉长 AI 应用进入生产的周期。 Aladdin 要把算力推到使用者手边。通过 IDE 插件、CLI、SDK、Skills Hub 等入口,开发者和 Ag