当 Token 成为商品，AI 基础设施会怎么变化？

在大模型能力如此强大的当下，模型背后智能的生产和交付，仍远没有实现工业化。九章云极副总裁胡宗星给出了一个直观的数据对比：顶级 8 卡 GPU 服务器的聚合内存带宽，理论上支持每秒生成约 1000 个 Token；但在实际工程中，主流推理框架的解码速度往往只有几十 Token/s，中间存在超过 10 倍的性能鸿沟。这道鸿沟来自推理系统里的“执行间隙”。GPU 本身并不缺理论算力，但在真实推理链路中，不同计算任务之间会出现等待，通信和计算也很难充分并行。尤其在解码阶段，单个 Kernel 的执行时间可能只有微秒级，CPU 与 GPU 之间频繁的启动、调度和同步，反而会成为关键瓶颈。再加上 KV Cache 等推理状态需要在 HBM、DRAM、NVMe 等不同存储层级之间反复搬运这些都使得算力消耗在等待、同步和数据移动中，而客户最后为这道性能鸿沟买单。这说明，智能的工业化不能只追求更大的算力规模，也不能只比较更低的 Token 单价。真正重要的是同样的能源和算力投入，能不能生产出更多有效 Token；同样的 Token 消耗，能不能完成更多业务任务。因此，AI 基础设施需要同时回答智能如何计量，以及智能如何生产。 “我们正处于智能工业化时代的拐点，但现在，一个更根本、更现实的考验摆在我们所有人面前：时代所需要的不仅是技术突破，更是‘智能生产力’的突破。 ”九章云极 DataCanvas 公司创始人、董事长方磊说。在 6 月 17 日的发布会上，九章云极提出 AI 工厂战略，并发布 Alaya NeW Cloud 3.0。训练工厂负责把通用智能生产为专业模型，Token 工厂负责把专业模型封装为可调用、可计量、可保障的专业 Token。与此同时，九章还提出了 DCU 与 Token 的度量体系，以及围绕推理效率、状态复用、跨集群调度和算电协同展开的一系列底层工程设计。成立 13 年来，九章云极经历了 AI 的多轮浪潮，也走过了 PaaS、云、智算平台的多次转型。现在，它试图把自己从算力资源提供者，进一步推向智能工业生产者，组织智能的生产、计量、流通和交付。智能工业化的第一步：统一度量衡智能走向工业化的第一道关卡，是建立统一度量衡，即用什么指标，来衡量智能的生产、交易与交付。过去，AI 基础设施主要围绕资源计量。企业买算力，看 GPU 数量、显存规模、集群性能；买模型服务，看参数规模、API 调用量、Token 单价。这些指标都重要，但它们描述的主要是供给侧。它们能说明厂商有多少资源、模型有多大、调用有多便宜，却不能回答企业真正关心的问题：一次任务能不能完成，结果是否可靠，响应是否够快，失败和重试会不会把总成本推高。因此，九章云极提出，AI 基础设施要从“资源计量”转向“智能计量”。在九章云极看来，Token 是最适合作为智能计量的基础单位。模型接收输入、处理信息、生成输出，都围绕 Token 展开。相比 GPU、参数和 API 调用量，Token 更接近智能被加工和交付的过程。但 Token 只是基础单位，还不是价值单位，更有计量价值的概念是“有效 Token”。一个模型可以生成很多 Token，但如果回答错误、响应超时、无法进入业务流程，这些 Token 对客户来说仍然没有意义。一个有效 Token，至少要同时满足几个条件：请求成功，质量达标，时延达标，并且能够进入真实业务流程。只有这样的 Token，才构成可交付的智能产出。胡宗星指出，企业真正关心的不是 Token 单价，而是有效 Token ——那些请求成功、质量达标、时延可控、能够进入真实业务流程的 Token。客户买的不是便宜 Token，而是更低的任务完成成本。基于这一判断，九章云极对 Token 进行了重新分级。九章云极将专业 Token 划分为三个层级：消费级 Token 是智能社会的“基础电力”；专业级 Token 封装行业知识与合规逻辑，让企业购买的是效率、风控与决策支持；前沿级 Token 面向高复杂度科研场景。九章云极的战略聚焦，在于企业级与前沿级 Token。当计量单位发生变化，基础设施的形态也必须发生变化。企业需要的就是一套完整的生产体系：它既要把通用模型训练成能解决具体业务问题的专业模型，也要把这些模型能力封装成稳定、可计量、可调度、可保障的专业 Token。也是在这个背景下，九章云极提出了“训练工厂 + Token 工厂”。打造智能工业化的训练和 Token 工厂统一度量衡之后，新的问题出现了：有效 Token 从哪里来？九章云极认为，有效 Token 不能单纯通过通用模型得到，它需要被专业生产。训练工厂负责生产专业模型，Token 工厂负责交付专业 Token。前者解决模型能力是否足够专业，后者解决专业能力能否稳定进入业务。训练工厂把通用模型加工成能处理具体业务任务的专业模型。这个过程需要领域数据、强化学习、精调、评测反馈和持续优化。通用模型提供基础能力，训练工厂负责把这些基础能力压进具体行业、具体场景、具体任务里。专业模型训练出来之后，还不能直接变成企业可消费的智能商品。企业需要的不是一个模型文件，而是稳定 API、权限管理、版本管理、SLA 保障、成本控制和按需调用能力。 Token 工厂要做的，是把专业模型封装成标准化、可计量、可调度、可保障的专业 Token。这样，模型能力才能从一次性项目交付，变成可以反复调用、持续复用、按量计费的智能服务。训练工厂的算力投入用 DCU 衡量，Token 工厂的只能产出用专业 Token 衡量。 DCU 衡量的是算力投入。专业 Token 衡量的是智能产出。 DCU 解决算力侧的问题。传统算力计量往往围绕 GPU 卡数、核时或集群规模展开，但这些指标很难反映不同硬件、不同架构、不同调度方式之间的真实效率差异。DCU 的意义，是把复杂的异构算力抽象成更统一的计算单位，让客户不必理解底层硬件拓扑，也能像采购电力一样采购算力。 Token 解决智能侧的问题。抽象的模型能力无法直接买卖，必须变成可度量、可定价、可交付的商品。专业 Token 的意义，是把昂贵、复杂、稀缺的模型能力，转化为可以按量调用、持续复用、标准化交付的智能单元。这就意味着，企业可以按业务需求调用专业智能。AI 服务可以像水电一样，按需接入、按量计费、持续运营。如何通过 AI 工厂，把算力转化为更多有效 Token？水电之所以能被按需使用，背后有发电、输配、计量、调度和运维系统。专业智能也一样。一个模型能力要变成企业可以稳定购买和使用的专业 Token，背后要先经过接入、训练、封装、推理、缓存、调度和计费。九章云极这次发布的产品体系，正是沿着这条链路展开。最前端的 Aladdin 处理算力入口问题。过去，算力大多藏在后台。客户买 GPU、开实例、配环境、调集群，再把模型和应用部署上去。算力已经存在，但离开发者、Agent 和业务流程还有距离。每一次接入、调试、迁移、部署，都会消耗工程时间，也会拉长 AI 应用进入生产的周期。 Aladdin 要把算力推到使用者手边。通过 IDE 插件、CLI、SDK、Skills Hub 等入口，开发者和 Ag

订阅66必读