百度想明白了：旧供给到达极限了

今天大部分企业看待 Token 经济的心情十分复杂——一方面，Token 的价格已经打到了地板；另一方面，Agent 燃烧积分 /Token ，生产账单的速度仍然很快。尤其是当这些企业把 AI 从"偶尔试用"转向"业务系统集成"时，ROI 完全无法取得平衡，有的只是足够茂盛的焦虑。参与 SWE-bench 编程评测基准的主流 Agent 系统技术报告显示（2025 年），完成一个标准编程任务，最先进的 Agent 系统平均需要调用 API 30 到 60 次，一次任务的成本在 0.07 到 0.75 美元之间。切换到实际开销，以当前最流行的 Agent 框架 Claude Code 为例，来自 Artificial Analysis 的数据显示，如果使用 GLM-5.1 模型，单次任务的 Token 成本高达 2 美元以上。这还没有计算企业场景中的长期记忆、Skill，以及庞大上下文。层层叠加，导致 Token 单价虽然降了 99%，但消耗量涨了 30 到 100 倍。诚如李彦宏在 2026 年 5 月 13 日举办的百度 Create 大会上所说：Token 只是代表成本，并不代表收益；它衡量的是投入，而不是产出。关注有多少 Agent 在给人类干活，并交付结果。这比无谓的 Token 消耗，更接近价值，也更接近本质。除价格外的另一个问题是推理效率。2026 年 4 月，InfoQ 开展了一系列类龙虾产品的直播测试工作，我们惊讶的发现国产龙虾在用同一个模型，处理同一个任务时，推理耗时相差 10-20 倍，产出的结果却并无明显差异。不得不怀疑，在 Agent 全面进入生产环境前，Agent Infra 已经迎来了结构性问题。我仔细听完百度创始人李彦宏、百度集团执行副总裁沈抖在 5 月 13 日上午的全部发言，最终总结出一个信号：旧供给快要到达极限了，已经成为新物种的 AI 全栈云们，正在继续求变。 2025 年的 AI 云供给模式，正在改变仔细数数，所谓的“旧供给”，其实也只有 1-2 年的“服役历史”。沙利文在 2025 年曾发布中国全栈 AI 云服务市场报告，但核心主语是 AI。今天百度的升级可以总结为“新需求，新全栈，新供给”，核心主语是 Agent。主语的变化，背后意味着背后的技术工作，最具代表性的领域即是 KV Cache（键值缓存）的命中率提升。大模型推理过程中，每处理一个 token，都需要对整个上下文历史进行大量矩阵运算。KV Cache 把这些中间运算结果保存下来，避免每次都重新计算。在 Agent 时代，这个机制变成了系统性能的命脉——Agent 的多轮调用之间上下文高度重叠，如果 KV Cache 命中，就不需要重新推理整个上下文，速度和成本都会大幅改善。反之，对于一个调用 30-60 次的 Agent 任务，就是巨大的算力浪费。大模型的定价机制从侧面印证了 KV Cache 的真实价值：Anthropic 对命中缓存的 token 提供 90% 折扣，OpenAI 提供 50% 折扣，Google 提供 90% 折扣。平台愿意对"已在缓存里的 token"让出如此高的折扣，本质上是在承认：缓存命中的 token，边际算力成本接近于零。命中率越高，平台成本越低，用户越有动力把更多调用留在同一个平台——这是 KV Cache 优化背后真正的商业逻辑，也是为什么各方都把 KV Cache 命中率当作核心竞争力指标来对待。 2023 年，加州大学伯克利分校在 arXiv 发表的论文率先解决了 KV Cache 的内存管理问题，将 GPU 显存浪费从 60-80% 降至不足 4%。这是当前几乎所有主流推理引擎的基础架构层。 2024 年 7 月，月之暗面（Kimi）在 arXiv 发表论文，系统描述了其以 KV Cache 为核心的生产架构。这是当时中国公开可查的、具代表性的系统性 KV Cache 生产架构技术论文之一。Mooncake 的核心数据显示，在相同硬件条件下，KV Cache 中心化架构实现了 525% 的吞吐量提升。这些是正确方向上的真实进展。但为什么还不够？一个可能的原因是，现有的 AI 供给体系——从推理引擎、调度框架到 GPU 集群的组织方式——都是按照"单次请求 - 单次响应"设计的。这套设计从根本上就没有为 Agent 的运行方式准备过。 KV Cache 命中率提升了，推理效率改善了。但 Agent 的运行不只是推理的问题，它还涉及：长上下文的跨请求持久化、子 Agent 的调度与协同、记忆系统的索引与管理、多模型协作的任务分发——现有的 AI 供给体系里，没有一套统一的架构来处理。新的 AI 使用范式，新的全栈供给体系，是百度智能云在这次大会上真正要回应的真问题。百度的全栈回答 "全栈"，很容易被当成营销语言，但在此处，它有具体的技术含义：在 Agent 时代，推理效率、调度框架、内存管理、硬件配置这几个层面是相互耦合的——单独优化任何一层，都无法释放其他层的潜力——要作为一个整体来设计和优化，而不是各自独立打补丁，它们的目标是为了服务大规模智能体应用。这正好对应李彦宏提到的 DAA 概念。在李彦宏看来，Token 不一定代表终局，它只代表成本并不代表收益，衡量的是投入而非产出，但未来衡量一个平台和生态的繁荣，更应该看的有多少 Agent 在为人类干活，并交付结果。百度智能云的发布新全栈 AI 云，正由此而生。它的架构更新包含两个主要层次：Agent Infra （Agent 基础设施层）和 AI Infra（AI 算力基础设施层）。在 Agent Infra 上，追求把单位 Token 的智能水平做到最好，并在真实业务中稳定运行、持续进化、可管可控。在 AI Infra 上，追求提供每瓦性能更强、性价比更高的 AI 算力，把 Token 效能做到极致。二者互为支撑，是百度智能云围绕新需求，给出新供给的核心解决思路。 Agent Infra：为 Agent 而生的调度层百度官方表示，原有的“MaaS 模型服务”已升级为"Token Factory 词元工厂"。以 Agent-first 理念重构产品架构，尽可能减少 token 重复计算，推理生成速度较市场水平提升约 25%。支持文心、DeepSeek、GLM、MiniMax 等国产主流模型的调用，提供更具性价比的 token 服务。传统大模型 API 是无状态的：每次调用都是独立的，不持有任何状态。对单次问答，这已足够；但对一个需要运行数十次调用的 Agent 任务，无状态 API 是系统性瓶颈。百度在 Agent Infra 层引入了三个关键升级：Agent Harness 、模型服务、Agent Runtime。现阶段用户对 Agent 平台的选用几乎处于两难局面：架构精简的开源平台，工程方面的工作不够，需要等待社区更新。但是此类平台消耗的是 Token，相对性价比更高；架构完善的闭源商业产品，工程能力强大，但消耗的通常是积分，调用最优模型，复杂任务的成本可能高达 10 美元以上（按积分折算），性价比不够。百度的 Agent Infra 提供