百度想明白了:旧供给到达极限了

2026-05-15 1 阅读 王一鹏
今天大部分企业看待 Token 经济的心情十分复杂——一方面,Token 的价格已经打到了地板;另一方面,Agent 燃烧积分 /Token ,生产账单的速度仍然很快。尤其是当这些企业把 AI 从"偶尔试用"转向"业务系统集成"时,ROI 完全无法取得平衡,有的只是足够茂盛的焦虑。 参与 SWE-bench 编程评测基准的主流 Agent 系统技术报告显示(2025 年),完成一个标准编程任务,最先进的 Agent 系统平均需要调用 API 30 到 60 次,一次任务的成本在 0.07 到 0.75 美元之间。切换到实际开销,以当前最流行的 Agent 框架 Claude Code 为例,来自 Artificial Analysis 的数据显示,如果使用 GLM-5.1 模型,单次任务的 Token 成本高达 2 美元以上。 这还没有计算企业场景中的长期记忆、Skill,以及庞大上下文。 层层叠加,导致 Token 单价虽然降了 99%,但消耗量涨了 30 到 100 倍。诚如李彦宏在 2026 年 5 月 13 日举办的百度 Create 大会上所说:Token 只是代表成本,并不代表收益;它衡量的是投入,而不是产出。关注有多少 Agent 在给人类干活,并交付结果。这比无谓的 Token 消耗,更接近价值,也更接近本质。 除价格外的另一个问题是推理效率。2026 年 4 月,InfoQ 开展了一系列类龙虾产品的直播测试工作,我们惊讶的发现国产龙虾在用同一个模型,处理同一个任务时,推理耗时相差 10-20 倍,产出的结果却并无明显差异。 不得不怀疑,在 Agent 全面进入生产环境前,Agent Infra 已经迎来了结构性问题。 我仔细听完百度创始人李彦宏、百度集团执行副总裁沈抖在 5 月 13 日上午的全部发言,最终总结出一个信号:旧供给快要到达极限了,已经成为新物种的 AI 全栈云们,正在继续求变。 2025 年的 AI 云供给模式,正在改变 仔细数数,所谓的“旧供给”,其实也只有 1-2 年的“服役历史”。 沙利文在 2025 年曾发布中国全栈 AI 云服务市场报告,但核心主语是 AI。今天百度的升级可以总结为“新需求,新全栈,新供给”,核心主语是 Agent。 主语的变化,背后意味着背后的技术工作,最具代表性的领域即是 KV Cache(键值缓存)的命中率提升。 大模型推理过程中,每处理一个 token,都需要对整个上下文历史进行大量矩阵运算。KV Cache 把这些中间运算结果保存下来,避免每次都重新计算。在 Agent 时代,这个机制变成了系统性能的命脉——Agent 的多轮调用之间上下文高度重叠,如果 KV Cache 命中,就不需要重新推理整个上下文,速度和成本都会大幅改善。反之,对于一个调用 30-60 次的 Agent 任务,就是巨大的算力浪费。 大模型的定价机制从侧面印证了 KV Cache 的真实价值:Anthropic 对命中缓存的 token 提供 90% 折扣,OpenAI 提供 50% 折扣,Google 提供 90% 折扣。平台愿意对"已在缓存里的 token"让出如此高的折扣,本质上是在承认:缓存命中的 token,边际算力成本接近于零。命中率越高,平台成本越低,用户越有动力把更多调用留在同一个平台——这是 KV Cache 优化背后真正的商业逻辑,也是为什么各方都把 KV Cache 命中率当作核心竞争力指标来对待。 2023 年,加州大学伯克利分校在 arXiv 发表的论文率先解决了 KV Cache 的内存管理问题,将 GPU 显存浪费从 60-80% 降至不足 4%。 这是当前几乎所有主流推理引擎的基础架构层。 2024 年 7 月,月之暗面(Kimi)在 arXiv 发表论文,系统描述了其以 KV Cache 为核心的生产架构。这是当时中国公开可查的、具代表性的系统性 KV Cache 生产架构技术论文之一。Mooncake 的核心数据显示,在相同硬件条件下,KV Cache 中心化架构实现了 525% 的吞吐量提升。 这些是正确方向上的真实进展。但为什么还不够? 一个可能的原因是,现有的 AI 供给体系——从推理引擎、调度框架到 GPU 集群的组织方式——都是按照"单次请求 - 单次响应"设计的。这套设计从根本上就没有为 Agent 的运行方式准备过。 KV Cache 命中率提升了,推理效率改善了。但 Agent 的运行不只是推理的问题,它还涉及:长上下文的跨请求持久化、子 Agent 的调度与协同、记忆系统的索引与管理、多模型协作的任务分发——现有的 AI 供给体系里,没有一套统一的架构来处理。 新的 AI 使用范式,新的全栈供给体系,是百度智能云在这次大会上真正要回应的真问题。 百度的全栈回答 "全栈",很容易被当成营销语言,但在此处,它有具体的技术含义:在 Agent 时代,推理效率、调度框架、内存管理、硬件配置这几个层面是相互耦合的——单独优化任何一层,都无法释放其他层的潜力——要作为一个整体来设计和优化,而不是各自独立打补丁,它们的目标是为了服务大规模智能体应用。这正好对应李彦宏提到的 DAA 概念。 在李彦宏看来,Token 不一定代表终局,它只代表成本并不代表收益,衡量的是投入而非产出,但未来衡量一个平台和生态的繁荣,更应该看的有多少 Agent 在为人类干活,并交付结果。 百度智能云的发布新全栈 AI 云,正由此而生。它的架构更新包含两个主要层次:Agent Infra (Agent 基础设施层)和 AI Infra(AI 算力基础设施层)。在 Agent Infra 上,追求把单位 Token 的智能水平做到最好,并在真实业务中稳定运行、持续进化、可管可控。在 AI Infra 上,追求提供每瓦性能更强、性价比更高的 AI 算力,把 Token 效能做到极致。 二者互为支撑,是百度智能云围绕新需求,给出新供给的核心解决思路。 Agent Infra:为 Agent 而生的调度层 百度官方表示,原有的“MaaS 模型服务”已升级为"Token Factory 词元工厂"。以 Agent-first 理念重构产品架构,尽可能减少 token 重复计算,推理生成速度较市场水平提升约 25%。支持文心、DeepSeek、GLM、MiniMax 等国产主流模型的调用,提供更具性价比的 token 服务。 传统大模型 API 是无状态的:每次调用都是独立的,不持有任何状态。对单次问答,这已足够;但对一个需要运行数十次调用的 Agent 任务,无状态 API 是系统性瓶颈。 百度在 Agent Infra 层引入了三个关键升级:Agent Harness 、模型服务、Agent Runtime。 现阶段用户对 Agent 平台的选用几乎处于两难局面:架构精简的开源平台,工程方面的工作不够,需要等待社区更新。但是此类平台消耗的是 Token,相对性价比更高;架构完善的闭源商业产品,工程能力强大,但消耗的通常是积分,调用最优模型,复杂任务的成本可能高达 10 美元以上(按积分折算),性价比不够。 百度的 Agent Infra 提供