这家Agent 公司从 Claude 切到 DeepSeek v4：一年省下数百万美元，迁移工作量却是预期的 100 倍

本文最初发布于博客 TheNewStack。初创公司 Lindy 将其全部 AI 代理流量从 Anthropic 转移到了 DeepSeek v4，每年可以节省数百万美元的推理成本。首席执行官 Flo Crivello 解释了为什么迁移工作比预期多出许多。图片来自 Unsplash+，由用户 Space Stock 提供推理成本已经成为可持续 AI 部署的最大障碍。最近，GitHub放弃了其 Copilot 订阅的统一费率，转而采用基于使用的计费方式，因为代理编码会话的成本超出了固定月费能够覆盖的范围——一些订阅者醒来时发现，他们的账单比之前高出数倍。与此同时，在短短四个月内，Uber 就烧光了 2026 年整年的 AI 预算，主要是在 Claude Code 上。这让首席运营官产生了质疑，他们所获得的回报是否值得这笔支出。为应对这一更广泛的行业反思，Linux 基金会成立了 Tokenomics 基金会，得到了谷歌、微软、IBM、Salesforce 等企业的支持。该基金会旨在围绕 AI Token 成本建立一个开放的标准。这一举措表明，业界已经意识到，企业目前尚无统一的方法来衡量或控制这方面的支出。转型对于大量运行 AI 代理的公司来说，前沿模型的经济性已经成为一个几乎关乎生存的问题。 Flo Crivello（前 Uber 工程师兼产品负责人）是 Lindy 的创始人兼首席执行官。Lindy 是一个无代码 AI 代理平台，可以自动化日常工作任务——从电子邮件分类和会议安排到 CRM 管理。作为 Teamflow 的转型举措，Crivello 在 2023 年创立了 Lindy。前者是一个他之前筹集了 5200 万美元的资金创办的一家虚拟办公室初创公司。这些资本现在被用于支持 Lindy 的发展。 Lindy 上周，Crivello 在社交媒体上宣布，Lindy 已经将其整个模型基础设施从 Anthropic 切换到了 DeepSeek。 Crivello 在 X 上写道，“今天我们扣动了扳机，将 100% 的 Lindy 流量从 Anthropic 模型切换到了 DeepSeek v4。这每年能为我们节省数百万美元，而且，我们在许多核心用例上看到了性能提升。对业务来说，这是变革性的。” 实际上，Crivello 早在几个月前就暗示过他的意图。4 月份的时候，他曾经在 X 上写道，推理是 Lindy 占比最高的单项支出（超过了工资单），并且只用了一年时间，开源大模型就从“远不及闭源模型”发展到了“在大多数使用场景中都跻身前沿水平”。他说，当时 Lindy 差点将 Kimi K2.5（来自中国 AI 公司 Moonshot AI 的一个模型）作为其默认设置，不过后来他们转向了总部位于北京的 Zhipu AI 开发的 GLM-5.1。最终，这家公司选择了 DeepSeek v4，这是中国 AI 研究公司 DeepSeek 的一个旗舰开源模型。当然，在全面投入生产的情况下从一家模型供应商切换到另一家绝非易事。Crivello 告诉 The New Stack，完成这一过程所需的时间取决于从何时开始计算。但无论如何，这都是一项艰巨的任务。 Crivello 解释道，“我们一直在考虑进行这次转型，并评估新的开源软件（OSS）方案已有 6 到 9 个月的时间，而 DeepSeek 自发布以来，我们也一直在关注它，大约有 2 个月了”。值得注意的是，迁移工作比 Crivello 最初的预期要繁重许多。他说，“比我们想象的工作要多 100 倍”。评估（在现实世界的任务中系统性地测试新模型，验证它能否媲美甚或超过 Anthropic 模型的性能）是其中的一个重要部分。 Crivello 说，“模型评估的工作量很大，包括在线评估、离线评估，还有大量‘氛围评估’。[随后我们] 分阶段上线了在线评估，同时观察其对用户留存率的影响；[接着] 针对新模型调整了提示词。” 仅看成本节省这一项，还不足以证明这项工作的合理性。但性能结果给了 Crivello 更多的信心，特别是在其核心用例上，包括电子邮件收件箱分类和根据用户的反馈预先起草回复。 Crivello 解释说，“正是在那些任务中，我们看到了 DeepSeek 所带来的惊人的性能提升。”不过他也指出，在一些复杂的自动化任务上，DeepSeek 仍然落后于 Anthropic。他说，“在工作流自动化方面，它仍然不如 Sonnet，不过，这对我们来说并不重要。” DeepSeek 时刻要理解 Lindy 的转型为何如此重要，了解 DeepSeek 在 AI 行业中所代表的意义会有所帮助。 2025 年 1 月，DeepSeek 公司在硅谷引起了轩然大波：其 R1 模型以极低的成本达到了与美国顶尖前沿模型相当的性能水平。这使得英伟达的股价出现了一轮短暂但剧烈的抛售，投资者开始质疑关于 AI 计算需求的基本假设。此后，该公司接连发布新产品，不断缩小与前沿领域的差距。 2026 年 4 月发布的 DeepSeek V4 预览版标志着又一次重大飞跃，而且不仅仅体现在价格上。在 LinkedIn 上，瑞士洛桑联邦理工学院（EPFL）教授、EPFL 人工智能中心联合主任 Marcel Salathe 指出，从地缘政治的角度来看，V4 有着更深远的意义：这是首次出现从芯片、框架到模型完全由中国自主研发的尖端 AI 技术栈。据悉，DeepSeek 耗时数月重写了 v4 版本，使其能在 CANN（华为版 Nvidia CUDA）上运行，从而降低了对美国芯片基础设施的依赖。这种地缘政治格局的转变带来了直接的商业影响。正如 The New Stack 此前报道的那样，以中国人工智能实验室为主的廉价开放权重模型的出现，将 AI 模型市场一分为二：一端是 OpenAI 和 Anthropic 等公司推出的超高端前沿模型，另一端则是价格大幅降低的开放权重替代方案，而原本舒适的中间地带正在逐渐萎缩。数据印证了这一趋势：作为连接应用程序与 AI 服务提供商的中介平台，Vercel 的 AI Gateway 数据显示，DeepSeek 在 5 月单月内的 Token 交易量份额从不足 1% 跃升至 17%，而其实际支出份额仍维持在 1% 左右，这恰恰反映出这些 Token 的实际成本有多么低廉。对于像 Lindy 这样大规模运行代理的公司而言，这种两极分化迫使他们不得不认真思考该选择哪种商业模式。对于 Lindy 的创始人来说，由于推理成本已经超过薪资支出，这个问题其实只是时间早晚的问题。 Lindy 最终选择了 Atlas Cloud——这家总部位于美国的推理服务提供商在美国本土托管 DeepSeek v4 模型。鉴于围绕中国开发模型的数据主权问题往往备受关注，这一点尤为重要。在回应 X 平台上一位评论者的提问时，Crivello 直接谈及了此事。他指出，该模型由一家美国服务商在美国境内托管，并且在评估了“所有主要供应商”后，Atlas脱颖而出。值得一提的是，自主托管从未被列入他们的考虑范围。他说，“我们没有认真考虑过[自托管]，不，那看起来