这家Agent 公司从 Claude 切到 DeepSeek v4:一年省下数百万美元,迁移工作量却是预期的 100 倍

2026-06-25 1 阅读 Paul Sawers
本文最初发布于博客 TheNewStack。 初创公司 Lindy 将其全部 AI 代理流量从 Anthropic 转移到了 DeepSeek v4,每年可以节省数百万美元的推理成本。首席执行官 Flo Crivello 解释了为什么迁移工作比预期多出许多。 图片来自 Unsplash+,由用户 Space Stock 提供 推理成本 已经成为可持续 AI 部署的最大障碍。最近,GitHub放弃 了其 Copilot 订阅的统一费率,转而采用基于使用的计费方式,因为代理编码会话的成本超出了固定月费能够覆盖的范围——一些订阅者醒来时发现,他们的账单比之前高出数倍。与此同时,在短短四个月内,Uber 就烧光了 2026 年整年的 AI 预算,主要是在 Claude Code 上。这让首席运营官产生了质疑,他们所获得的回报是否值得这笔支出。 为应对这一更广泛的行业反思,Linux 基金会成立了 Tokenomics 基金会, 得到了谷歌、微软、IBM、Salesforce 等企业的支持。该基金会旨在围绕 AI Token 成本建立一个开放的标准。这一举措表明,业界已经意识到,企业目前尚无统一的方法来衡量或控制这方面的支出。 转型 对于大量运行 AI 代理的公司来说,前沿模型的经济性已经成为一个几乎关乎生存的问题。 Flo Crivello(前 Uber 工程师兼产品负责人)是 Lindy 的创始人兼首席执行官。Lindy 是一个无代码 AI 代理平台,可以自动化日常工作任务——从电子邮件分类和会议安排到 CRM 管理。作为 Teamflow 的转型举措,Crivello 在 2023 年创立了 Lindy。前者是一个他之前筹集了 5200 万美元 的资金创办的一家虚拟办公室初创公司。这些资本现在被用于支持 Lindy 的发展。 Lindy 上周,Crivello 在社交媒体上 宣布,Lindy 已经将其整个模型基础设施从 Anthropic 切换到了 DeepSeek。 Crivello 在 X 上写道,“今天我们扣动了扳机,将 100% 的 Lindy 流量从 Anthropic 模型切换到了 DeepSeek v4。这每年能为我们节省数百万美元,而且,我们在许多核心用例上看到了性能提升。对业务来说,这是变革性的。” 实际上,Crivello 早在几个月前就 暗示过他的意图。4 月份的时候,他曾经 在 X 上写道,推理是 Lindy 占比最高的单项支出(超过了工资单),并且只用了一年时间,开源大模型就从“远不及闭源模型”发展到了“在大多数使用场景中都跻身前沿水平”。他说,当时 Lindy 差点将 Kimi K2.5(来自中国 AI 公司 Moonshot AI 的一个模型)作为其默认设置,不过后来他们转向了总部位于北京的 Zhipu AI 开发的 GLM-5.1。 最终,这家公司选择了 DeepSeek v4,这是中国 AI 研究公司 DeepSeek 的一个旗舰开源模型。 当然,在全面投入生产的情况下从一家模型供应商切换到另一家绝非易事。Crivello 告诉 The New Stack,完成这一过程所需的时间取决于从何时开始计算。但无论如何,这都是一项艰巨的任务。 Crivello 解释道,“我们一直在考虑进行这次转型,并评估新的开源软件(OSS)方案已有 6 到 9 个月的时间,而 DeepSeek 自发布以来,我们也一直在关注它,大约有 2 个月了”。 值得注意的是,迁移工作比 Crivello 最初的预期要繁重许多。他说,“比我们想象的工作要多 100 倍”。评估(在现实世界的任务中系统性地测试新模型,验证它能否媲美甚或超过 Anthropic 模型的性能)是其中的一个重要部分。 Crivello 说,“模型评估的工作量很大,包括在线评估、离线评估,还有大量‘氛围评估’。[随后我们] 分阶段上线了在线评估,同时观察其对用户留存率的影响;[接着] 针对新模型调整了提示词。” 仅看成本节省这一项,还不足以证明这项工作的合理性。但性能结果给了 Crivello 更多的信心,特别是在其核心用例上,包括电子邮件收件箱分类和根据用户的反馈预先起草回复。 Crivello 解释说,“正是在那些任务中,我们看到了 DeepSeek 所带来的惊人的性能提升。”不过他也指出,在一些复杂的自动化任务上,DeepSeek 仍然落后于 Anthropic。 他说,“在工作流自动化方面,它仍然不如 Sonnet,不过,这对我们来说并不重要。” DeepSeek 时刻 要理解 Lindy 的转型为何如此重要,了解 DeepSeek 在 AI 行业中所代表的意义会有所帮助。 2025 年 1 月,DeepSeek 公司在硅谷引起了轩然大波:其 R1 模型以极低的成本达到了与美国顶尖前沿模型相当的性能水平。这使得英伟达的股价出现了 一轮短暂但剧烈的抛售,投资者开始质疑关于 AI 计算需求的基本假设。此后,该公司接连发布新产品,不断缩小与前沿领域的差距。 2026 年 4 月发布的 DeepSeek V4 预览版 标志着又一次重大飞跃,而且不仅仅体现在价格上。在 LinkedIn 上,瑞士洛桑联邦理工学院(EPFL)教授、EPFL 人工智能中心联合主任 Marcel Salathe 指出,从地缘政治的角度来看,V4 有着更深远的意义:这是首次出现从芯片、框架到模型完全由中国自主研发的尖端 AI 技术栈。据悉,DeepSeek 耗时数月重写了 v4 版本,使其能在 CANN(华为版 Nvidia CUDA)上运行,从而 降低了对美国芯片基础设施的依赖。 这种地缘政治格局的转变带来了直接的商业影响。正如 The New Stack 此前报道 的那样,以中国人工智能实验室为主的廉价开放权重模型的出现,将 AI 模型市场一分为二:一端是 OpenAI 和 Anthropic 等公司推出的超高端前沿模型,另一端则是价格大幅降低的开放权重替代方案,而原本舒适的中间地带正在逐渐萎缩。数据印证了这一趋势:作为连接应用程序与 AI 服务提供商的中介平台,Vercel 的 AI Gateway 数据显示,DeepSeek 在 5 月单月内的 Token 交易量份额从不足 1% 跃升至 17%,而其实际支出份额仍维持在 1% 左右,这恰恰反映出这些 Token 的实际成本有多么低廉。 对于像 Lindy 这样大规模运行代理的公司而言,这种两极分化迫使他们不得不认真思考该选择哪种商业模式。对于 Lindy 的创始人来说,由于推理成本已经超过薪资支出,这个问题其实只是时间早晚的问题。 Lindy 最终选择了 Atlas Cloud——这家总部位于美国的推理服务提供商在美国本土托管 DeepSeek v4 模型。鉴于围绕中国开发模型的数据主权问题往往备受关注,这一点尤为重要。在回应 X 平台上一位评论者 的提问时,Crivello 直接谈及了此事。他指出,该模型由一家美国服务商在美国境内托管,并且在评估了“所有主要供应商”后,Atlas脱颖而出。值得一提的是,自主托管从未被列入他们的考虑范围。 他说,“我们没有认真考虑过[自托管],不,那看起来