Local Qwen 并不是一个更差的 Opus，它是一个不同的工具

我们都听人说本地 Qwen 27B 或 35-A3B 是“接近 Opus 级别”，但我有来自软件业务和开源项目的收据，我在这里向您坦白。这篇文章很长是有原因的。这不是粗略的一瞥，也不是 X 上关于取消 Claude Max 的未经证实的声明，也不是来自一个每秒运行个位数令牌且具有 32K 上下文窗口的模型的爱好者报告。它不是由一位在飞机上发推文的著名首席执行官写的。这是我作为一家小型软件公司创始人的旅程，当地的模式已经产生了真正的、有条件的价值。我参与其中，但没有动力推动云或本地模型，并且强烈希望本地模型变得有能力和可靠。我将介绍该卡在前两三个月内如何收回成本、它如何继续服务于我们的特定业务用例、为什么我仍然不能在无人监督的情况下信任它，以及 Qwen 最糟糕的特征：无限循环和幻觉风险。当您将其量化以适合消费级 GPU 时，这些问题最为明显。弄清楚 RTX 6000 Pro 的电源连接器关于我的 AI 用例我作为维护者和创始人的旅程始于 OpenFaaS - 完全由手工构建，就像 2016 年直到最近的所有软件一样。这意味着我自己奠定项目的核心，然后通过社区邀请其他人参与 - 不是因为我自己做不到，而是因为我的目标是构建一个成功的开源项目。 2017 年左右，我试图通过加入 VMware 来筹集时间，2019 年市场发生变化后，我需要一种方式来为自己的工作提供资金，因此转向开放核心并建立了一家自力更生的公司。今天，我们的小团队维护着 OpenFaaS、SlicerVM - AI 沙箱和“Linux 缺失的 API”、Actuated.com - 用于 GitHub/GitLab 的自托管 CI 运行程序，以及 Inlets.com - 自托管 HTTP/TCP 隧道。这些产品使用非常低级的 Linux 原语，例如容器、Kubernetes、Firecracker microVM 和网络协议。如果你仔细观察，就会发现它们都是固执己见的基础设施产品，重点关注：效率、用户体验、控制和自主。它们是用 Go 编写的，有些具有基于 React 的 UI 组件、登陆页面、文档、代理技能和 CLI。除了代码之外，我们还提供一流的支持，因为我们很精益，并且愿意做一些无法扩展的事情来帮助客户。只要人工智能工具可用，我就一直在使用它们 - 从早期 VS Code 中的制表符补全，到让 ChatGPT 生成代码块或查找错误，再到每天在 tmux 中生活 12 小时。我发现自己大部分时间都在 tmux 中，因此我编写了一个免费工具 Superterm.dev 来跟踪我的会话、笔记并从编码代理那里获取视觉反馈。在那段时间里，我看到了从“减少样板文件”到“端到端设计、架构和测试”的能力。我的大部分工作都是 Claude 或 Codex 完成的，虽然我坚持自己写作，但我很少手工编写代码 - 尽管我这么说很痛苦。前沿情报的转折点我想说，大约在 2025 年 11 月至 2026 年 1 月之间，我们看到了一个转折点。 X 上的许多开发人员开始拥护 Claude Opus，因为它已经发生了变化，并且它现在能够完成他们的所有工作。手动编码很快就会变坏，就像牛奶离开冰箱就会变酸一样。个人高端编码计划的成本约为 200 美元/月。一个实数，但对于它们产生的价值来说是可以接受的。即使在今天，如果您避免过多的无人值守工作，您也可以将其持续到 5 小时的限制，如果您小心的话，还可以达到每周的限制。是什么让本地模型变得有趣有一种争论说：“为什么要使用低于你能负担得起的最好的东西呢？” 2026 年无疑是一个新领域：我们发现自己正处于一个这样的境地：任何想法都可以在一夜之间被发展中国家的订阅者克隆出来。我已经看到我们的 SlicerVM 产品（最初于 2022 年手工编写）和 Superterm（2026 年新产品，100% 由编码代理编写）发生了这种情况。这并不是说 vivicoded 克隆 100% 相当于一个精心设计和架构的解决方案，并有经验丰富的团队支持它，但软件成本为零的市场 - 免费且足够好才是最重要的。那么，在这样一个竞争激烈的环境下，为什么要把自己限制在更糟糕的事情上呢？这不是机会成本吗？这不是拿你的生计冒险吗？据估计，主要模型包含 0.5-2T 参数。这不仅仅是比本地硬件的同类最佳产品“稍微多一点”或“多几倍”——这是不同的水平。参数计数是能力、知识和推理能力的粗略代表。然而不知何故，即使像 Qwen 3.6 27B 这样的小型密集模型也能在 SWE-Bench Verified 上获得 77.2 的良好基准，而 Claude Opus 4.8 的得分为 88.6%。所以你可以原谅

订阅66必读