10人小团队，如何跑出日活第一Agent?

文 | 深流研究所，作者 | 山杉 5月13日，腾讯发布了一季度财报。与过去在 AI 上的迟缓相比，这次腾讯有些不一样：Hy3 preview 跑出了表现，Agent 集群式地冒了出来——其中， WorkBuddy 夺得国内 DAU 第一，据第三方数据，其月访问量 885 万，领先第二名 2.6 倍。马化腾在发言里说，"效率智能体解决方案已初见成效，WorkBuddy 目前是中国使用最广的效率智能体服务。"而在财报电话会议上，WorkBuddy 更是被高频提及。但很少有人知道，大概三年前，WorkBuddy 团队还只是一个做 AI 代码助手的 10 人小团队。因为还没跑通商业回报，一直在为生存发愁。负责人汪晟杰不止一次争取：能不能在世界人工智能大会这样的场合，让腾讯 AI 代码助手有一个露脸的机会？得到的答复通常是不行。那时世界的聚光灯仍在大模型上。但汪晟杰和背后团队有对技术趋势的判断，确信自主智能体一定会爆发。那几年，他们沿着 AI Coding 一路进化产品。当 Claude Cowork 开辟了面向普通用户的 AI 工作台时，他们同期也在做类似产品——2026 年 1 月中旬，他们推出了 WorkBuddy，开启内测。原本计划慢慢打磨，然而 2026 年春节后，"龙虾"的爆火打乱了节奏。WorkBuddy 被推上快车道，一周内在完整基建上重构、支持远程控制、对接龙虾生态。"两眼一闭就上了。"Jason 说。接下来一段时间，WorkBuddy 用自身的 coding 能力，以日更速度迭代。一个月前还无法设想的事一个接一个兑现：小程序上线，把入口压进微信；QQ 邮箱、腾讯文档、乐享、微云也纷纷接入…… 就这样，这个团队飞速地站到了舞台中间。眼下的 AI 竞争格局未定、前路不明，各家公司中都存在着一个个 AI 原生的小团队，在自己看好但还未爆发的方向艰难掘进。一定程度上说，创新的前景也正取决于此：小团队究竟有多大的探索空间？当机会到来时，它们能否被快速识别、推到舞台中央？亦或者，在繁冗的组织和流程中耗尽生命力？ WorkBuddy 提供了一个观察切片。故事要从 2023 年说起。 1、十个人和一间机房 2023 年，腾讯云内部有一支大约十人的团队，在做一件很不起眼的事——AI 代码助手，能在程序员敲代码时自动补全几行。那一年 AI 世界最瞩目的是大模型和 chatbot，但作为这个产品最早的产品经理，汪晟杰全身心押注在 AI 编码。他们手里没有太多好牌。混元当时还不能提供成熟的私有化版本，对话模型也不够强。AI Coding 也不像今天这样火热。最现实的问题是先活下来。作为腾讯云解决方案的一个模块，他们第一个关键客户是招商银行。汪晟杰在招商银行的机房驻场近三周，开会、布产品、收反馈、改版本，到 2024 年底终于签约。后来又用类似方式啃下了小米、荣耀等客户。 "算是活下来了。"汪晟杰说，"按创业逻辑，大概是 Pre-A 轮。" 蹲在机房的那段时间，AI 世界正在悄然发生变化。 Cursor、Devin、Claude Code，新形态接连出来。他们紧盯着每个变化，发现这些产品里， AI 角色变了——不再是辅助一行代码，它在朝着自主完成任务的方向走。 "这件事我们认为一定会发生。"汪晟杰说。并且他们都确信，自主智能体会沿着 Coding 这条路先走出来。因为代码是最结构化的真实任务，工程链路最完整，反馈信号最干净。Coding 走通了，Agent 才有可能走到办公、走到生活。产品形态一路进化。2024 年 5 月，汪晟杰和团队开发的 CodeBuddy 作为 AI 编程产品对外发布；2025 年 7 月升级为 CodeBuddy IDE——一个让用户用自然对话完成产品构想、设计、开发、部署整条流程的 AI 工作台。它把产品经理、设计师、程序员都装进同一个工具：一句话生成 PRD，上传草图或 Figma 稿生成 UI，AI 接着写代码、部署上线。这是他们第一次把 Agent 能力做成一个完整的产品形态。但这一切不是产品形态对了就成立的，背后需要一套完全不同于传统软件的工程。 2、驾驭工程很长一段时间，这个团队都把精力放在更底层的事情上——让 Agent 真正能在真实工作里跑起来。越往后做，他们越发确认： Agent 真正困难的，不只是模型，更是工程。那两年 AI 世界仍在聚焦模型：谁的参数大、谁的 benchmark 高、谁是 SOTA。混元也在艰难追赶，CodeBuddy 团队则着力把工程跑通。后来在一次对外访谈里，腾讯云智能体产品负责人黄广民用一个公式概括过这个判断—— Agent = 模型 × 上下文 × 循环。模型决定上限，上下文和循环决定能不能稳定逼近上限。"大多数人不会撞到模型的上限，"他说，"大多数人栽在上下文和循环上。" 汪晟杰喜欢一个比喻——大模型不是天才，是" 每天失忆的天才实习生 "。极其聪明，但第二天什么都不记得。所以他们做的第一件事，是给这个实习生设计一套交接本——什么留下来、什么被压缩、什么在关键时刻被唤起、按什么顺序递给他。这些统称为上下文工程。比如怎么让模型读懂一个完整的代码工程。他们试过向量搜索，效果一般——搜索能召回相关片段，但拼不出文件之间的依赖关系，看不到工程全貌。两次失败之后，他们回到最笨的办法，模拟人类理解项目：先看目录、找关键文件，再一层层深入。 "看起来笨，"黄广民说，"但有效。" 但光记得住、想得明白还不够。Agent 得能调文件、能点按钮、能在用户的浏览器里真的干点什么。这一层细节多得吓人——检索返回、文件 diff、终端日志等等，大量工具输出都会反复灌进上下文，要做过滤、切片、摘要；循环也得有边界——一个 Agent 干了 50 步，第 37 步出了问题，得能分辨是哪一步、要不要跳出，不能在死路上继续烧 token。速度和耐心都是工程指标。代码补全的端到端时延被压在 600 到 800 毫秒，直接约束了模型规模和上下文长度；后台显示单个任务用户平均接受 10 轮交互，容忍上限 20 到 30 轮，超过就放弃。 "核心是用更少的步数解决问题，"黄广民说。每一步都要落得下去，落不下去要立刻知道。还有一个更难的问题：这个越来越像人的 Agent，怎么被人管住？不同的模型脾气不一样，调法也不一样——GPT 那时反复跟用户确认需求，不肯主动改代码，他们就改系统提示词让它果断行动；Gemini 3.0 Pro 前端审美强，他们就在提示词里放大它的视觉优势。这一层沉淀下来的东西，用业界的说法，黄广民称之为 Harness Engineering，驾驭工程。当模型已经足够聪明，谁先把驾驭工程做对，谁就能在风口来的时候迅速抓住。 3、两个通宵的周末两年打磨，CodeBuddy 在腾讯内部渗透了超过 90% 的工程师，AI 生成代码占比过半，原本两周的需求两天就能交付。但汪晟杰很快发现，剩下的人不是不愿意用，是不会用——CodeBuddy 是给程序员的，非程序员看到一个 IDE 就懵。可他注意到一个反常的现象：腾讯研究院有一支深度研究团队，一直在用 CodeBuddy 检索论文、整理内容、生成分