智能AI
morning
10人小团队,如何跑出日活第一Agent?
2026-05-19
1 阅读
深流研究所
文 | 深流研究所,作者 | 山杉 5月13日,腾讯发布了一季度财报。 与过去在 AI 上的迟缓相比,这次腾讯有些不一样:Hy3 preview 跑出了表现,Agent 集群式地冒了出来——其中, WorkBuddy 夺得国内 DAU 第一 ,据第三方数据,其月访问量 885 万,领先第二名 2.6 倍。马化腾在发言里说,"效率智能体解决方案已初见成效,WorkBuddy 目前是中国使用最广的效率智能体服务。"而在财报电话会议上,WorkBuddy 更是被高频提及。 但很少有人知道, 大概三年前,WorkBuddy 团队还只是一个做 AI 代码助手的 10 人小团队 。因为还没跑通商业回报,一直在为生存发愁。负责人汪晟杰不止一次争取:能不能在世界人工智能大会这样的场合,让腾讯 AI 代码助手有一个露脸的机会? 得到的答复通常是不行。那时世界的聚光灯仍在大模型上。但汪晟杰和背后团队有对技术趋势的判断,确信自主智能体一定会爆发。 那几年,他们沿着 AI Coding 一路进化产品。当 Claude Cowork 开辟了面向普通用户的 AI 工作台时,他们同期也在做类似产品——2026 年 1 月中旬,他们推出了 WorkBuddy,开启内测。 原本计划慢慢打磨,然而 2026 年春节后,"龙虾"的爆火打乱了节奏。WorkBuddy 被推上快车道,一周内在完整基建上重构、支持远程控制、对接龙虾生态。"两眼一闭就上了。"Jason 说。 接下来一段时间,WorkBuddy 用自身的 coding 能力,以日更速度迭代。一个月前还无法设想的事一个接一个兑现:小程序上线,把入口压进微信;QQ 邮箱、腾讯文档、乐享、微云也纷纷接入…… 就这样,这个团队飞速地站到了舞台中间。 眼下的 AI 竞争格局未定、前路不明,各家公司中都存在着一个个 AI 原生的小团队,在自己看好但还未爆发的方向艰难掘进。一定程度上说, 创新的前景也正取决于此:小团队究竟有多大的探索空间?当机会到来时,它们能否被快速识别、推到舞台中央?亦或者,在繁冗的组织和流程中耗尽生命力? WorkBuddy 提供了一个观察切片。 故事要从 2023 年说起。 1、十个人和一间机房 2023 年,腾讯云内部有一支大约十人的团队,在做一件很不起眼的事——AI 代码助手,能在程序员敲代码时自动补全几行。 那一年 AI 世界最瞩目的是大模型和 chatbot,但作为这个产品最早的产品经理,汪晟杰全身心押注在 AI 编码。 他们手里没有太多好牌。混元当时还不能提供成熟的私有化版本,对话模型也不够强。AI Coding 也不像今天这样火热。最现实的问题是先活下来。 作为腾讯云解决方案的一个模块,他们第一个关键客户是招商银行。汪晟杰在招商银行的机房驻场近三周,开会、布产品、收反馈、改版本,到 2024 年底终于签约。后来又用类似方式啃下了小米、荣耀等客户。 "算是活下来了。"汪晟杰说,"按创业逻辑,大概是 Pre-A 轮。" 蹲在机房的那段时间,AI 世界正在悄然发生变化。 Cursor、Devin、Claude Code,新形态接连出来。他们紧盯着每个变化,发现这些产品里, AI 角色变了——不再是辅助一行代码,它在朝着自主完成任务的方向走 。 "这件事我们认为一定会发生。"汪晟杰说。并且他们都确信,自主智能体会沿着 Coding 这条路先走出来。因为代码是最结构化的真实任务,工程链路最完整,反馈信号最干净。Coding 走通了,Agent 才有可能走到办公、走到生活。 产品形态一路进化。2024 年 5 月,汪晟杰和团队开发的 CodeBuddy 作为 AI 编程产品对外发布;2025 年 7 月升级为 CodeBuddy IDE——一个让用户用自然对话完成产品构想、设计、开发、部署整条流程的 AI 工作台。它把产品经理、设计师、程序员都装进同一个工具:一句话生成 PRD,上传草图或 Figma 稿生成 UI,AI 接着写代码、部署上线。 这是他们第一次把 Agent 能力做成一个完整的产品形态。但这一切不是产品形态对了就成立的,背后需要一套完全不同于传统软件的工程。 2、驾驭工程 很长一段时间,这个团队都把精力放在更底层的事情上——让 Agent 真正能在真实工作里跑起来。越往后做,他们越发确认: Agent 真正困难的,不只是模型,更是工程 。 那两年 AI 世界仍在聚焦模型:谁的参数大、谁的 benchmark 高、谁是 SOTA。混元也在艰难追赶,CodeBuddy 团队则着力把工程跑通。 后来在一次对外访谈里,腾讯云智能体产品负责人黄广民用一个公式概括过这个判断—— Agent = 模型 × 上下文 × 循环 。模型决定上限,上下文和循环决定能不能稳定逼近上限。"大多数人不会撞到模型的上限,"他说,"大多数人栽在上下文和循环上。" 汪晟杰喜欢一个比喻——大模型不是天才,是" 每天失忆的天才实习生 "。极其聪明,但第二天什么都不记得。 所以他们做的第一件事,是给这个实习生设计一套交接本——什么留下来、什么被压缩、什么在关键时刻被唤起、按什么顺序递给他。这些统称为上下文工程。 比如怎么让模型读懂一个完整的代码工程。他们试过向量搜索,效果一般——搜索能召回相关片段,但拼不出文件之间的依赖关系,看不到工程全貌。两次失败之后,他们回到最笨的办法,模拟人类理解项目:先看目录、找关键文件,再一层层深入。 "看起来笨,"黄广民说,"但有效。" 但光记得住、想得明白还不够。Agent 得能调文件、能点按钮、能在用户的浏览器里真的干点什么。这一层细节多得吓人——检索返回、文件 diff、终端日志等等,大量工具输出都会反复灌进上下文,要做过滤、切片、摘要;循环也得有边界——一个 Agent 干了 50 步,第 37 步出了问题,得能分辨是哪一步、要不要跳出,不能在死路上继续烧 token。 速度和耐心都是工程指标。代码补全的端到端时延被压在 600 到 800 毫秒,直接约束了模型规模和上下文长度;后台显示单个任务用户平均接受 10 轮交互,容忍上限 20 到 30 轮,超过就放弃。 "核心是用更少的步数解决问题,"黄广民说。每一步都要落得下去,落不下去要立刻知道。 还有一个更难的问题:这个越来越像人的 Agent,怎么被人管住?不同的模型脾气不一样,调法也不一样——GPT 那时反复跟用户确认需求,不肯主动改代码,他们就改系统提示词让它果断行动;Gemini 3.0 Pro 前端审美强,他们就在提示词里放大它的视觉优势。 这一层沉淀下来的东西,用业界的说法,黄广民称之为 Harness Engineering,驾驭工程 。 当模型已经足够聪明,谁先把驾驭工程做对,谁就能在风口来的时候迅速抓住。 3、两个通宵的周末 两年打磨,CodeBuddy 在腾讯内部渗透了超过 90% 的工程师,AI 生成代码占比过半,原本两周的需求两天就能交付。 但汪晟杰很快发现,剩下的人不是不愿意用,是不会用——CodeBuddy 是给程序员的,非程序员看到一个 IDE 就懵。 可他注意到一个反常的现象:腾讯研究院有一支深度研究团队,一直在用 CodeBuddy 检索论文、整理内容、生成分