BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力一水 2026-06-27 20:29:33 来源：量子位人类一次录制，Agent就能模拟允中发自凹非寺量子位 | 公众号 QbitAI Agent从来不是不会用浏览器，只是浪费太多时间在探索——BrowserBC把人类轨迹蒸馏成可复用Skill来完成Behavior Cloning，用户点一遍，Agent照着就能跑通。今天的Web Agent，已经不缺「会操作」这件事。 Claude、Codex这类Agent能看页面、能识别按钮和输入框，能点击、输入、跳转、提交。真正卡住它们的，是另一个问题：每接一个新任务、每换一个新网站，几乎都要让最强、也最贵的那个模型，从零开始再把整个流程摸索一遍。而这种「从零摸索」，常常摸着摸着就出岔子：陷进死循环，在几个页面之间反复横跳；慢慢偏离最初的任务意图，越走越远；在搜索结果里来回切换却始终没读全；或者明明已经很接近答案，却提前收手、草草交差。在摸索一遍之后呢？就算这次侥幸做成了，这点经验也往往随着这一轮对话一起蒸发。下一次同类任务，再换一个Agent，还要从头试错、再踩一遍同样的坑。于是，一个很朴素的问题浮出水面：能不能做一次、复用很多次？更具体一点——能不能让人把任务认真做一遍，把这一遍操作里的「门道」打包下来，然后交给一个更便宜、更小的模型，让它照着做，就能完成同一类任务？ Einsia AI旗下Navers Lab发布的开源项目BrowserBC给出的答案，是一条三步范式：录制→转写成Skill→交付执行。录制：在浏览器里做任务的时候，把全过程完整记录下来——任务指令、每一步的页面观察（既有渲染出来的截图，也有结构化的DOM/可访问性树快照）、用户的每一个动作（点击、输入、跳转、提交，并带着对应的元素定位）、页面给出的反馈（页面跳转、校验与报错信息、完成信号），以及任务最终落到哪个状态。转写：关键在于，它不是把这段操作存成一段「回放脚本」，而是由模型把它转写成一份自然语言的Skill——一份说明书式的「技能卡」，写清楚这类任务该怎么做、怎么判断做对了。执行：再把这份Skill交给任意一个模型去读。它据此在真实页面上自己落地操作，而不是机械复刻某一次的点击坐标。说得通俗一点，BrowserBC有点像 agentic时代的「按键精灵」。传统的按键精灵，会把人的鼠标点击和键盘敲击录下来再回放——但它录的是写死的坐标和按键，页面一变、布局一动，整段脚本立刻就废了。 BrowserBC录的不是坐标，而是把这一遍操作转写成一份讲清「该做什么、怎么算做完」的技能：它能被另一个模型读懂，能在变了样的页面上举一反三，也能被不断合并、复用——它是那种会「理解」、能迁移、还能直接交给别人用的按键精灵。这也揭示出BrowserBC的核心—— 技能从哪里来，和技能由谁来执行，可以彻底分开。人在浏览器里把任务做一遍，这一遍操作被转写成技能；之后照着技能把同类任务做下去的，是另一个、哪怕更小、更便宜的模型。技能一旦被转写成自然语言，就能在模型之间自由地传递、复用、组合。这正是通往「通用网页浏览」的关键步骤：把人类每天的浏览器行为蒸馏给Agent去做。 *BrowserBC把人类的浏览器操作轨迹蒸馏成可复用的自然语言技能，为Agent提供访问陌生网站时的“决策先验”。 Github：https://github.com/Einsia/Browser-BC Blog：https://lab.einsia.ai/browserbc/ Paper：https://lab.einsia.ai/browserbc/paper 人类一次录制，Agent就能模拟研究团队录制了一个case：视频链接：https://mp.weixin.qq.com/s/OFXkRh_keR4HzgTImCGjVg 任务很常见：旅行前想要在目的地找一处安心、方便、实惠的民宿，需要在预订网站输入时间、地点、预约人数，按照网站评分、评分数量筛选，并且排序找出里面最优的选项。这类任务看起来不难，但是小模型经常栽在它上面——不是不理解任务，而是要么不知道怎么用筛选功能，要么产生幻觉输出虚构信息假装完成。第一步，录制。研究团队先让一个人把它完整做一遍：进入网站→输入时间地点人数→应用合适的筛选器→阅读所有搜索结果→找到最佳选项。整个过程被原样记录下来。第二步，转写成Skill 。系统把这段操作转写成一张技能卡，而不是一段坐标回放。卡片上写的是这一类任务的通用门道：意图：在预订网站找到最佳的住宿选项；关键步骤：先写基本信息，搜索之后逐项应用筛选器——这正是小模型最容易不理解或者做不到的地方；完成判据：最后输出可以人工核查的版本；要避免的坑：官方筛选器可能和用户实际需要的标准不一样，如有需要则需要自己编写脚本筛选。第三步，交付给一个小模型执行。这张卡片被交给一个明显更小的模型，让它去完成另外一次旅程的信息检索，做同类型的任务。没有这张卡片时，它要么跌跌撞撞卡死或者很久才勉强完成任务，要么直接输出幻觉；拿到卡片后，它立刻知道要输入什么信息，要核查什么界面，哪些要依赖网站官方哪些要自己判别——于是稳定地把任务做完了。就这样， BrowserBC把「操作浏览器」这件每天都在发生的事，变成了可以被Agent复用的技能。人把路趟通一次、由系统转写成说明书Agent型负责照着说明书把同一类路走顺。而且，这条路天然是可复用、可扩展的。人类访问网站的分布服从幂律分布：常见的站点构成了人类访问的大部分，对于这些站点，用的人越多，Skill库就会收敛得越完备；更关键的是，针对稀疏的长尾分布，BrowserBC使得人们再也不需要等那些落后的旧网站自己来提供MCP（或官方Agent接口）了。现实是，大量老网站永远不会专门为Agent开放一套干净的机器接口；而BrowserBC直接复用人类在「给人看的那套界面」上积累下来的操作经验——只要人能用浏览器把它用起来，Agent就能借由蒸馏出的技能把它用起来。换句话说，一个网站能不能被Agent高效访问，不再取决于网站方愿不愿意配合、肯不肯升级，而取决于有没有人已经在这个网站上走通过路。这恰恰是「通用」二字的底气所在。方法：怎么把一次操作转写成能用的Skill，又怎么把越来越多的Skill管起来 *BrowserBC将嘈杂的浏览轨迹清洗、蒸馏为可复用的自然语言技能，并进一步组织成可扩展的技能图，最后检索相关技能指导Agent完成新任务。 BrowserBC的方法部分，其实就回答两个问题：一段操作该怎么总结、总结时要注意什么；以及总结出来的成千上万个Skill，该怎么管理。第一个问题：怎么转写，以及要特别注意什么？原始的浏览器轨迹往往非常嘈杂——里面有误点击、无意义的