智能AI
morning
传奇研究员 Karparthy 加入 Anthropic,你想知道的一切都在这里
2026-05-20
1 阅读
AI唱反调
文 | AI唱反调 "I've joined Anthropic." Andrej Karpathy 发出了这条推文,这位顶级研究员的这条推文,像极了迈克尔·乔丹当年喊出的那句I”m back 。 他写道:"未来几年在 LLM 前沿会格外关键(especially formative),我非常兴奋地加入这里的团队,回到研发(get back to R&D)。" 这是一个顶级研究员对自己未来三五年的明牌下注。而他下注的位置,正好是过去一年整个 AI 圈最不敢押的那一格——pre-training(预训练)。 Karpathy是谁 Karpathy为何传奇,源自于他经历了 AI 发展的每个关键节点和他的梦幻履历。 2015 年,Karpathy 拿到 Stanford 的 PhD,同年加入 OpenAI,是那 11 个 founding members 里最年轻的一个。 作为OpenAI创始核心成员,他深度参与初代大模型底层架构搭建,是GPT技术体系的早期开拓者,奠定了生成式AI的发展根基。入局特斯拉后,他掌舵自动驾驶AI团队,一手搭建纯视觉Autopilot体系,让智能驾驶实现规模化落地,成为全球视觉自动驾驶路线的标杆。 离开特斯拉后,他二度回归OpenAI深耕大模型训练技术,后续独立创业探索AI教育赛道。其打造的Vibe Coding范式、CLAUDE.md开发规范风靡全球,斩获数十万GitHub星标,成为开发者通用标准,是公认的技术顶流与行业启蒙者。 也就是说,他离开过 OpenAI 两次。一次去了 Tesla,一次去做了自己的公司。这次没有回 OpenAI——他选了 Anthropic。 Anthropic 过去十年招人的故事一直是一条线——OpenAI 安全派出走。Dario、Tom Brown、Jared Kaplan、Sam McCandlish 全是这一脉,价值观分歧,集体离开,自立门户。这套叙事讲了五年,已经讲到 Anthropic 自己都有点疲惫。 Karpathy 完全不在这条线上。他不是因为安全分歧走的,他是 OpenAI 创始成员里"工程能力派"的图腾——nanoGPT、llm.c、CS231n、Tesla AI Day——他几乎是过去十年"用爱发电的顶级研究员"的代名词。他这次不回 OpenAI、不去 SSI、不去给 Mira Murati 的 Thinking Machines 站台、也不去 xAI,最终选了 Anthropic。 这意味着:"现在做前沿 LLM R&D 的最佳去处"这件事,被一个安全叙事中立、纯粹从研究角度做判断的顶级研究员盖了一个章。 这张盖章的杀伤力,超过 Anthropic 过去任何一次招人。它打的不是 OpenAI 的人才厚度,打的是 OpenAI 作为"研究公司"的招牌——你的创始人都觉得我们这儿更适合做研究,你怎么还自称研究公司? 至于他自己挂念的 Eureka 和教育,他在推文最后留了一句"plan to resume my work on it in time"——会在合适的时间回来做。换句话说:当下不是合适的时间。 他选了技术,而非资本 这次跳槽的真正意义,是他被放在了 pre-training 团队。 不是最近一年所有人都在追的 agent,是 pre-training——那个定数据配方、定 scaling law、定训练稳定性、决定 Claude 模型本体能力上限的位置。 并没有选择最火热的 agent 赛道,Anthropic 是要进一步提升基础模型能力。 过去这一年半,整个 AI 圈的资本叙事都在往后训练那边跑。"Pre-training is hitting a wall"——这句话从 2024 年下半年开始在 NeurIPS 走廊里传,到 2025 年初变成 The Information 的封面文章,再到 Ilya Sutskever 自己在公开访谈里说"我们认识的那种 pre-training 时代正在结束",整个圈子已经形成了某种默契:scaling law 的边际效用在下降,下一波突破要看 RL post-training、要看 inference-time compute、要看 agent 的复合工作流。 Karpathy 在这个时间点选 pre-training,等于把自己作为研究员的 reputation 押在反方向上。他没有写一篇长博客论证 pre-training 还有空间,他用职业选择直接表态——而以他在圈内的信用,这个表态比任何论文都更有说服力。 要理解这件事的含金量,得知道 Karpathy 不是普通的 ML 研究员。 他是少数把"大规模训练工程的脏活"和"LLM 第一性原理的直觉"打通的人 。 nanoGPT 这种把 GPT 训练浓缩到几百行 Python 的项目,需要对训练栈每一层的取舍都有判断;llm.c 把整个 LLM 训练用 C 写出来,更是把 abstraction 全部剥光的工作。他在 Tesla 跑过一支几十人的工程团队,做过工业级的端到端训练管线。这种"既懂细节又懂系统、既能写论文又能压成本"的人,全行业不超过十个。 Anthropic 把他放在 Nick Joseph 下面而不是给一个 VP 头衔,姿态也很务实——说明 Karpathy 自己也愿意从执行做起。 短期里这意味着不会有立竿见影的产出,pre-training 周期长,加入磨合期至少半年,他真正进入下一代 Claude 的训练管线,得看 2027 年。 但中长期,这是一张 Anthropic 押在"pre-training 还有大空间"上的超级筹码。 对 Anthropic 的更深一层影响 人才战只是表面那一层。 这次人事变动对 Anthropic 真正的意义,是把它的研究文化叙事推到了一个 OpenAI 短期内追不回来的位置。 过去一年,OpenAI 的叙事重心被产品彻底带走了。ChatGPT 进入九亿周活、Sora 2 上线、Agent SDK、GPT-5 系列——这些都是商业上漂亮的成绩,但代价是 OpenAI 已经很难再被外界叫做"研究公司"了。它的研究故事被产品故事盖过去,连内部研究员都在抱怨这件事。 Anthropic 选择了另一条路。它没有 to C 现象级产品,没有 Sora 那种破圈的发布会,Claude 在普通用户里的认知度始终落后 ChatGPT 一个数量级。但它一直在守一件事——" 我们是科学公司 "。 Dario 在公开访谈里讲 mechanistic interpretability、讲 Claude 的训练哲学,比讲营收讲得多得多。 这套叙事的最大短板,是缺少一个"非 Anthropic 出身"的顶级研究员来背书。你不能让 Dario 自己一直讲,那像自卖自夸。 Karpathy 补上了这块拼图。 他在中英文世界对"研究文化"的想象里,是最大公约数。nanoGPT 是开源的、CS231n 是免费的、他的 YouTube 课是给所有人看的——他几乎是过去十年里"用爱发电的顶级研究员"的代名词。这种品牌资产没有任何 Anthropic 内部员工能替代,因为这是十年时间沉淀出来的。 接下