传奇研究员 Karparthy 加入 Anthropic，你想知道的一切都在这里

文 | AI唱反调 "I've joined Anthropic." Andrej Karpathy 发出了这条推文，这位顶级研究员的这条推文，像极了迈克尔·乔丹当年喊出的那句I”m back 。他写道："未来几年在 LLM 前沿会格外关键（especially formative），我非常兴奋地加入这里的团队，回到研发（get back to R&D）。" 这是一个顶级研究员对自己未来三五年的明牌下注。而他下注的位置，正好是过去一年整个 AI 圈最不敢押的那一格——pre-training（预训练）。 Karpathy是谁 Karpathy为何传奇，源自于他经历了 AI 发展的每个关键节点和他的梦幻履历。 2015 年，Karpathy 拿到 Stanford 的 PhD，同年加入 OpenAI，是那 11 个 founding members 里最年轻的一个。作为OpenAI创始核心成员，他深度参与初代大模型底层架构搭建，是GPT技术体系的早期开拓者，奠定了生成式AI的发展根基。入局特斯拉后，他掌舵自动驾驶AI团队，一手搭建纯视觉Autopilot体系，让智能驾驶实现规模化落地，成为全球视觉自动驾驶路线的标杆。离开特斯拉后，他二度回归OpenAI深耕大模型训练技术，后续独立创业探索AI教育赛道。其打造的Vibe Coding范式、CLAUDE.md开发规范风靡全球，斩获数十万GitHub星标，成为开发者通用标准，是公认的技术顶流与行业启蒙者。也就是说，他离开过 OpenAI 两次。一次去了 Tesla，一次去做了自己的公司。这次没有回 OpenAI——他选了 Anthropic。 Anthropic 过去十年招人的故事一直是一条线——OpenAI 安全派出走。Dario、Tom Brown、Jared Kaplan、Sam McCandlish 全是这一脉，价值观分歧，集体离开，自立门户。这套叙事讲了五年，已经讲到 Anthropic 自己都有点疲惫。 Karpathy 完全不在这条线上。他不是因为安全分歧走的，他是 OpenAI 创始成员里"工程能力派"的图腾——nanoGPT、llm.c、CS231n、Tesla AI Day——他几乎是过去十年"用爱发电的顶级研究员"的代名词。他这次不回 OpenAI、不去 SSI、不去给 Mira Murati 的 Thinking Machines 站台、也不去 xAI，最终选了 Anthropic。这意味着："现在做前沿 LLM R&D 的最佳去处"这件事，被一个安全叙事中立、纯粹从研究角度做判断的顶级研究员盖了一个章。这张盖章的杀伤力，超过 Anthropic 过去任何一次招人。它打的不是 OpenAI 的人才厚度，打的是 OpenAI 作为"研究公司"的招牌——你的创始人都觉得我们这儿更适合做研究，你怎么还自称研究公司？至于他自己挂念的 Eureka 和教育，他在推文最后留了一句"plan to resume my work on it in time"——会在合适的时间回来做。换句话说：当下不是合适的时间。他选了技术，而非资本这次跳槽的真正意义，是他被放在了 pre-training 团队。不是最近一年所有人都在追的 agent，是 pre-training——那个定数据配方、定 scaling law、定训练稳定性、决定 Claude 模型本体能力上限的位置。并没有选择最火热的 agent 赛道，Anthropic 是要进一步提升基础模型能力。过去这一年半，整个 AI 圈的资本叙事都在往后训练那边跑。"Pre-training is hitting a wall"——这句话从 2024 年下半年开始在 NeurIPS 走廊里传，到 2025 年初变成 The Information 的封面文章，再到 Ilya Sutskever 自己在公开访谈里说"我们认识的那种 pre-training 时代正在结束"，整个圈子已经形成了某种默契：scaling law 的边际效用在下降，下一波突破要看 RL post-training、要看 inference-time compute、要看 agent 的复合工作流。 Karpathy 在这个时间点选 pre-training，等于把自己作为研究员的 reputation 押在反方向上。他没有写一篇长博客论证 pre-training 还有空间，他用职业选择直接表态——而以他在圈内的信用，这个表态比任何论文都更有说服力。要理解这件事的含金量，得知道 Karpathy 不是普通的 ML 研究员。他是少数把"大规模训练工程的脏活"和"LLM 第一性原理的直觉"打通的人。 nanoGPT 这种把 GPT 训练浓缩到几百行 Python 的项目，需要对训练栈每一层的取舍都有判断；llm.c 把整个 LLM 训练用 C 写出来，更是把 abstraction 全部剥光的工作。他在 Tesla 跑过一支几十人的工程团队，做过工业级的端到端训练管线。这种"既懂细节又懂系统、既能写论文又能压成本"的人，全行业不超过十个。 Anthropic 把他放在 Nick Joseph 下面而不是给一个 VP 头衔，姿态也很务实——说明 Karpathy 自己也愿意从执行做起。短期里这意味着不会有立竿见影的产出，pre-training 周期长，加入磨合期至少半年，他真正进入下一代 Claude 的训练管线，得看 2027 年。但中长期，这是一张 Anthropic 押在"pre-training 还有大空间"上的超级筹码。对 Anthropic 的更深一层影响人才战只是表面那一层。这次人事变动对 Anthropic 真正的意义，是把它的研究文化叙事推到了一个 OpenAI 短期内追不回来的位置。过去一年，OpenAI 的叙事重心被产品彻底带走了。ChatGPT 进入九亿周活、Sora 2 上线、Agent SDK、GPT-5 系列——这些都是商业上漂亮的成绩，但代价是 OpenAI 已经很难再被外界叫做"研究公司"了。它的研究故事被产品故事盖过去，连内部研究员都在抱怨这件事。 Anthropic 选择了另一条路。它没有 to C 现象级产品，没有 Sora 那种破圈的发布会，Claude 在普通用户里的认知度始终落后 ChatGPT 一个数量级。但它一直在守一件事——" 我们是科学公司 "。 Dario 在公开访谈里讲 mechanistic interpretability、讲 Claude 的训练哲学，比讲营收讲得多得多。这套叙事的最大短板，是缺少一个"非 Anthropic 出身"的顶级研究员来背书。你不能让 Dario 自己一直讲，那像自卖自夸。 Karpathy 补上了这块拼图。他在中英文世界对"研究文化"的想象里，是最大公约数。nanoGPT 是开源的、CS231n 是免费的、他的 YouTube 课是给所有人看的——他几乎是过去十年里"用爱发电的顶级研究员"的代名词。这种品牌资产没有任何 Anthropic 内部员工能替代，因为这是十年时间沉淀出来的。接下