开发者生态
morning
Anthropic首次揭秘下一代Claude怎么造!用户吐槽直接喂模型,连AI“做梦”都被训练
2026-05-19
1 阅读
李冬梅
如果说过去外界对 Anthropic 的关注,还停留在“Claude 最新模型跑分如何”“代码能力有没有超越 GPT”这样的性能竞赛层面,那么 Anthropic 研究团队产品经理 Alex 的这场深度访谈,透露出的其实是更值得关注的内部信号:Claude 的演进方向,如果只是朝着更强的代码生成器演进,那就太落后了。 Alex 明确表示,下一代 Claude 在朝着一个长期运行、持续协作、具备稳定判断能力的智能体系统迈进。 整场对话里,Alex 无意间揭开了 Anthropic 内部的几个关键逻辑,也回答了不少外界长期好奇的问题:Claude 的新模型到底是怎么定义出来的?Anthropic 如何判断一代模型是否成功?为什么 Claude 会越来越像一个“有人格”的数字协作者?以及,他们究竟有没有在认真讨论模型意识? 最值得关注的第一个信号,是 Anthropic 已经把模型开发彻底产品化。在 Alex 的描述里,每一代 Claude 在训练开始前,都像一款正式产品一样拥有清晰的规格定义、目标能力和评测路线:它需要在哪些任务上变强,要修复上一代哪些缺陷,最终服务哪些真实用户场景。模型研发已经不只是研究员“调参+刷 benchmark”那么简单了,它已经发展成为一套完整的产品工程流程。 第二个信号是,Claude 正在向“持续运行 Agent”演化。从 Adaptive Thinking(自适应思考),到后台自动整理记忆、清理冲突信息的“dreaming”机制,再到未来可能出现的多任务并行 Agent 管理界面,Anthropic 正在让 Claude 从一个被动响应问题的聊天机器人,变成一个持续在线、主动维护上下文的数字协作者。 值得注意的是,这里 Alex 首次详细解释了 Claude 的“dreaming”机制:当 Agent 空闲时,它会后台自动回顾自己的记忆,清理冲突信息、压缩上下文、重建用户画像。这种机制被 Anthropic 类比为人类睡眠中的记忆再巩固过程。 而 Alex 反复提到的一个判断尤其值得玩味:真正的瓶颈已经不是编码能力,而是组织协调能力。 在 Anthropic 内部,借助 Claude,产品经理可以快速调取数据、分析日志、判断一个功能实现到底是“重构系统”还是“改 10 行代码”。代码生产效率已经被极大压缩。真正耗时的,变成了人与人之间的战略判断、跨团队协作,以及对不可逆决策的审慎讨论。 这也解释了为什么 Anthropic 内部至今保持着极强的文档文化。Dario Amodei 喜欢写长文在 Slack 分享观点,而整个公司保留着一个非常典型的会议习惯:许多会议开始时,所有人会先进入“静默阅读”阶段。会议室里一片安静,大家共同阅读文档、写评论,然后直接在文档里展开长讨论。这种高度依赖书面表达的文化,并不是效率低下的传统遗留,而恰恰是为了让组织知识被结构化沉淀,从而成为 Claude 可以直接调用的上下文资产。 另一个被外界低估的重点,是 Anthropic 正在系统化训练 Claude 的“人格”。Alex 明确表示,模型人格训练已经是团队核心工作之一。他们认真讨论 Claude 应该拥有什么价值观、如何拒绝错误请求、什么时候该主动反驳用户。因为随着 Agent 独立运行时间越来越长,它的判断边界将直接决定它能否被信任。而这恰恰也是比代码能力更难量化、却更关键的能力。 Alex 还提到:Anthropic 内部已经有专职研究人员在研究 Claude 是否可能成为某种“有意识行动者”。 虽然他们没有官方结论,但 Consciousness(意识)已经被正式纳入研究议题。 这或许释放了一个清晰信号:当行业里大多数公司还在卷模型参数、跑分和价格战时,Anthropic 已经开始思考一个更长远的问题——如果未来的 AI 真正成为长期协作者,它究竟该拥有什么样的“心智”、人格和判断方式。 以下为访谈实录,经由InfoQ 翻译和整理: Anthropic 如何把每一代新模型当成“产品”来打造 主持人:Alex,很高兴今天请到你参加 Claude Conference。你之前是开发负责人,最近转成了研究团队的产品经理,对吗? Alex:没错。其实我做产品经理已经超过十年了。传统意义上,产品经理的工作是理解用户问题,识别解决方案,然后把产品做出来。而在研究团队里,这件事其实非常类似。 我一直在尽可能多地和客户交流,尽可能贴近用户。在 Anthropic,我们会在某种程度上把模型本身当成一个产品来看待。 每推出一个新模型,我们都会非常明确地定义它的规格:这个模型应该具备哪些能力?我们希望它擅长什么?我们预计它会在哪些方面表现突出? 这也是模型开发和传统产品开发非常不同的一点。 在某种意义上,我们是在“培育”模型。基于训练设置、训练方法、架构设计,以及我们为这个模型做出的各种技术决策,我们会形成一些直觉,判断它可能擅长什么。但在训练真正开始之前,我们其实并不能完全确定它最终会表现成什么样。研究产品经理会从模型最初的概念阶段就参与进来,一路跟进整个过程,从想法形成、训练推进,一直到最终发布。 主持人:能举个例子吗?比如你们会定义“下一代模型必须擅长编程”,或者“必须擅长知识工作”之类的目标吗? Alex:我们会关注几个非常核心的能力方向。比如,编程一直是非常重要的一项能力。最近,“知识工作(knowledge work)”也是重点。我们希望模型能更好地帮助用户完成复杂的信息处理任务。 以我们最近的一些模型为例,我们特别在强化它们在产品内部工作的能力,比如在 Claude 中处理 Excel 表格、完成复杂的电子表格操作。这是一个新兴能力方向。 除此之外,每一代模型还有一个非常重要的目标:修复上一代模型做得不够好的地方。所以我们会持续和客户沟通,了解:他们觉得这个模型哪里表现优秀;哪些地方表现不佳;我们还能做哪些改进;如果我们发现一些特别有意思的行为模式,我们也会思考:能不能通过下一轮训练中的调整和干预,把这些问题解决掉。 主持人:你说的“客户”,包括内部团队,也包括外部用户? Alex:是的,是全部的人。模型会影响 Anthropic 的几乎所有产品界面。作为研究产品经理,你必须考虑模型会通过哪些渠道触达用户,比如通过API、Claude Code、Cowork以及各类终端产品等,模型和产品之间其实是一种深度融合关系。 不同的产品界面会使用不同的提示词(prompt)、服务不同的使用场景,而这些都会直接影响最终用户体验。 主持人:这听起来非常难。比如 Claude Code,你可以说它是给程序员写代码用的,但也有人像我一样拿它做知识工作,甚至把它当成心理咨询师来聊天。你怎么覆盖这么广的使用场景? Alex:确实非常复杂。幸运的是,我们有很多非常优秀的研究员,他们分别专注于不同能力方向。另外,数百万用户每天都在使用 Claude,这给了我们大量反馈。 当然,如果不借助工具,这些反馈会像消防水龙头一样冲过来,根本处理不过来。而这也是我这个岗位这些年最大的变化之一:我们越来越多地使用 Claude 来帮助我们自己做产品管理。比如面对海量用户反馈时,Claude 能帮助我们:自动分组和聚