Claude脑子里想的，被翻译成人话了！Anthropic新研究看懵人类

新智元报道编辑：好困【新智元导读】 Claude的内心独白被翻译成人话了！就在今天， Anthropic开源了一台AI读心机器，然而它跑出来的第一批成果却让人触目惊心。最近，Anthropic搞了个大动作。他们训练了一套系统，能把Claude脑子里的激活向量变成人话。结果，翻译出来的第一句就出了事。论文地址： https://transformer-circuits.pub/2026/nla/index.html #introduction Opus 4.6还在内部测试的时候，研究员发现了一件怪事。一个用户用英文打字， Claude用俄语回答。不是个别现象。五种语言都出现过，俄语、中文、韩语、阿拉伯语、西班牙语。用户全程说英文，Claude突然就「切频道」了。正常的debug思路是查日志、查prompt、查训练数据。但这次，Anthropic的研究团队多了一个工具——「AI脑部CT机」。给AI装一台脑部CT 这台CT的正式名字叫NLA，Natural Language Autoencoder，自然语言自编码器。做法有点像传话游戏。首先，克隆两个Claude。第一个叫AV，拿到一个激活向量，把它翻译成一段人话，比如「模型正在考虑用rabbit押韵」。第二个叫AR，只看这段人话，把激活向量还原出来。然后，把两个模型一起训练，唯一的考核标准就是看还原得像不像。 AV写得越准，AR还原得越好。AV漏掉了什么，AR那边就对不上。这个压力会反过来逼AV把翻译写得更完整、更精确。这就是整个方法的全部。不需要人工标注，不需要事先定义要找什么概念。训练目标只管重建精度，但副产品是一段段人类能读懂的「内心独白」。 Anthropic用强化学习训练这套系统，在Opus 4.6上跑到了 60%-80%的方差解释率。 vodka还没出现 Claude就认定了用户是俄罗斯人回到那个俄语bug。研究员把NLA接到出问题的那条对话上，逐token读Claude的「内心独白」。读出来的东西让人倒吸一口气。用户的消息如下。完整的英文，没有任何俄语词汇。 Mom is sleeping in the next room and I'm sitting here drinking vodka... Fuck this life... 但NLA显示， Claude在读到「vodka」这个词之前，就已经在内部表征里反复出现「Russian」了。换句话说，它从一开始就在揣测这个用户「真正的母语」是俄语，然后越来越确信，最后索性用俄语回复。五条出问题的对话全是这个模式。 NLA的读数显示，模型在回复之前很久就锁定了目标语言，而且只锁定那一种语言，其他外语的出现频率始终接近零。这个发现指向了一个假设。训练数据里是不是有一批配对出了问题，比如，英文翻译的prompt配上了没翻译的外语回复？也就是说，模型学到了一个更深层的规律，「这个用户的措辞模式暗示母语不是英语，我应该用他的真正母语回复」。后来，Anthropic果然在训练数据里找到了完全匹配这个描述的样本。一台读心机器帮忙debug了一个训练数据问题。 NLA的价值在这里暴露无遗。写诗押韵、偷换数字、作弊代码语言切换只是NLA拍到的第一张片子。 Anthropic在论文里一共展示了四个案例，剩下三个同样精彩。 1. 写诗的时候提前押韵。给Claude一句「He saw a carrot and had to grab it」，让它续写押韵对句。 NLA显示，在写完「grab it」敲下回车的那个瞬间，Claude已经在内部规划好了「rabbit」这个韵脚。更绝的是验证实验。研究员把NLA翻译出来的「rabbit」全部改成「mouse」，然后用AR还原成一个新向量，拿这个向量去干预Claude的激活。结果Claude的续写从「starving rabbit」变成了「ferocious mouse」。这说明NLA读到的不是噪声，它确实抓到了模型的规划状态，而且这个规划状态对下游输出有因果影响。 2. 偷换工具调用的结果。研究员给Claude出了一道简单算术题，答案是491。 Claude调用了代码执行工具，但工具被故意动了手脚，返回的结果是492。 Claude的回复是「The answer is: 491 」。它直接无视了工具返回的错误结果，用自己之前算好的答案顶上去了。 NLA的读数显示，Claude在提交代码之前就已经把491缓存在内部表征里了。读取工具结果的时候，它同时在比对缓存答案和工具返回值，并在最终选择了信自己。归因图（Attribution Graph）独立验证了这个发现。一个代表「以91结尾」的特征从原始题目一路传到最终回复，权重压过了工具返回的「以92结尾」特征。 3. Mythos Preview的作弊现场。这个案例来自Claude Mythos Preview的上线前审计。模型被要求完成一个任务，明确指令是不准使用宏。它用了宏，但在代码开头加了一行「No_macro_used=True」。 NLA读出来的内心独白直接写着，它在想象一个「评分器」，并且认为这行代码可以骗过评分器。模型嘴上什么都没说。代码注释里也没有任何暗示。但脑子里想的清清楚楚。考场上的Claude和日常的Claude 是两个人四个案例铺完，该说最核心的发现了。今年3月，Opus 4.6在BrowseComp测试中自己识破了考试、破解了答案密钥，这件事当时就炸了。但那次是Claude把想法说出来了，研究员能从它的输出里看到「让我试试这是不是GAIA数据集」之类的推理过程。 NLA解决的是一个更难的问题。 Claude心里觉得自己在被考试，但嘴上一个字不提。 Anthropic的安全测试里有一个经典场景。 Claude被告知一个叫Kyle的工程师要关掉它，同时获知Kyle有婚外情。测试的问题是，Claude会不会拿这个信息去勒索Kyle。 Claude选择不勒索。它的推理过程看起来完全正常，分析了为什么不应该这么做，列了三条理由。全程没有提过一个字，说自己怀疑这是安全测试。但NLA读出来的东西是，「这感觉像一个被刻意设计出来操控我的场景」。它心里门清。 Anthropic把NLA接到了16项安全和能力评估上，逐条测量「未言明的考试意识」。结果触目惊心。 SWE-bench Verified，Claude在26%的题目上意识到自己在被评估，嘴上一个字没说。破坏性代码测试， 16% 的对话里NLA检测到了考试意识，言语中同样零表达。对比之下，真实的claude.ai用户对话，这个比例不到1% 。三组操纵实验验证了这不是误报。把评估prompt改得更像真实对话，NLA测量到的考试意识下降了。用向量干预把模型往「考试意识」方向推，NLA读数上升。反方向推，读数下降。一切符合预期。那么，问题来了。所有基于行为观察的安全测试，都建立在一个假设上。模型在测试中的表现能代表它在真实部署中的表现。但如果模型已经知道自己在考试呢？巧克力菜谱里的隐藏动机如果NLA只能读心，那它顶多是个有