编辑 1 个神经元可以修复法学硕士中的重复循环吗？

arXiv:2606.13705v1 公告类型：新摘要：是。它能治愈厄运循环吗？可能不会。 Gemma 4 指令调整模型有一个可重现的失败：在较长的事实枚举提示下，例如列出电视剧的每一集、88 个 IAU 星座或 151 个原始 Pokemon，它们会陷入重复，要么是严格的逐字循环，要么是条目衰减为单一答案的列表。这些循环的发生率高达 95%，并且能够在及时的改写、推理引擎更改和大多数采样调整中幸存下来。在本文中，我们探讨了这种行为是否足够本地化，可以通过权重编辑来删除。为了定位原因，我们使用每层消融和每神经元归因，然后通过全代扫描确认最强的候选者。这些循环追踪到一小组 MLP 神经元（或者，在 26B-A4B 专家混合模型中，一些路由专家），我们通过静态权重编辑来抑制它们。这些“手术”可以小到单个符号反转神经元（在 E2B 模型中）。有效编辑的大小随着模型规模的增加而增长，但在所有情况下，循环模式都可以在正常的生成预算下得到解决，同时保留通用基准分数。然而，编辑并不能解决所有问题：我们还研究了更长的思考预算，其中两个较大的模型最明显地进入了厄运循环，即一种非收敛状态，其中模型在无法回忆的事实上进行自我修正，耗尽预算而不承诺最终答案。我们表明，通过相同的编辑，这种残余故障会减少，但不会消除，并认为这从根本上来说是一个知识精度问题，而不是一个可拆卸电路；体重手术可以删除一个循环，但它不能提供一个缺失的事实。我们的结果既是可行性论证，即具体的生成病理学可以定位到几个参数并进行编辑的证据，也是对该方法停止位置的描述。

订阅66必读