智能AI morning

编辑 1 个神经元可以修复法学硕士中的重复循环吗?

2026-06-15 1 阅读 Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu, Jack FitzGerald
arXiv:2606.13705v1 公告类型:新 摘要:是。它能治愈厄运循环吗?可能不会。 Gemma 4 指令调整模型有一个可重现的失败:在较长的事实枚举提示下,例如列出电视剧的每一集、88 个 IAU 星座或 151 个原始 Pokemon,它们会陷入重复,要么是严格的逐字循环,要么是条目衰减为单一答案的列表。这些循环的发生率高达 95%,并且能够在及时的改写、推理引擎更改和大多数采样调整中幸存下来。在本文中,我们探讨了这种行为是否足够本地化,可以通过权重编辑来删除。为了定位原因,我们使用每层消融和每神经元归因,然后通过全代扫描确认最强的候选者。这些循环追踪到一小组 MLP 神经元(或者,在 26B-A4B 专家混合模型中,一些路由专家),我们通过静态权重编辑来抑制它们。这些“手术”可以小到单个符号反转神经元(在 E2B 模型中)。有效编辑的大小随着模型规模的增加而增长,但在所有情况下,循环模式都可以在正常的生成预算下得到解决,同时保留通用基准分数。然而,编辑并不能解决所有问题:我们还研究了更长的思考预算,其中两个较大的模型最明显地进入了厄运循环,即一种非收敛状态,其中模型在无法回忆的事实上进行自我修正,耗尽预算而不承诺最终答案。我们表明,通过相同的编辑,这种残余故障会减少,但不会消除,并认为这从根本上来说是一个知识精度问题,而不是一个可拆卸电路;体重手术可以删除一个循环,但它不能提供一个缺失的事实。我们的结果既是可行性论证,即具体的生成病理学可以定位到几个参数并进行编辑的证据,也是对该方法停止位置的描述。