多重中介的诅咒：激活补丁中隐藏的交互效应

arXiv:2606.27510v1 公告类型：新摘要：激活补丁是机械解释性的主要工具。它通过估计模型行为的自然间接效应 (NIE)，将模型行为的因果责任归因于其每个单独的组件。从因果中介分析中重新推导激活补丁估计值，我们发现 NIE 不仅仅通过特定组件捕获因果效应。它还包含交互效应 (INT)，用于衡量组件的因果效应本身对模型中其他组件的状态的依赖程度。自然的反应可能是尝试通过调整估计器或分析单位来消除 INT，但这些潜在的补救措施中的每一种都具有可预测的故障模式。我们在 GPT-2 IOI 电路中演示了这些故障模式；因果重要性取决于其他组件状态的组件要么是不可见的，要么是人为夸大的，INT 方差解释了先前记录的忠实度分数的不稳定性。我们证明，INT 随着干净组件激活和修补组件激活之间的距离而变化，当模型是局部仿射时可以忽略不计，并且可以组合分解为成对和高阶组交互。尽管它是不可避免的，INT 并不是一个需要消除的麻烦，而是可解释性研究的诊断。当因果结论依赖于提示时，以及当贪婪的基于 NIE 的组件排名将错过只能通过组合搜索发现的机制时，其个体和群体级别的幅度和符号信号。