智能AI
morning
多重中介的诅咒:激活补丁中隐藏的交互效应
2026-06-29
1 阅读
Sankaran Vaidyanathan, David Arbour, Aaron Mueller, Scott Niekum, David Jensen
arXiv:2606.27510v1 公告类型:新 摘要:激活补丁是机械解释性的主要工具。它通过估计模型行为的自然间接效应 (NIE),将模型行为的因果责任归因于其每个单独的组件。从因果中介分析中重新推导激活补丁估计值,我们发现 NIE 不仅仅通过特定组件捕获因果效应。它还包含交互效应 (INT),用于衡量组件的因果效应本身对模型中其他组件的状态的依赖程度。自然的反应可能是尝试通过调整估计器或分析单位来消除 INT,但这些潜在的补救措施中的每一种都具有可预测的故障模式。我们在 GPT-2 IOI 电路中演示了这些故障模式;因果重要性取决于其他组件状态的组件要么是不可见的,要么是人为夸大的,INT 方差解释了先前记录的忠实度分数的不稳定性。我们证明,INT 随着干净组件激活和修补组件激活之间的距离而变化,当模型是局部仿射时可以忽略不计,并且可以组合分解为成对和高阶组交互。尽管它是不可避免的,INT 并不是一个需要消除的麻烦,而是可解释性研究的诊断。当因果结论依赖于提示时,以及当贪婪的基于 NIE 的组件排名将错过只能通过组合搜索发现的机制时,其个体和群体级别的幅度和符号信号。