语言模型代理可以在机制解释方面成为有用的电路解释器吗？

arXiv:2606.24026v1 公告类型：新摘要：机械可解释性在自动本地化电路方面取得了实质性进展，但解释本地化组件的作用仍然是劳动密集型且难以标准化。在这项工作中，我们研究一旦确定了电路，语言模型（LM）代理是否可以帮助解决这个解释问题。我们引入了 AgenticInterpBench，这是一个由 84 个半合成变压器电路和 163 个组件级注释构建的电路解释基准。我们提出了 HyVE（假设、验证、解释），这是一种代理解释器，它通过观察、假设生成和因果验证的迭代循环来分析每个组件，最终产生组件级解释和电路级任务描述。 Across four LM backbones, HyVE recovers useful component- and task-level explanations, but no backbone is uniformly best.我们的分析表明，强大的骨干通常会形成基于观察的假设，而失败通常会在验证循环的后期出现，因为验证计划不完整、代码执行错误或未解决的假设。 Llama-3-8B 中算术电路的案例研究表明，相同的公式可以超越半合成基准扩展到自然训练的模型。总体而言，LM 代理是有前途的电路解释器，但可靠的验证仍然是主要障碍。