智能AI
morning
语言模型代理可以在机制解释方面成为有用的电路解释器吗?
2026-06-24
1 阅读
Ayan Antik Khan, Harsh Kohli, Yuekun Yao, Huan Sun, Ziyu Yao
arXiv:2606.24026v1 公告类型:新 摘要:机械可解释性在自动本地化电路方面取得了实质性进展,但解释本地化组件的作用仍然是劳动密集型且难以标准化。在这项工作中,我们研究一旦确定了电路,语言模型(LM)代理是否可以帮助解决这个解释问题。我们引入了 AgenticInterpBench,这是一个由 84 个半合成变压器电路和 163 个组件级注释构建的电路解释基准。我们提出了 HyVE(假设、验证、解释),这是一种代理解释器,它通过观察、假设生成和因果验证的迭代循环来分析每个组件,最终产生组件级解释和电路级任务描述。 Across four LM backbones, HyVE recovers useful component- and task-level explanations, but no backbone is uniformly best.我们的分析表明,强大的骨干通常会形成基于观察的假设,而失败通常会在验证循环的后期出现,因为验证计划不完整、代码执行错误或未解决的假设。 Llama-3-8B 中算术电路的案例研究表明,相同的公式可以超越半合成基准扩展到自然训练的模型。总体而言,LM 代理是有前途的电路解释器,但可靠的验证仍然是主要障碍。