PairSAE：蛋白质共折叠中配对表示的机制解释

2026-06-29 1 阅读 Giosue Migliorini, Aristofanis Rontogiannis, Grigori Guitchounts, Nicholas Franklin, Axel Elaldi, Olivia Viessmann

arXiv:2606.27440v1 公告类型：新摘要：结构生物学基础模型在预测生物分子结构方面取得了显着的性能，并为蛋白质和小分子的设计展现了前景。然而，了解哪些内部特征驱动其输出仍然具有挑战性。标准稀疏自动编码器（SAE）对变压器式序列嵌入有效，但不能干净地转移到类似pairformer的架构：对成对表示进行天真操作会产生特征的二次爆炸，并模糊跨序列和对表示共同分布的概念。我们引入了 PairSAE，它通过 N 模式 SVD 将成对张量总结为 token-wise 交互角色，然后使用稀疏自动编码器来学习一组共享的 token 级特征，这些特征可解码为序列和对表示。 PairSAE 对 PLINDER 蛋白-配体复合物的 Boltz-2 激活进行评估，产生与 UniProt 注释一致的可解释特征并预测 Boltz-2 亲和力值。这些结果表明，PairSAE 将结构生物学基础模型的潜在空间与可解释的结构概念联系起来，澄清了模型“知道”的内容，同时避免了配对引起的限制传统 SAE 的陷阱。