智能AI
morning
PairSAE:蛋白质共折叠中配对表示的机制解释
2026-06-29
1 阅读
Giosue Migliorini, Aristofanis Rontogiannis, Grigori Guitchounts, Nicholas Franklin, Axel Elaldi, Olivia Viessmann
arXiv:2606.27440v1 公告类型:新 摘要:结构生物学基础模型在预测生物分子结构方面取得了显着的性能,并为蛋白质和小分子的设计展现了前景。然而,了解哪些内部特征驱动其输出仍然具有挑战性。标准稀疏自动编码器(SAE)对变压器式序列嵌入有效,但不能干净地转移到类似pairformer的架构:对成对表示进行天真操作会产生特征的二次爆炸,并模糊跨序列和对表示共同分布的概念。我们引入了 PairSAE,它通过 N 模式 SVD 将成对张量总结为 token-wise 交互角色,然后使用稀疏自动编码器来学习一组共享的 token 级特征,这些特征可解码为序列和对表示。 PairSAE 对 PLINDER 蛋白-配体复合物的 Boltz-2 激活进行评估,产生与 UniProt 注释一致的可解释特征并预测 Boltz-2 亲和力值。这些结果表明,PairSAE 将结构生物学基础模型的潜在空间与可解释的结构概念联系起来,澄清了模型“知道”的内容,同时避免了配对引起的限制传统 SAE 的陷阱。