大规模数据集和基准：蛋白质配体模型是否学习结合位点或仅学习结合可能性？

摘要

24045v1 Announce Type: new Abstract: Protein-ligand modeling underpins computational drug discovery and molecular design。

and binding ligand protein InteractBind

2026-05-26 1 阅读约1分钟阅读 Zhaohan Meng, Zhen Bai, Ke Yuan, Iadh Ounis, Zaiqiao Meng, Hao Xu, Joseph Loscalzo

arXiv:2605.24045v1 公告类型：新摘要：蛋白质配体建模支撑计算药物发现和分子设计。现有的蛋白质-配体基准通常通过二元结合预测和亲和力回归等任务来评估蛋白质和配体是否相互作用以及它们结合的强度。然而，这些评估提供的证据有限，表明模型是否可以定位结合位点或识别分子识别背后的非共价相互作用。为了解决这一差距，我们引入了 InteractBind，这是一个包含大约 10 万个蛋白质-配体对的大规模蛋白质-配体数据集，以及用于细粒度评估的基准。核心细粒度任务是结合位点定位，它使用涵盖六种主要非共价相互作用类型的蛋白质残基和配体原子相互作用图来评估模型衍生的相互作用图是否定位结合位点。 InteractBind 还包括结合亲和力和蛋白质相似性控制的分割，以支持实际的泛化评估。使用 InteractBind，我们评估了八种现有的基于序列和交互感知的模型，评估二元结合预测和结合位点定位。结果显示，尽管二元结合预测很强，但结合位点定位有限，并且非共价相互作用类型之间存在显着差异。总体而言，InteractBind 建立了一个基准范例，鼓励开发更具可解释性和物理基础的蛋白质配体模型。

订阅66必读