智能AI morning

模型选择在因果推理中的关键作用:药物警戒 InferBERT 框架内分类模型的比较分析

2026-06-17 1 阅读 Csaba Kiss, Roland Molontay, Gabriele Pergola
arXiv:2606.17113v1 公告类型:新 摘要:区分因果药物不良事件 (ADE) 与虚假相关性仍然是药物警戒领域的核心挑战。 InferBERT 框架将 Transformer 模型与 Do 演算集成在一起,但其成功取决于底层分类模型。本研究评估了 InferBERT 中模型选择的影响,评估更简单的模型是否足够、特定领域的预训练是否有帮助、扩展到 LLM 是否可以改善因果检测以及事后校准的效果。我们对两个基准进行了比较研究:镇痛药引起的急性肝衰竭(AILF)和曲马多相关死亡率(TRAM)。使用 5 倍交叉验证重复超过 20 次运行,对四种模型进行了评估:XGBoost(基线)、ALBERT(原始 InferBERT)、BioBERT(生物医学 Transformer)和 Med-LLaMA(医学 LLM)。我们测量了准确性、等渗回归前和后的预期校准误差 (ECE),以及因果项与 PRR、ROR 和 EBGM 的 Jaccard 一致性;显着性通过配对 t 检验进行检验。 BioBERT 在两个数据集上都实现了最高的准确度,而 Med-LLaMA 尽管其大小和参数高效的微调,但表现不佳。特定领域的预训练是决定性的。校准改进了 ECE,但对准确性和因果发现有不同的影响。 BioBERT 的优越性还与传统药物警戒信号产生了最强的一致性。这些结果表明,特定领域的预训练比更简单的基线和更大的法学硕士具有明显的优势。投资可管理的、领域感知的模型对于计算药物警戒比简单地缩放模型大小更有效。