智能AI
morning
使用人口分层模型进行全国范围内基于 EHR 的慢性鼻窦炎预测
2026-05-08
1 阅读
Sicong Chang, Yidan Shen, Justina Varghese, Akshay R Prabhakar, Sebastian Guadarrama-Sistos-Vazquez, Jiefu Chen, Masayoshi Takashima, Omar G. Ahmed, Renjie Hu, Xin Fu
arXiv:2605.05213v1 公告类型:新 摘要:慢性鼻窦炎 (CRS) 是一种常见的异质性炎症性疾病,可导致大量发病率和医疗费用。 CRS 很难从常规情况中及早识别,因为症状表现与过敏性鼻炎等常见病症重叠,并且异质表型进一步模糊了风险模式。先前的预测研究通常依赖于单一机构队列,这降低了人群水平的普遍性。为了克服这个问题,我们利用来自 \textit{All of Us} 研究计划的全国纵向 EHR 数据,利用两年的诊断前病史来预测 CRS 诊断。为了解决编码 EHR 数据中的极端特征稀疏性和维度问题,我们实施了混合特征选择管道,将基于患病率的统计筛选与基于模型的重要性排名相结合,将大约 110,000 个候选代码压缩为 100 个可解释的特征。为了捕捉人口统计异质性,我们通过针对子组的特定超参数调整,训练了六个成人性别和生命阶段子组的人口统计分层模型。我们的框架的总体 AUC 为 0.8461,比最佳基线提高了 0.0168 的辨别率。这些结果表明,定期收集的 EHR 数据可以支持具有人群代表性的 CRS 风险分层,并为初级保健中的早期分诊和转诊优先顺序提供信息。