智能AI
morning
跨 GPU 架构的 3D 生成扩散模型的性能分析和优化
2026-06-19
1 阅读
Jeeho Ryoo, Yongchan Jung, Muhammad Ali Khaliq, Weidong Zhang, Jiatong Han, Byeong Kil Lee
arXiv:2606.19365v1 公告类型:新 摘要:扩散模型已成为高保真 3D MRI 合成的关键,但其部署仍然受到每个样本数百次 U-Net 评估和高度异构内核行为所产生的大量 GPU 资源需求的限制。本文对三代 NVIDIA 架构中最先进的医疗扩散模型 Med-DDPM 进行了全面的性能分析,以研究内核级运行时故障、指令混合特征、内存系统利用率、扭曲级活动和分析器优先级分数估计。我们表明,训练绝大多数由 cuDNN 卷积和隐式 GEMM 内核主导,内存访问模式、张量布局转换和有限的张量核心利用率导致效率低下。在这些见解的指导下,我们评估了两种架构感知优化 TF32 Tensor Core 激活和 3D 通道后布局,并证明它们可将 SM 周期减少多达 100 倍,将动态指令减少 100 倍,将 Tensor Core 利用率从 1.45 提高到 9.98 倍,并将 A100 上的 IPC 提高 7%,所有这些都不会降低合成质量。