Apple M3 Ultra 上实时扩散模型推理的系统优化

arXiv:2605.16259v1 发布类型：新摘要：虽然使用扩散模型的实时图像生成在 NVIDIA GPU 上取得了快速进展，但对 Apple Silicon 等非 CUDA 平台的系统优化研究仍然极其有限。在本研究中，我们针对Apple M3 Ultra（60核GPU，512 GB统一内存）进行了10个阶段的全面优化实验，目标是实现实时相机img2img转换。我们探索了多种技术，包括 CoreML 转换、量化、令牌合并、神经引擎利用、紧凑模型探索、帧插值、基于 kNN 搜索的合成、pix2pix-turbo、光流跳帧和知识蒸馏，定量评估每种方法的有效性。最终，通过将蒸馏专用模型 SDXS-512 的 CoreML 转换与 3 线程相机管道相结合，我们实现了 22.7 FPS、512x512 分辨率的实时相机 img2img 转换。这项工作的主要贡献是系统地证明了为 CUDA 建立的优化见解不一定对 Apple Silicon 的统一内存架构有效。我们揭示了与 NVIDIA GPU 根本不同的优化前景——包括缺乏量化加速、并行推理无效以及神经引擎不适合大规模模型——并为 Apple Silicon 上的扩散模型推理提供了实用指南。