核聚变等离子体控制的离线强化学习：代码库和基准

摘要

arXiv:2606.07550v1 Announce Type: new Abstract: Offline reinforcement learning (RL) offers a promising route for developing plasma controllers from historical tokamak data, since online trial-and-erro

and the for offline plasma

2026-06-09 1 阅读约1分钟阅读 Yang Fu, Haomin Bao, Rohit Sonker, Xiaoyan Hu, Aravind Venugopal, Jeff Schneider, Jiayu Chen

arXiv:2606.07550v1 公告类型：新摘要：离线强化学习（RL）为利用历史托卡马克数据开发等离子体控制器提供了一条有前途的途径，因为在真实设备上进行在线试错成本高昂且风险很大。然而，由于缺乏针对核聚变中实际多驱动器、长视界等离子体控制问题的标准化离线强化学习基准，这一方向的进展仍然难以衡量。我们推出了 RL4F，一种核聚变等离子体控制的离线强化学习基准，提供闭环评估环境和四个全轮廓跟踪任务的基线比较：旋转、密度、温度和压力。评估环境的动力学函数是根据现实托卡马克装置 DIII-D 的历史放电数据构建的。我们在统一协议下评估一系列广泛的模仿学习和离线强化学习基线。我们发现基于离线模型的强化学习方法在大多数目标上获得了最佳的平均性能，尽管没有一种方法能够主导所有任务，这凸显了动态建模在复杂、长时程等离子体控制任务中的重要性。为了促进进一步的研究，我们开源了代码库、数据集和评估框架，不仅为融合社区提供了基准，也为离线强化学习的算法开发提供了基准。

订阅66必读