用于协调分布式能源资源的监督强化学习

2026-06-25 1 阅读 Haoyuan Deng, Yihong Zhou, Thomas Morstyn, Yi Wang

arXiv:2606.24947v1 公告类型：新摘要：分布式能源 (DER) 的日益一体化对于电力系统脱碳至关重要，但释放 DER 的灵活性却受到其固有的不确定性和建模复杂性的挑战。由于传统的优化方法难以应对分布式能源的不确定性和复杂性，强化学习 (RL) 已成为分布式能源管理的一种有前景的替代方案。然而，标准强化学习方法在从头开始训练时会遇到样本效率低下和次优的问题。受大型语言模型训练范式的启发，本文提出了一种用于学习 DER 协调策略的监督强化学习（SRL）框架。该框架首先以监督学习的方式预训练演示数据的策略，然后使用强化学习进一步对其进行微调。此外，我们提出了一个两步微调过程：用于增强政策性能的离线微调和用于使其适应现实世界动态的在线微调。实验表明，基于所提出的框架的强化学习实现显着优于所有基准，即使在低质量的演示数据下也能实现高成本效率。