通过 Cram\'er 距离进行分布式强化学习

2026-05-12 1 阅读 Vanya Aziz, Ivo Nowak, E. M. T Hendrix

arXiv:2605.08104v1 公告类型：新摘要：本文探讨了 Soft Actor-Critic (SAC) 算法在分布式强化学习设置中的应用，并介绍了一种名为基于 Cram\'er 的分布式 Soft Actor-Critic (C-DSAC) 算法的实现。该新颖方法采用分布式强化学习来表示状态动作值，并最小化用于学习分布的平方克拉姆距离。各种机器人基准测试的实证结果表明，我们的算法超越了基线 SAC 和当代分布式方法的性能，并且性能优势在高复杂性环境中变得越来越明显。为了解释新方法的效率，我们进行了一项分析，表明其优越的性能部分归因于 \textit{confidence-driven} Q 值更新：高方差目标分布（目标置信度低）导致更保守的模型更新，从而减弱高估值的影响。这项工作加深了对分布式强化学习的理解，提供了对控制收敛和价值估计的算法机制的见解。