智能AI morning

通过 Cram\'er 距离进行分布式强化学习

2026-05-12 1 阅读 Vanya Aziz, Ivo Nowak, E. M. T Hendrix
arXiv:2605.08104v1 公告类型:新 摘要:本文探讨了 Soft Actor-Critic (SAC) 算法在分布式强化学习设置中的应用,并介绍了一种名为基于 Cram\'er 的分布式 Soft Actor-Critic (C-DSAC) 算法的实现。该新颖方法采用分布式强化学习来表示状态动作值,并最小化用于学习分布的平方克拉姆距离。各种机器人基准测试的实证结果表明,我们的算法超越了基线 SAC 和当代分布式方法的性能,并且性能优势在高复杂性环境中变得越来越明显。为了解释新方法的效率,我们进行了一项分析,表明其优越的性能部分归因于 \textit{confidence-driven} Q 值更新:高方差目标分布(目标置信度低)导致更保守的模型更新,从而减弱高估值的影响。这项工作加深了对分布式强化学习的理解,提供了对控制收敛和价值估计的算法机制的见解。