研究强化学习中循环神经网络的动作编码

2026-05-19 1 阅读 Matthew Schlegel, Volodymyr Tkachuk, Adam White, Martha White

arXiv:2605.16318v1 公告类型：新摘要：构建和维护状态以学习策略和价值函数对于在现实世界中部署强化学习（RL）代理至关重要。循环神经网络（RNN）已成为状态构建问题的一个关键点，并且一些大规模强化学习代理合并了循环网络。虽然 RNN 已成为许多 RL 应用的中流砥柱，但许多负责性能改进的关键设计选择和实现细节往往没有被报告。在这项工作中，我们讨论了可以（并且已经）修改 RNN 架构以用于 RL 的一个轴。具体来说，我们研究如何将动作信息合并到循环单元的状态更新函数中。我们讨论了使用操作信息的几种选择，并在一组说明性域上根据经验评估了所得的架构。最后，我们讨论了开发循环细胞的未来工作，并讨论了 RL 设置所面临的具体挑战。