学习何时采取行动：通过运行时保证进行高效沟通的强化学习

arXiv:2605.12561v1 公告类型：新摘要：安全强化学习 (RL) 通常询问 $\textit{what}$ 代理应该做什么。我们询问 $\textit{when}$ 它需要采取行动，并表明单个策略可以在逐点李亚普诺夫安全盾下共同学习控制输入和通信高效的定时决策。我们专注于围绕已知平衡的稳定性，其中基于 CARE 的 LQR 备份、Lyapunov 证书和经典的 Lyapunov-STC 都得到了明确的定义，从而能够与分析基线进行清晰的比较。运行时保证 (RTA) 层通过一步领先的 Lyapunov 预测和预先计算的 LQR 备份来覆盖策略，提供比仅在期望中强制执行安全性的受限 MDP 方法更严格的保证。在倒立摆、车杆和平面四旋翼飞行器上，学习策略的平均样本间间隔 (MSI) 比 Lyapunov 触发基线高 1.91\times$、1.45\times$ 和 3.51\times$；相同平均速率的固定 LQR 控制器在所有三个设备上都不稳定，这表明自适应定时（而不是较低的平均速率）使稀疏性变得安全。源自 CARE 的李亚普诺夫奖励无需重新设计即可跨环境转移，单个权重 $w_c$ 控制稳定性与通信的权衡；消融证实了 RTA 防护罩的重要性，移除它会使 MSI 减少 $1.27$--$1.84\times$ 并降低国家标准。偏好条件扩展以 $\tfrac{2}{11}$ 的训练计算量从一个模型恢复了完整的权衡边界，并且 SAC 实验表明结果在离散和连续域中与算法无关。 12 状态 3D 四旋翼案例研究将框架扩展到更高维的系统，在这些系统中，经典的 STC 很难处理，并且对 $\pm30\%$ 质量变化和扰动的鲁棒性表现出优雅的退化，而 RTA 吸收了学习策略无法吸收的内容。