智能AI morning

具有不完美二进制反馈的不安强强盗:PCL 可转位性分析和计算

2026-06-11 1 阅读 Jos\'e Ni\~no-Mora
arXiv:2606.11192v1 公告类型:新 摘要:我们研究具有二元潜在状态和不完美二元反馈的不安强强盗,其动机是具有感知错误的机会性频谱访问。对于相关的信念状态模型,我们开发了一个基于部分守恒定律(PCL)的分析和计算框架,用于建立可索引性并评估 Whittle 指数,建立在真实状态折扣不安强盗的验证定理的基础上。该框架通过相关的确定性骨架、更新分解和单词组合来分析随机动力学。它在多个阈值机制中生成折扣奖励和资源指标的易于处理的表达式,从而能够全面验证那里的 PCL 可索引性条件。对于本文未实现完整分析验证的其余制度,我们推导出有效的数值方案来计算相关边际指标和边际生产率(MP)指数,当这些条件成立时,边际生产率(MP)指数等于惠特尔指数。大量的计算实验提供了强有力的证据,表明这些条件在广泛的参数范围内也保持在该状态,并且没有先前工作中施加的严格参数限制。实验进一步表明,MP 指数政策通常优于标准基准政策,而且常常大幅领先。