具有不完美二进制反馈的不安强强盗：PCL 可转位性分析和计算

摘要

11192v1 Announce Type: new Abstract: We study restless bandits with binary latent states and imperfect binary feedback, motivated by opportunistic spectrum access with sensing errors。

the and for index verification

2026-06-11 1 阅读约1分钟阅读 Jos\'e Ni\~no-Mora

arXiv:2606.11192v1 公告类型：新摘要：我们研究具有二元潜在状态和不完美二元反馈的不安强强盗，其动机是具有感知错误的机会性频谱访问。对于相关的信念状态模型，我们开发了一个基于部分守恒定律（PCL）的分析和计算框架，用于建立可索引性并评估 Whittle 指数，建立在真实状态折扣不安强盗的验证定理的基础上。该框架通过相关的确定性骨架、更新分解和单词组合来分析随机动力学。它在多个阈值机制中生成折扣奖励和资源指标的易于处理的表达式，从而能够全面验证那里的 PCL 可索引性条件。对于本文未实现完整分析验证的其余制度，我们推导出有效的数值方案来计算相关边际指标和边际生产率（MP）指数，当这些条件成立时，边际生产率（MP）指数等于惠特尔指数。大量的计算实验提供了强有力的证据，表明这些条件在广泛的参数范围内也保持在该状态，并且没有先前工作中施加的严格参数限制。实验进一步表明，MP 指数政策通常优于标准基准政策，而且常常大幅领先。

订阅66必读