化学反应网络中强化学习的实施：趋光性的应用作为好奇心驱动的探索

arXiv:2606.26168v1 公告类型：新摘要：生命系统使用嘈杂且不完整的感官信号来导航环境。在单细胞藻类中，趋光性通常被建模为由刺激响应规则驱动的机械运行-翻滚过程。然而，这样的描述忽视了生物体如何主动采样其环境以减少感官模糊性。从最小的认知角度来看，我们将这种导航重新定义为一种主观的、信息驱动的感觉运动过程。为此，我们提出了一个将部分可观察马尔可夫决策过程（POMDP）与生化反应动力学联系起来的框架。环境变量是隐藏的，而细胞通过无记忆贝叶斯步骤更新每次观察的最小内部状态。这些内部动态平衡通过探索性重新定向向光定向，并且可以通过化学反应网络常微分方程（CRN--ODE）来实现。我们的模型包括光接收的生物物理观察过程和信息增益的化学可计算多项式界限。我们对 30 个实验记录的衣藻轨迹使用逆强化学习 (IRL)，推断出与观察到的趋光运动一致的行为目标，并使用标准随机模拟算法 (SSA) 基线对所得动态进行基准测试。我们的模型再现了经验对准光分布，与该数据集上的客观 SSA 基线相当。 Within this framework, run--tumble alternation emerges as an information-acquisition strategy: tumbling reorients the cell to sample new sensory configurations and resolve sensor ambiguity, demonstrating how intracellular biochemical networks can support adaptive information-seeking behavior in cellular navigation.