MemQ：将 Q-Learning 集成到起源 DAG 上的自我进化内存代理中

2026-05-12 1 阅读 Junwei Liao, Haoting Shi, Ruiwen Zhou, Jiaqian Wang, Shengtao Zhang, Wei Zhang, Weinan Zhang, Ying Wen, Zhiyu Li, Feiyu Xiong, Bo Tang, Muning Wen

arXiv:2605.08374v1 公告类型：新摘要：情景记忆允许 LLM 智能体积累和检索经验，但当前的方法独立处理每个记忆，即单独评估检索质量，而不考虑依赖链，通过记忆可以创建未来的记忆。我们引入了 MemQ，它将 TD($\lambda$) 资格跟踪应用于内存 Q 值，通过记录每个新内存创建时检索的内存的起源 DAG 向后传播信用。信用权重随着 DAG 深度 $d$ 的 $(\gamma\lambda)^d$ 衰减，用结构邻近性代替时间距离。我们将设置形式化为外源上下文 MDP，其因子转换将外源任务流与内源内存存储解耦。在涵盖操作系统交互、函数调用、代码生成、多模态推理、具体推理和专家级 QA 的六个基准测试中，MemQ 在泛化评估和运行时学习方面在所有六个基准上实现了最高的成功率，在产生深层和相关来源链的多步任务上收益最大（高达 +5.7~pp），在单步更新已经足够的情况下，在单步分类上收益最小（+0.77~pp）。我们进一步研究$\gamma$和$\lambda$如何与EC-MDP结构相互作用，为参数选择和未来研究提供原则指导。代码即将发布。