为什么将剩余流限制为层而不是令牌？用于连续潜在推理的持久记忆

摘要

07720v1 Announce Type: new Abstract: Large language models (LLMs) have demonstrated remarkable reasoning abilities on mathematical and multi-hop planning tasks。

reasoning the and textit CoCoNuT

2026-06-09 1 阅读约2分钟阅读 Mujtaba Farhan, Maheep Chaudhary

arXiv:2606.07720v1 发布类型：新摘要：大型语言模型（LLM）在数学和多跳规划任务上表现出了卓越的推理能力。 CoCoNuT（连续思维链）范式~\cite{hao2024coconut}通过使模型能够在潜在空间中进行推理来扩展这一点，同时探索多个推理路径，而不是早期致力于单个链。然而，我们发现了一个限制，我们称之为\textbf{概念瓶颈}。在每次推理过程中，中间隐藏状态都会被覆盖，导致模型随着推理深度的增加而丢失在早期步骤中计算的关键事实。我们凭经验观察到这一点。在 HotpotQA 上，普通 CoCoNuT (10.4\% EM) 未能比 CoT 基线 (11.0\% EM) 有所提高，并且性能随着 GSM8K 上的课程深度而下降。为了解决这个问题，我们提出 \textbf{AGCLR} （自适应门控连续潜在推理），它通过 \textit{门控概念流} 增强了 CoCoNuT。在所有推理过程中维护的持久残留记忆，由三个学习门控制：将中间事实提交到内存的 \textit{write} 门、检索相关先前状态的 \textit{read} 门以及修剪不相关上下文的 \textit{forget} 门。使用 GPT-2 作为基础模型对 GSM8K、HotpotQA 和 ProsQA 进行评估，AGCLR 在所有类型的数据集上实现了一致的改进。随着课程深度的增加，成绩差距进一步扩大，直接解决了概念瓶颈。代码位于 https://anonymous.4open.science/r/JJJJ/README.md

订阅66必读