时间推理不是瓶颈：神经符号 QA 的概率不一致框架

arXiv:2605.04243v1 公告类型：新摘要：尽管取得了重大进展，大型语言模型 (LLM) 在复杂的时间推理任务上仍然表现出脆弱的性能。这种失败模式被广泛归因于自回归逻辑演绎的固有缺陷。在本文中，我们挑战了这种流行的说法，证明时间推理并不是根本瓶颈。相反，失败的根源在于非结构化的文本到事件的表示。我们引入了一种新颖的神经符号问答框架，该框架由概率不一致信号（PIS）控制，该框架明确地将感知错误与推理失败隔离开来。通过将非结构化文本提升为显式事件图和间隔约束，我们的架构严格地将语义提取与符号推理引擎解耦。为了稳健地检测结构断裂，PIS 巧妙地将符号信用区间与通过 LLM 隐藏状态的证据深度学习提取的认知神经不确定性结合起来。实证评估揭示了显着的范式转变：当提供正确的结构表示时，我们系统的显式证明轨迹可实现完美的 1.0 准确度 (4000/4000)，并且在时间算术基准上严格实现零误报/漏报。在更广泛的噪声注入 QA 设置中，该框架保持了具有竞争力的 75.1% 准确度，同时实现了确定性的步骤级故障定位。最终，通过将表示瓶颈与推理基础隔离，这项工作将时间 QA 从算法推理挑战重新定义为结构对齐问题，为可靠的神经符号人工智能绘制了一条可验证的前进道路。