智能AI
morning
时间推理不是瓶颈:神经符号 QA 的概率不一致框架
2026-05-08
1 阅读
Tran Quang Liem
arXiv:2605.04243v1 公告类型:新 摘要:尽管取得了重大进展,大型语言模型 (LLM) 在复杂的时间推理任务上仍然表现出脆弱的性能。这种失败模式被广泛归因于自回归逻辑演绎的固有缺陷。在本文中,我们挑战了这种流行的说法,证明时间推理并不是根本瓶颈。相反,失败的根源在于非结构化的文本到事件的表示。我们引入了一种新颖的神经符号问答框架,该框架由概率不一致信号(PIS)控制,该框架明确地将感知错误与推理失败隔离开来。通过将非结构化文本提升为显式事件图和间隔约束,我们的架构严格地将语义提取与符号推理引擎解耦。为了稳健地检测结构断裂,PIS 巧妙地将符号信用区间与通过 LLM 隐藏状态的证据深度学习提取的认知神经不确定性结合起来。实证评估揭示了显着的范式转变:当提供正确的结构表示时,我们系统的显式证明轨迹可实现完美的 1.0 准确度 (4000/4000),并且在时间算术基准上严格实现零误报/漏报。在更广泛的噪声注入 QA 设置中,该框架保持了具有竞争力的 75.1% 准确度,同时实现了确定性的步骤级故障定位。最终,通过将表示瓶颈与推理基础隔离,这项工作将时间 QA 从算法推理挑战重新定义为结构对齐问题,为可靠的神经符号人工智能绘制了一条可验证的前进道路。