PrologMCP：LLM 代理的标准化 Prolog 工具接口

摘要

arXiv:2606.14935v1 Announce Type: new Abstract: Frontier reasoning-tuned language models still fail on deductive tasks at depth, and the cost of improved performance through extended internal reasonin

the reasoning and language for

2026-06-16 1 阅读约1分钟阅读 Agnieszka Mensfelt, Adarsh Prabhakaran, Adrian Haret, Vince Trencsenyi, Kostas Stathis

arXiv:2606.14935v1 公告类型：新摘要：前沿推理调整的语言模型在深度演绎任务上仍然失败，并且通过扩展内部推理来提高性能的成本规模很差。符号委托提供了一种补充途径：语言模型翻译问题，而求解器则执行推理。然而，当前用于逻辑编程的自动形式化管道通常是与特定任务或代理相关的定制集成。我们介绍 PrologMCP，这是一个与任务无关的开源服务器，它通过模型上下文协议 (MCP) 将 Prolog 公开为有状态工具。其紧凑的工具界面、结构化错误报告和每个会话隔离使翻译-运行-检查-修复循环成为支持 MCP 的代理的可重用原语。我们在 PARARULE-Plus 的两个子集上针对标准和推理 LLM（Claude Sonnet 4.6、GPT-4.1 和 o4-mini）评估了使用 PrologMCP 增强的形式化代理：一个通用样本和一个针对自然语言推理的特定失败模式的更具挑战性的样本。在一般样本上，形式化器匹配或超过推理 LLM（精度 1.00 vs.\ 1.00 / 0.998），与标准模型相比收益最大（GPT-4.1 为 0.762）。在具有挑战性的子集上，形式化器仍然接近完美（1.00 / 0.99），而推理法学硕士则下降到 0.95 / 0.94。这些结果表明，通过 MCP 将推理委托给 Prolog 是扩展自然语言推理的稳健且可检查的替代方案。

订阅66必读