迈向可靠和稳健的法学硕士规划：符号反馈驱动的迭代自我完善框架

2026-06-29 1 阅读 Jiajing Zhang, Jiamei Jiang, Chenyang Zhang, Feifei Mo, Linjing Li, Daniel Zeng

arXiv:2606.27757v1 公告类型：新摘要：大型语言模型 (LLM) 已引起学术界和工业界的广泛关注，但其部署引发了有关鲁棒性和可靠性的关键安全问题。规划是智能行为的核心组成部分，对于法学硕士来说仍然具有挑战性，由于其固有的复杂性，他们经常在长期决策任务中产生不可行或不正确的解决方案。在本文中，我们提出了一种符号反馈驱动的迭代自我完善框架，以增强法学硕士在长期规划中的稳健性和可靠性。具体来说，引入自然语言提示机制，将逻辑符号映射为自然语言描述，使法学硕士能够更好地捕获任务约束和语义。我们进一步设计了一个符号验证器，可以识别错误并将其转换为法学硕士可解释的纠正指令，从而指导自我完善。此外，我们利用计划识别器来推断目标的可达性，从而促进更有效地指导实现预期目标。实证结果表明，所提出的框架持续提高了长期规划任务的可行性和正确性。这凸显了它在增强基于法学硕士的规划可靠性方面的有效性，以及实现更值得信赖的人工智能系统的潜力。