智能AI morning

通过结构不确定性量化法学硕士逻辑推理的一致性

2026-06-17 1 阅读 Baishali Chaudhury, Mengdie Flora Wang, Hyunji Hayley Park, Rahul Ghosh, Sungmin Hong, Jae Oh Woo
arXiv:2606.17312v1 公告类型:新 摘要:大型语言模型可以通过不稳定、矛盾或难以一致排序的推理路径得出相同的答案——这种失败模式在多步演绎推理中尤其普遍。现有的方法主要通过输出离散度(测量采样答案的差异程度)来评估可靠性,但这会丢弃一个补充信号:模型是否能够一致地对竞争推理候选者进行排名。我们提出了结构不确定性,这是一种一致性感知框架,源自自我偏好引起的对采样推理解决方案的排名的稳定性。 Given a query, we generate multiple candidate solutions and ask the model to judge pairwise preferences among its own outputs.我们通过 Bradley-Terry 建模和 PageRank 将自我偏好聚合到排名分布中,并将信号分解为两个基于熵的组成部分:跨试验排名不稳定性和试验内候选模糊性。在五个法学硕士和八个基准中,结构信号提供了对答案分散性进行补充的信息:在逻辑和数学推理任务中,这种组合改进了对不可靠实例的识别,而在事实检索中,结构信号向均匀性崩溃,诊断推理级别一致性评估无信息的状态边界。这两个组成部分与准确性的关系不同:试验内的模糊性与正确性呈正相关(与多个看似合理的解决方案路径保持竞争性的环境一致),而试验间的不稳定性与正确性呈负相关,表明推理不可靠。结构不确定性最好不要理解为通用置信估计器,而是逻辑推理一致性的制度敏感评估器。