通过结构不确定性量化法学硕士逻辑推理的一致性

arXiv:2606.17312v1 公告类型：新摘要：大型语言模型可以通过不稳定、矛盾或难以一致排序的推理路径得出相同的答案——这种失败模式在多步演绎推理中尤其普遍。现有的方法主要通过输出离散度（测量采样答案的差异程度）来评估可靠性，但这会丢弃一个补充信号：模型是否能够一致地对竞争推理候选者进行排名。我们提出了结构不确定性，这是一种一致性感知框架，源自自我偏好引起的对采样推理解决方案的排名的稳定性。 Given a query, we generate multiple candidate solutions and ask the model to judge pairwise preferences among its own outputs.我们通过 Bradley-Terry 建模和 PageRank 将自我偏好聚合到排名分布中，并将信号分解为两个基于熵的组成部分：跨试验排名不稳定性和试验内候选模糊性。在五个法学硕士和八个基准中，结构信号提供了对答案分散性进行补充的信息：在逻辑和数学推理任务中，这种组合改进了对不可靠实例的识别，而在事实检索中，结构信号向均匀性崩溃，诊断推理级别一致性评估无信息的状态边界。这两个组成部分与准确性的关系不同：试验内的模糊性与正确性呈正相关（与多个看似合理的解决方案路径保持竞争性的环境一致），而试验间的不稳定性与正确性呈负相关，表明推理不可靠。结构不确定性最好不要理解为通用置信估计器，而是逻辑推理一致性的制度敏感评估器。

订阅66必读