智能AI morning

“你撒谎了吗?”跨模型规模和可信度验证的模型生物评估测谎仪

2026-06-12 1 阅读 Alan Cooney, David Africa, Geoffrey Irving
arXiv:2606.12618v1 公告类型:新 摘要:用于语言模型的强大测谎器可以实现对模型行为进行审计、监控和事后调查的强大技术,但评估它们需要测试平台,其中模型可以验证地相信与它们所说的相反的内容。我们表明,现有的训练有素的模型生物体经常达不到这一要求,使得先前的阳性和阴性检测结果难以解释。我们使用 13 种推理模型生物体来解决这个问题,这些生物体的隐藏信念在思想链中得到验证,并被证明可以推广到持续的任务,同时还有多种欺骗,这是一个涵盖广泛的谎言诱导动机的提示说谎测试平台。在这些测试床上,我们评估了四个检测器:一个思想链判断器、一个 logprob 分类器和两个激活探针,其中包括 Did-You-Lie (DYL),这是一种用于训练后续探针的新方法。在提示说谎时,跨越 2B 到 1T 参数的 31 个开放重量模型,所有四个探测器都显示出与模型能力的正比例关系。然而,每个基于激活和对数概率的检测器在我们训练的模型生物上急剧下降,其中 DYL 保留了最多的信号;只有思想链判断依然强大,平衡准确度为 0.82,部分原因是我们的验证过程偏向 CoT 可读信念。因此,当前的测谎仪无法支持有关模型信念的高可信度主张,我们建议的研究方向可能会解决其当前的一些局限性。我们发布数据集、模型生物和训练有素的探测器。