智能AI morning

从语言模型轨迹中读取校准的不确定性

2026-05-25 1 阅读 Aliai Eusebi, Alexander Herzog, Xiaoyu Liang, Marie Vasek, Enrico Mariconti, Lorenzo Cavallaro
arXiv:2605.22864v1 公告类型:新 摘要:最大 softmax 概率 (MSP) 代表了评估具有结构化输出的语言模型生成的不确定性量化时的默认方法。尽管价格便宜,但它经常被错误校准。探测模型内部激活的方法将原始隐藏状态输入到不透明分类器中,将激活读取为静态快照,并隐式地留下形成表示的逐层轨迹。然而,相似的终点可能来自非常不同的路径,而证据如何在深度上积累、强化或逆转可能会揭示最终概率所掩盖的不确定性。我们提取 11 个尺度不变的几何特征,跟踪每层 MLP 更新的累积路径,并将它们馈送到稀疏线性探针。该探针在选择性弃权情况下的性能优于 MSP,基线误差校准的增益可高达 21 AURC 点。因为每个特征都具有封闭形式的几何意义,所以探测器的系数追踪深度误差如何以及在何处形成——哪些层过早提交,这与运行状态相矛盾,即轨迹偏离端点。