更多思考，更多偏差：推理模型中的长度驱动位置偏差

arXiv:2605.06672v1 公告类型：新摘要：思想链 (CoT) 推理和推理调整模型（例如 DeepSeek-R1）通常被认为可以通过仔细思考来减少浅层启发式偏差。我们在多项选择 QA 中对位置偏差进行了测试，并发现了不同的情况：在任何具有推理能力的模型中，每个问题的位置偏差都会随着推理轨迹的长度而变化。在 MMLU、ARC-Challenge 和 GPQA 上的 13 种推理模式配置（两种 R1 蒸馏 7-8B 模型、两种使用 CoT 提示的基础模型和 671B 的 DeepSeek-R1）中，在控制精度后，有 12 种显示轨迹长度和位置偏差得分 (PBS) 之间存在正偏相关，范围从 0.11 到 0.41（所有 p < 0.05）。所有 12 个开放权重推理模式配置都显示在长度四分位数上单调增加 PBS。截断干预提供了因果证据：从轨迹中较晚的点恢复的连续越来越有可能转向位置首选选项（跨绝对位置桶的 R1-Qwen-7B 为 16% 至 32%）。在 671B，聚合 PBS 崩溃至 0.019，但长度效应仍然体现在最长四分位数 (PBS = 0.071)，这表明准确性控制了长度驱动偏差的表达，而不是消除潜在机制。我们还发现，直接答案位置偏差是一种具有不同足迹的独特现象（在 Llama-Instruct-direct 中较强，在 Qwen-Instruct-direct 中较弱，并且与轨迹长度不相关）：CoT 推理用长度累积偏差取代了这种基线偏差。我们的结果表明，在 MCQ 评估流程中，具有推理能力的模型不应被默认视为顺序稳健，并提供了一个诊断工具包（PBS、承诺变更点、有效切换、截断探针）来审计推理模型中的位置偏差。