读出捷径：位置数字复制在小语言模型中主导算术 CoT 读出

摘要

22870v1 Announce Type: new Abstract: Chain-of-thought (CoT) prompting is necessary for arithmetic in small language models, yet shuffling its steps preserves most performance。

the answer CoT number for

2026-05-25 1 阅读约1分钟阅读 Ming Liu

arXiv:2605.22870v1 公告类型：新摘要：思想链 (CoT) 提示对于小语言模型中的算术是必要的，但打乱其步骤可以保留大部分性能。如果 CoT 不是逻辑排序，那么它有什么贡献？在 GSM8K 上的三个 1-3B 指令调整的 LM 中，我们通过前缀补全隔离答案读出阶段，并确定位置快捷方式：模型复制占据答案定界符之前尾随位置的数字，无论中间推理如何。黄金答案的存在占准确率的 54-92 个百分点（每个模型的教师强制上限的 89-92%）；即使项目不正确，最终答案也有 95-96% 的概率与最后一个 CoT 号码相匹配。复制通道优先于保留上下文完成：用错误的值替换尾随数字会导致精度接近于零，尽管中间值是正确的，但删除它会恢复高于该底线的 5-32 pp——当存在可复制数字时，即使模型可以执行的单步算术也会受到抑制。 Qwen 和 Llama 87-95% 的时间都在抄袭小说干扰物；杰玛选择性地大门。头部消融意味着特定架构的耳机；该效果在 GSM-Symbolic 上复制。在非算术 BBH 任务上，随机保留急剧下降；在 7-8B 处，出现了内容选择性门控。步级忠诚度评估存在将位置答案传输与真实计算混为一谈的风险——这是基于 CoT 的监督的失败模式。

订阅66必读