CODEBLOCK：学习以正确的粒度监督代码

摘要

arXiv:2606.18286v1 Announce Type: new Abstract: Supervised fine-tuning of code LLMs typically applies uniform cross-entropy loss to all response tokens, implicitly assuming that every token provides e

code tokens and response that

2026-06-18 1 阅读约1分钟阅读 Zhijie Deng, Ling Li, Jinlong Pang, Kaiqin Hu, Qi Xuan, Zhaowei Zhu, Jiaheng Wei

arXiv:2606.18286v1 公告类型：新摘要：代码 LLM 的监督微调通常对所有响应令牌应用统一的交叉熵损失，隐含地假设每个令牌都提供同样有用的学习信号。最近的代币级别选择方法通过仅监督高价值代币来挑战自然语言 SFT 中的这一假设。然而，直接将标记级掩码转移到代码可能会破坏语法和语义上连贯的程序单元，因为代码依赖于结构完整性和定义-使用关系。因此，我们提出了 CodeBlock，一种结构感知的稀疏监督框架，它选择结构完整的代码证据而不是孤立的令牌。 CodeBlock 首先选择高质量的指令响应对，然后将代码响应划分为语法一致的编码项，通过聚合核心逻辑标记上的广义交叉熵来估计其效用，并使用数据流到达和桥接信号对它们进行重新排序，以对传播或连接重要程序依赖项的块进行优先级排序。在训练期间，完整的响应仍然可以作为上下文使用，而损失仅应用于选定的代码项和信息丰富的自然语言标记。对六个代码生成基准的实验表明，CodeBlock 实现了比全令牌 SFT 和竞争性选择基线更强的平均 pass@1，同时仅使用 1.9% 的监督响应令牌。

订阅66必读