ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

arXiv:2605.18799v1 公告类型：新摘要：大型语言模型在批评者互动中可能会失败，不仅会回答错误，还会在用户批评后放弃最初正确的科学解决方案。 This is especially risky in scientific reasoning, where user criticism can turn a valid answer into an incorrect one.我们将评论家互动视为轮间正确性转换问题，而不是最终答案的准确性问题，并确定了三个挑战：转换意识、将有用的纠正与有害的阿谀奉承脱钩以及可扩展的推出。我们提出了 ReCrit，一个转换感知的强化学习框架，它将初始到批评的行为分解为四个象限：纠正、谄媚、稳健和边界。 ReCrit rewards correction and robustness, penalizes sycophancy, and treats persistent errors as weak boundary signals.为了使交互训练变得实用，ReCrit 进一步使用动态异步转出和尾部自适应完成来减少转出等待。在 ChemBench、TRQA 和 EarthSE 三个科学推理基准测试中，ReCrit 将 Qwen3.5-4B 上的平均 Critic 准确率从 38.15 提高到 51.49，将 Qwen3.5-9B 上的平均 Critic 准确率从 45.40 提高到 55.59。消融表明，最终答案奖励几乎没有提供交互级别的增益，而转换感知奖励和象限权重则产生更明显的训练信号和更大的净批评阶段改进。 The code is available at https://github.com/black-yt/ReCrit .