GitHub 热门项目： simpleRL-reason

2026-06-22 1 阅读 GitHub Trending

GitHub 项目：simpleRL-reason 仓库地址：https://github.com/hkust-nlp/simpleRL-reason 星级：3866 | 作者：科斯特自然语言研究所项目描述：简单的强化学习推理训练 =================================================== 自述文件内容： # 简单的推理强化学习 [![概念](https://img.shields.io/badge/Notion-%23000000.svg?style=for-the-badge&logo=notion&logoColor=white)](https://hkust-nlp.notion.site/simplerl-reason) [![拥抱脸](https://img.shields.io/badge/SimpleRL-fcd022?style=for-the-badge&logo=Huggingface&logoColor=000)](https://huggingface.co/collections/hkust-nlp/simplerl-67b543892b2ec6908ffff710)

该存储库包含一个简单的强化学习配方，用于提高模型的推理能力。它很简单，因为只使用基于规则的奖励，配方几乎与 [DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1) 中使用的配方相同，只是代码当前使用 PPO 而不是 GRPO。我们使用这段代码在有限的数据（8K 示例）上训练小型模型（7B），取得了令人惊讶的强大结果——例如，从 Qwen2.5-Math-7B（基础模型）开始，我们直接对其执行 RL。没有 SFT，没有奖励模型，只有 8K MATH 示例进行验证，所得模型在 AIME 上达到 (pass@1) 33.3%，在 AMC 上达到 62.5%，在 MATH 上达到 77.2%，优于 Qwen2.5-math-7B-instruct，并且与使用超过 50 倍数据和更复杂组件的之前基线相当。您可以查看我们的 Notion 博客或下面的简介以了解更多详细信息。 simplelr-reaoning-intro-figure_00

> 我们的 Qwen2.5-SimpleRL-Zero 训练的训练动态从 Qwen2.5-Math-7B 开始，没有 SFT 或奖励模型。 ## 新闻 - **[2025/02/19]** 我们发布了 [Qwen-2.5-Math-7B-SimpleRL-Zero](https://huggingface.co/hkust-nlp/Qwen-2.5-Math-7B-SimpleRL-Zero) 的检查点和[Qwen-2.5-Math-7B-SimpleRL](https://huggingface.co/hkust-nlp/Qwen-2.5-Math-7B-SimpleRL) 到 Huggingface。 - **[2025/01/25]** 我们发布了训练/评估代码和我们的博客。我们正在研究该论文，并将很快发布。 ## 简介许多研究人员正在探索学习 O 型模型的可能路径，例如蒸馏、MCTS、基于过程的奖励模型和强化学习。最近，[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1) 和 [Kimi-k1.5](https://github.com/MoonshotAI/Kimi-k1.5) 都在这条路径上展示了一个极其简单的方法，使用简单的 RL 算法来学习新兴的长 CoT 和自我反射模式，并在不使用 MCTS 和奖励模型的情况下产生强大的结果。然而，他们的实验是基于大规模强化学习环境中的大型模型。目前尚不清楚小型模型是否可以表现出类似的行为、需要多少数据以及定量结果与其他方法相比如何。我们重现 DeepSeek-R1-Zero 和 DeepSeek-R1 用于复杂数学推理的训练，从 Qwen-2.5-Math-7B（基础模型）开始，仅使用原始 MATH 数据中的 8K（查询，最终答案）示例

← 返回开源推荐