GitHub 热门项目: simpleRL-reason

2026-06-22 1 阅读 GitHub Trending
GitHub 项目:simpleRL-reason 仓库地址:https://github.com/hkust-nlp/simpleRL-reason 星级:3866 | 作者:科斯特自然语言研究所 项目描述:简单的强化学习推理训练 =================================================== 自述文件内容: # 简单的推理强化学习 [![概念](https://img.shields.io/badge/Notion-%23000000.svg?style=for-the-badge&logo=notion&logoColor=white)](https://hkust-nlp.notion.site/simplerl-reason) [![拥抱脸](https://img.shields.io/badge/SimpleRL-fcd022?style=for-the-badge&logo=Huggingface&logoColor=000)](https://huggingface.co/collections/hkust-nlp/simplerl-67b543892b2ec6908ffff710)
该存储库包含一个简单的强化学习配方,用于提高模型的推理能力。它很简单,因为只使用基于规则的奖励,配方几乎与 [DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1) 中使用的配方相同,只是代码当前使用 PPO 而不是 GRPO。我们使用这段代码在有限的数据(8K 示例)上训练小型模型(7B),取得了令人惊讶的强大结果——例如,从 Qwen2.5-Math-7B(基础模型)开始,我们直接对其执行 RL。没有 SFT,没有奖励模型,只有 8K MATH 示例进行验证,所得模型在 AIME 上达到 (pass@1) 33.3%,在 AMC 上达到 62.5%,在 MATH 上达到 77.2%,优于 Qwen2.5-math-7B-instruct,并且与使用超过 50 倍数据和更复杂组件的之前基线相当。您可以查看我们的 Notion 博客或下面的简介以了解更多详细信息。 simplelr-reaoning-intro-figure_00
> 我们的 Qwen2.5-SimpleRL-Zero 训练的训练动态从 Qwen2.5-Math-7B 开始,没有 SFT 或奖励模型。 ## 新闻 - **[2025/02/19]** 我们发布了 [Qwen-2.5-Math-7B-SimpleRL-Zero](https://huggingface.co/hkust-nlp/Qwen-2.5-Math-7B-SimpleRL-Zero) 的检查点和[Qwen-2.5-Math-7B-SimpleRL](https://huggingface.co/hkust-nlp/Qwen-2.5-Math-7B-SimpleRL) 到 Huggingface。 - **[2025/01/25]** 我们发布了训练/评估代码和我们的博客。我们正在研究该论文,并将很快发布。 ## 简介 许多研究人员正在探索学习 O 型模型的可能路径,例如蒸馏、MCTS、基于过程的奖励模型和强化学习。最近,[DeepSeek-R1](https://github.com/deepseek-ai/DeepSeek-R1) 和 [Kimi-k1.5](https://github.com/MoonshotAI/Kimi-k1.5) 都在这条路径上展示了一个极其简单的方法,使用简单的 RL 算法来学习新兴的长 CoT 和自我反射模式,并在不使用 MCTS 和奖励模型的情况下产生强大的结果。然而,他们的实验是基于大规模强化学习环境中的大型模型。目前尚不清楚小型模型是否可以表现出类似的行为、需要多少数据以及定量结果与其他方法相比如何。我们重现 DeepSeek-R1-Zero 和 DeepSeek-R1 用于复杂数学推理的训练,从 Qwen-2.5-Math-7B(基础模型)开始,仅使用原始 MATH 数据中的 8K(查询,最终答案)示例
← 返回 开源推荐