VibeThinker:3B 参数模型在推理上击败 Opus 4.5,采用新颖的 SFT+GRPO

2026-06-23 1 阅读 timhigins
计算机科学 > 人工智能 arXiv:2606.16140 (cs) [提交于 2026 年 6 月 15 日] 标题:VibeThinker-3B:探索小语言模型中可验证推理的前沿 作者:Sen Xu、Shixi Liu、Wei Wang、Jixin Min、Yingwei Dai、Zhibin Yin、Yirong Chen、Xin Zhou、Junlin Zhang 查看标题为 PDF 的论文VibeThinker-3B:探索小语言模型中可验证推理的前沿,作者:Sen Xu 和其他 8 位作者 查看 PDF HTML(实验) 摘要:本技术报告介绍了 VibeThinker-3B,这是一个具有 3B 参数的紧凑密集模型,旨在研究可验证推理在严格的小模型体系内可以推进多远。基于频谱到信号训练后范式,我们通过优化的管道系统地增强模型,其中包括基于课程的监督微调、多领域强化学习和离线自蒸馏。实验评估表明,VibeThinker-3B 在高要求的可验证任务上实现了前沿水平的性能。具体来说,它在 AIME26 上获得了 94.3 分(通过声明级别测试时间缩放提高到 97.1 分),在 LiveCodeBench v6 上获得 80.2 Pass@1 分,并且在最近未见的 LeetCode 竞赛中表现出强大的分布外泛化能力,接受率为 96.1%。这有效地将其置于一流推理系统的性能范围内,匹配或超过了大几个数量级的旗舰型号,例如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro。此外,IFEval 的 93.4 分证实了这种极端的推理增强不会损害严格的指令可控性。这些发现扩展了我们之前的 1.5B 工作,激发了参数压缩覆盖假说,该假说将可验证的推理视为可压缩为紧凑的推理核心,而开放领域知识和通用能力需要对事实、概念和长尾场景进行广泛的参数覆盖。这种观点表明,紧凑模型不仅是部署高效的替代品,而且是参数密集能力体系中实现前沿水平性能的补充途径。主题:人工智能(cs.AI);计算和语言 (cs.CL) 引用为:arXiv:2606.16140 [cs.AI](或此版本的 arXiv:2606.16140v1 [cs.AI]) https://doi.org/10.48550/arXiv.2606.16140 重点了解更多 arXiv 通过 DataCite 发布的 DOI 提交历史记录 来源: Sen Xu [ 查看电子邮件 ] [v1] Mon, 15 Jun 2026 02:57:19 UTC (552 KB) 全文链接:访问论文:查看标题为 VibeThinker-3B:探索小语言模型中可验证推理前沿的论文的 PDF,作者是 Sen Xu 和其他 8 位作者 查看 PDF HTML(实验性)TeX 源代码 查看许可证 当前浏览上下文:cs.AI < 上一页 |下一页 > 新 |最近 | 2026-06 更改为浏览方式:cs cs.CL 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 已连接论文 切换已连接论文(什么是已连接)论文? ) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 代码链接 切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换 DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换拥抱面 (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 复制 切换复制 (什么是复制?) Spaces 切换拥抱面 空间 (什么是空间? ) 空间 切换 TXYZ.AI(什么是 TXYZ.AI?) 相关论文推荐器和搜索工具 链接到 Influence Flower Influence Flower(什么是 Influence Flowers?) 核心推荐器切换 CORE 推荐器(什么是 CORE?) 作者地点 机构 主题 关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个允许合作者开发和共享新 arXiv 的框架直接在我们的网站上提供功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个可以为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用 MathJax(什么是 MathJax?)