ZAYA1-8B技术报告

arXiv:2605.05365v1 公告类型：新摘要：我们提出了 ZAYA1-8B，这是一种以推理为中心的专家混合 (MoE) 模型，具有 700M 活动参数和 8B 总参数，基于 Zyphra 的 MoE++ 架构构建。 ZAYA1-8B 的核心预训练、中期训练和监督微调 (SFT) 在全栈 AMD 计算、网络和软件平台上执行。 ZAYA1-8B 的有效参数低于 1B，在几个具有挑战性的数学和编码基准上匹配或超过 DeepSeek-R1-0528，并且与更大的开放权重推理模型相比仍然具有竞争力。 ZAYA1-8B 从头开始进行推理训练，使用保留答案的修剪方案从预训练开始就包含了推理数据。训练后使用四阶段 RL 级联：数学和谜题的推理热身；包含 400 项任务的 RLVE-Gym 课程；数学和代码强化学习，具有测试时计算轨迹和根据竞争性编程参考构建的合成代码环境；以及用于聊天和遵循指令的行为强化学习。我们还引入了马尔可夫 RSA，这是一种测试时计算方法，它递归地聚合并行推理轨迹，同时在各轮之间仅转发有界长度的推理尾部。在 TTC 评估中，Markovian RSA 将 ZAYA1-8B 在 AIME'25 上提高到 91.9%，在 HMMT'25 上提高到 89.6%，同时仅推进 4K 令牌尾部，缩小了与更大的推理模型（包括 Gemini-2.5 Pro、DeepSeek-V3.2 和 GPT-5-High）的差距。