智能AI morning

ZAYA1-8B技术报告

2026-05-09 1 阅读 Robert Washbourne, Rishi Iyer, Tomas Figliolia, Henry Zheng, Ryan Lorig-Roach, Sungyeon Yang, Pritish Yuvraj, Quentin Anthony, Yury Tokpanov, Xiao Yang, Ganesh Nanduru, Stephen Ebert, Praneeth Medepal
arXiv:2605.05365v1 公告类型:新 摘要:我们提出了 ZAYA1-8B,这是一种以推理为中心的专家混合 (MoE) 模型,具有 700M 活动参数和 8B 总参数,基于 Zyphra 的 MoE++ 架构构建。 ZAYA1-8B 的核心预训练、中期训练和监督微调 (SFT) 在全栈 AMD 计算、网络和软件平台上执行。 ZAYA1-8B 的有效参数低于 1B,在几个具有挑战性的数学和编码基准上匹配或超过 DeepSeek-R1-0528,并且与更大的开放权重推理模型相比仍然具有竞争力。 ZAYA1-8B 从头开始​​进行推理训练,使用保留答案的修剪方案从预训练开始就包含了推理数据。训练后使用四阶段 RL 级联:数学和谜题的推理热身;包含 400 项任务的 RLVE-Gym 课程;数学和代码强化学习,具有测试时计算轨迹和根据竞争性编程参考构建的合成代码环境;以及用于聊天和遵循指令的行为强化学习。我们还引入了马尔可夫 RSA,这是一种测试时计算方法,它递归地聚合并行推理轨迹,同时在各轮之间仅转发有界长度的推理尾部。在 TTC 评估中,Markovian RSA 将 ZAYA1-8B 在 AIME'25 上提高到 91.9%,在 HMMT'25 上提高到 89.6%,同时仅推进 4K 令牌尾部,缩小了与更大的推理模型(包括 Gemini-2.5 Pro、DeepSeek-V3.2 和 GPT-5-High)的差距。