SignMuon：通信高效的分布式 Muon 优化

arXiv:2605.16311v1 公告类型：新摘要：大型神经网络的分布式训练受到全精度梯度通信和忽略权重张量矩阵结构的坐标优化器的瓶颈。我们提出了 Sign-Muon，这是一种 1 位矩阵感知优化器，它将signSGD 的多数投票符号聚合与 Muon 的极步框架相结合。每个worker通过Newton-Schulz迭代获取其动量的极坐标因子，形成一个Muon风格的方向，仅传输entrywise符号，并通过多数投票进行聚合；可选的局部极坐标步骤进一步增强了正交性，而无需额外的通信成本。在谱范数平滑度和有界方差随机梯度下，谱范数归一化符号步为基于 $\ell_1$ 的平稳性度量产生 $\mathcal{O}(1/\sqrt{T})$ 非凸率。对于单峰对称噪声，$M$ 工作人员的多数投票将随机项削减了 $1/\sqrt{M}$，与signSGD 匹配。在$\alpha$-$\beta$模型中，分布式Sign-Muon每次迭代只需要一个整数sum-allreduce；所有正交化都是本地的，与 float32 相比，带宽减少了 $32\times$（对于 int8，减少了 $4\times$）。在 330 个 CIFAR-10/ResNet-50 配置中，Sign-Muon 获得了最佳验证精度 (92.15\%)；其 4-GPU 多数票变体达到 92.02%，匹配有效批次的训练时间减少 37%。在 nanoGPT 上，Sign-Muon 比其他基于符号的基线实现了更低的复杂度和更好的随时性能，并具有高达 16 个 GPU 的有利弱扩展。