智能AI
morning
线控学习训练控制治理:压力下的有界自主训练以实现稳定性和效率
2026-05-20
1 阅读
Anis Radianis
arXiv:2605.19008v1 公告类型:新 摘要:现代语言模型训练越来越面临不稳定、运行性能下降和计算浪费的问题,特别是在学习率、规模和运行时压力条件下。本文介绍了 Learn-by-Wire Guard (LBW-Guard),这是一个在 AdamW 之上运行的有界自主训练控制治理层。 LBW-Guard 不是取代优化器更新规则,而是观察训练遥测、解释不稳定敏感机制,并对优化器执行应用有限控制,同时保留固定的训练目标。我们使用 WikiText-103 在以 Qwen2.5 为中心的压力和鲁棒性套件中评估 LBW-Guard,以 Qwen2.5-7B 作为经验锚,与 Qwen2.5-3B 和 Qwen2.5-14B 进行模型大小比较、学习率压力测试、梯度裁剪基线以及非 LoRA TinyLlama-1B 全参数健全性检查。在 7B 参考设置中,LBW-Guard 将最终困惑度从 13.21 降低到 10.74,提高了 18.7%,同时将端到端时间从 392.54 秒降低到 357.02 秒,加速了 1.10 倍。在更强的学习率压力下,AdamW 最终困惑度在 LR=3e-3 时降级为 1885.24,在 LR=1e-3 时降级为 659.76,而 LBW-Guard 仍可训练,分别为 11.57 和 10.33。渐变剪切基线不会重现这种效果。这些结果支持范围系统结论,即稳定性敏感的 LLM 培训可以从优化器之上的治理平面中受益。 LBW-Guard 提供的证据表明,有界运行时控制可以在压力下保持高效计算,同时与优化器替换和局部梯度抑制保持不同。