线控学习训练控制治理：压力下的有界自主训练以实现稳定性和效率

arXiv:2605.19008v1 公告类型：新摘要：现代语言模型训练越来越面临不稳定、运行性能下降和计算浪费的问题，特别是在学习率、规模和运行时压力条件下。本文介绍了 Learn-by-Wire Guard (LBW-Guard)，这是一个在 AdamW 之上运行的有界自主训练控制治理层。 LBW-Guard 不是取代优化器更新规则，而是观察训练遥测、解释不稳定敏感机制，并对优化器执行应用有限控制，同时保留固定的训练目标。我们使用 WikiText-103 在以 Qwen2.5 为中心的压力和鲁棒性套件中评估 LBW-Guard，以 Qwen2.5-7B 作为经验锚，与 Qwen2.5-3B 和 Qwen2.5-14B 进行模型大小比较、学习率压力测试、梯度裁剪基线以及非 LoRA TinyLlama-1B 全参数健全性检查。在 7B 参考设置中，LBW-Guard 将最终困惑度从 13.21 降低到 10.74，提高了 18.7%，同时将端到端时间从 392.54 秒降低到 357.02 秒，加速了 1.10 倍。在更强的学习率压力下，AdamW 最终困惑度在 LR=3e-3 时降级为 1885.24，在 LR=1e-3 时降级为 659.76，而 LBW-Guard 仍可训练，分别为 11.57 和 10.33。渐变剪切基线不会重现这种效果。这些结果支持范围系统结论，即稳定性敏感的 LLM 培训可以从优化器之上的治理平面中受益。 LBW-Guard 提供的证据表明，有界运行时控制可以在压力下保持高效计算，同时与优化器替换和局部梯度抑制保持不同。