安全攻防
morning
大语言模型后训练中的顺序数据投毒
2026-06-08
1 阅读
Seebug Paper
作者:Jack Sanderson, Yihan Wang等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2606.04929v1 摘要 大语言模型后训练包含多个阶段,例如监督微调(SFT)以及随后的人类反馈强化学习(RLHF)或直接偏好优化(DPO),每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段,但忽略了...