大语言模型后训练中的顺序数据投毒

摘要

作者：Jack Sanderson, Yihan Wang等译者：知道创宇404实验室翻译组原文链接：https://arxiv。org/html/2606。04929v1 摘要大语言模型后训练包含多个阶段，例如监督微调（SFT）以及随后的人类反馈强化学习（RLHF）或直接偏好优化（DPO），每个阶段的数据来自不同的、可能不可信的来源。

作者译者知道创宇实验室翻译组

2026-06-08 1 阅读约1分钟阅读 Seebug Paper

字号:

作者：Jack Sanderson, Yihan Wang等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2606.04929v1 摘要大语言模型后训练包含多个阶段，例如监督微调（SFT）以及随后的人类反馈强化学习（RLHF）或直接偏好优化（DPO），每个阶段的数据来自不同的、可能不可信的来源。现有文献假设数据投毒攻击可能发生在每个训练阶段，但忽略了...

分享文章：

这篇文章对您有帮助吗？

订阅66必读

每日精选科技资讯，直达你的邮箱

← 返回安全攻防