潜在对抗检测：基于大模型激活自适应探测的多轮攻击检测

摘要

作者：Prashant Kulkarni 译者：知道创宇404实验室翻译组原文链接：https://arxiv。org/html/2604。28129v1 摘要多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径，但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。

作者译者知道创宇实验室翻译组

2026-05-25 1 阅读约1分钟阅读 Seebug Paper

字号:

作者：Prashant Kulkarni 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2604.28129v1 摘要多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径，但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现，该攻击路径会在模型残差流中留下可识别的激活层特征：攻击每个阶段的切换都会引发激活向量偏移，最终累积路径长度远超正常...

分享文章：

这篇文章对您有帮助吗？

订阅66必读

每日精选科技资讯，直达你的邮箱

← 返回安全攻防