面向多种防御策略的自动化越狱攻击

2026-06-17 1 阅读 Seebug Paper
作者:Qi Wang, Chengcheng Wan等 原文链接:https://arxiv.org/pdf/2606.16751 摘要 大型语言模型(LLM)在广泛的任务中展现出了卓越的能力。然而,由于其易受对抗性提示攻击的影响,其安全性仍然是一个关键问题。在本文中,我们提出了UniAttack,这是一个从防御视角设计的对抗性测试框架,用于系统性地构建有效的黑盒攻击提示。与以往依赖静态模板或迭代...