NRT-Bench：面向安全关键控制室中 LLM 智能体的多轮红队测试基准

2026-06-24 1 阅读 Seebug Paper

作者：Hanwool Lee, Dasol Choi, Bokyeong Kim等原文链接：https://arxiv.org/pdf/2606.20408 摘要大型语言模型（LLM）智能体越来越多地被提议作为安全关键系统的监督组件，但它们在持续、自适应对抗压力下的鲁棒性仍然缺乏充分表征。本文提出NRT-Bench，一个用于对担任安全关键系统操作员的LLM智能体进行多轮红队测试的基准，具体实例...

← 返回安全攻防