揭示 VLM 的可解释故障模式

arXiv:2605.12674v1 公告类型：新摘要：视觉语言模型 (VLM) 因其广泛的推理能力和以最少的特定任务工程进行概括的能力而越来越多地用于安全关键型应用。尽管具有这些优点，但它们在特定的现实情况下可能会表现出灾难性故障，从而构成故障模式。我们介绍 REVELIO，一个用于系统地揭示 VLM 中可解释故障模式的框架。我们将故障模式定义为可解释的、领域相关概念的组合（例如行人接近度或恶劣天气条件），在这些模式下，目标 VLM 始终表现不正确。识别此类故障需要在指数级大的离散组合空间中进行搜索。为了应对这一挑战，REVELIO 结合了两种搜索程序：可有效映射故障景观的多样性感知波束搜索，以及可更广泛地探索复杂故障模式的高斯过程汤普森采样策略。我们将 REVELIO 应用到自动驾驶和室内机器人领域，发现了最先进的 VLM 中以前未报告的漏洞。在驾驶环境中，模型通常表现出较弱的空间基础，并且无法考虑主要障碍物，从而导致提出可能导致模拟碰撞的建议。在室内机器人任务中，VLM 要么会忽略安全隐患，要么表现得过于保守，从而产生误报并降低运行效率。通过识别结构化和可解释的故障模式，REVELIO 提供可操作的见解，支持有针对性的 VLM 安全改进。