从自信的结束到无声的失败：LLM代理中虚假成功的特征

摘要

09863v1 Announce Type: new Abstract: LLM agents can fail silently by asserting task completion when the environment state shows otherwise。

and the tau bench AppWorld

2026-06-10 1 阅读约2分钟阅读 Laksh Advani

arXiv:2606.09863v1 公告类型：新摘要：当环境状态显示其他情况时，LLM 代理可以通过断言任务完成来静默失败。我们通过两个代理基准研究了这种失败模式，即错误的成功：来自 8 个模型系列的 9,876 个 tau2-bench 轨迹和来自 4 个模型系列的 1,879 个 AppWorld 轨迹，具有与文本无关的基本事实。错误成功很常见，但因环境而异：单控制 tau2 基准域中的失败率为 45--48%，双控制电信领域为 3%，在具有明确状态声明的 AppWorld 自评估编码代理轨迹中为 75.8%。 LLM 法官可靠地失败：5 个法官、5 个提示策略和完整任务规范的配置在 tau2-bench 上没有超过 AUROC 0.65，而相同的法官在 AppWorld API 调用跟踪上仅达到 0.54 AUROC。法官依赖于表面完成代理——tau2-bench 中的自信结束语言和 AppWorld 中的粗略动作序列量——而不是经过验证的状态变化。轻量级 TF-IDF 检测器在 tau2-bench 上实现任务不相交 AUROC 0.83，在 AppWorld 上实现 0.95，在相同标志率下恢复的错误成功率比最佳判断高 4--8 倍，延迟降低 3,300 倍。这些结果表明，生产监控应使用轻量级、域校准的检测器作为分类信号，而不是依赖 LLM 法官作为错误成功的主要监控器。

订阅66必读