智能AI
morning
从自信的结束到无声的失败:LLM代理中虚假成功的特征
2026-06-10
1 阅读
Laksh Advani
arXiv:2606.09863v1 公告 类型:新 摘要:当环境状态显示其他情况时,LLM 代理可以通过断言任务完成来静默失败。我们通过两个代理基准研究了这种失败模式,即错误的成功:来自 8 个模型系列的 9,876 个 tau2-bench 轨迹和来自 4 个模型系列的 1,879 个 AppWorld 轨迹,具有与文本无关的基本事实。错误成功很常见,但因环境而异:单控制 tau2 基准域中的失败率为 45--48%,双控制电信领域为 3%,在具有明确状态声明的 AppWorld 自评估编码代理轨迹中为 75.8%。 LLM 法官可靠地失败:5 个法官、5 个提示策略和完整任务规范的配置在 tau2-bench 上没有超过 AUROC 0.65,而相同的法官在 AppWorld API 调用跟踪上仅达到 0.54 AUROC。法官依赖于表面完成代理——tau2-bench 中的自信结束语言和 AppWorld 中的粗略动作序列量——而不是经过验证的状态变化。轻量级 TF-IDF 检测器在 tau2-bench 上实现任务不相交 AUROC 0.83,在 AppWorld 上实现 0.95,在相同标志率下恢复的错误成功率比最佳判断高 4--8 倍,延迟降低 3,300 倍。这些结果表明,生产监控应使用轻量级、域校准的检测器作为分类信号,而不是依赖 LLM 法官作为错误成功的主要监控器。