ToolSense：用于审核法学硕士参数化工具知识的诊断框架

摘要

12451v1 Announce Type: new Abstract: Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck。

retrieval tool the benchmarks and

2026-06-12 1 阅读约2分钟阅读 Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal

arXiv:2606.12451v1 公告类型：新摘要：在大型工具目录上部署为代理的大型语言模型面临着关键的工具检索瓶颈。由于基于嵌入的检索方法依赖于可能无法捕获专门工具语义的紧凑编码器，因此参数化工具检索通过将每个工具编码为附加到 LLM 词汇表的虚拟标记来解决此问题，并在两个阶段（记忆然后检索 SFT）进行微调以使用 LLM 作为检索器，从而在标准 ToolBench 检索基准上实现强大的性能。然而，这些基准测试使用详细、完全指定的查询，并且它们的评估应用了约束解码，将输出限制为有效的令牌路径，两者都没有揭示模型是否真正理解其工具。我们引入了 \textbf{ToolSense}，这是一个由 LLM 支持的开源诊断框架，它将任何工具目录作为输入并自动生成三个基准：具有三个歧义层查询的现实检索基准（RRB）、MCQ 探测基准和 QA 探测基准。将 ToolSense 应用于 ToolBench（约 47k 工具）并评估五种参数模型训练配置揭示了知识检索分离：在 RRB 查询上，与完全指定的 ToolBench 基准相比，几种配置崩溃了约 50-64 个百分点，低于嵌入模型基线。此外，尽管检索性能很强，但一些模型在事实调查上的得分接近随机，这表明知识检索分离。我们在 https://github.com/SAP/toolsense 开源了 ToolSense 框架和 ToolBench 诊断基准。

订阅66必读