更少的上下文，更好的代理：针对使用 LLM 代理的长期工具的高效上下文工程

摘要

arXiv:2606.10209v1 Announce Type: new Abstract: Large language models deployed as autonomous agents for enterprise workflows face a key challenge: verbose tool responses from enterprise systems can ca

and tool the with context

2026-06-10 1 阅读约2分钟阅读 Abhilasha Lodha, Mahsa Pahlavikhah Varnosfaderani, Abir Chakraborty, Abhinav Mithal

arXiv:2606.10209v1 公告类型：新摘要：部署为企业工作流程自主代理的大型语言模型面临着一个关键挑战：来自企业系统的详细工具响应可能导致上下文溢出、过时状态错误和高推理成本。我们使用模型上下文协议工具在 Microsoft Dynamics 365 Finance and Operations 中的自动费用明细中研究此问题。我们在 50 项酒店费用基准上评估了四种 GPT-5 配置：无用户模型、完整的对话历史记录、上下文修剪到最后 5 个工具调用/响应对，以及使用自动摘要进行修剪。结果是 5 次独立运行的平均值，用户模型在上下文工程比较中保持不变。无用户模型基线仅实现 8.0% 的完整逐项列出。全上下文保留将完成率提高到 71.0%，但每个基准消耗 1,480,996 个令牌和 14.56 小时。修剪到最后 5 个工具调用将完成率提高到 79.0%，同时将令牌使用量减少到 535,274 次，运行时间减少到 5.39 小时。添加汇总效果最好：分项完成率91.6%，平均分项金额99.64%，553,374个代币，5.79小时。我们进一步报告置信区间、效应大小分析、修剪和汇总窗口的敏感性、失败分析、分为三类的五种费用类型的结果，以及 Claude Sonnet 4.5 的跨模型证据。这些结果表明，对于此类企业工具使用工作流程，与完整历史保留相比，选择性保留最近的工具交互加上紧凑摘要可以提高可靠性和效率。

订阅66必读