智能AI morning

更少的上下文,更好的代理:针对使用 LLM 代理的长期工具的高效上下文工程

2026-06-10 1 阅读 Abhilasha Lodha, Mahsa Pahlavikhah Varnosfaderani, Abir Chakraborty, Abhinav Mithal
arXiv:2606.10209v1 公告类型:新 摘要:部署为企业工作流程自主代理的大型语言模型面临着一个关键挑战:来自企业系统的详细工具响应可能导致上下文溢出、过时状态错误和高推理成本。我们使用模型上下文协议工具在 Microsoft Dynamics 365 Finance and Operations 中的自动费用明细中研究此问题。我们在 50 项酒店费用基准上评估了四种 GPT-5 配置:无用户模型、完整的对话历史记录、上下文修剪到最后 5 个工具调用/响应对,以及使用自动摘要进行修剪。结果是 5 次独立运行的平均值,用户模型在上下文工程比较中保持不变。无用户模型基线仅实现 8.0% 的完整逐项列出。全上下文保留将完成率提高到 71.0%,但每个基准消耗 1,480,996 个令牌和 14.56 小时。修剪到最后 5 个工具调用将完成率提高到 79.0%,同时将令牌使用量减少到 535,274 次,运行时间减少到 5.39 小时。添加汇总效果最好:分项完成率91.6%,平均分项金额99.64%,553,374个代币,5.79小时。我们进一步报告置信区间、效应大小分析、修剪和汇总窗口的敏感性、失败分析、分为三类的五种费用类型的结果,以及 Claude Sonnet 4.5 的跨模型证据。这些结果表明,对于此类企业工具使用工作流程,与完整历史保留相比,选择性保留最近的工具交互加上紧凑摘要可以提高可靠性和效率。