INFRAMIND：基础设施感知多代理编排

arXiv:2606.11440v1 公告类型：新摘要：现有的多代理 LLM 编排方法，从强力集成到学习路由器，根据任务和模型特征选择模型和拓扑。然而，这些方法没有考虑服务基础设施的运行时状态。在并发负载下的共享 GPU 集群上，这种基础设施盲目性会导致系统资源利用不足：首选模型会积累深度请求队列，而同等能力的替代模型则闲置。在多代理管道中，每个查询都会触发多个顺序模型调用，这些延迟会在每个下游步骤中叠加。缩小这一差距具有挑战性，因为相关基础设施信号（队列深度、KV 缓存压力、延迟）是动态且嘈杂的，它们必须驱动三个不同的决策：规划、每步路由和调度。我们引入了 INFRAMIND，一个使整个多代理堆栈基础设施感知的框架。内部感知规划器根据实时系统负载和剩余预算来调节拓扑和角色选择，在拥塞时偏向于更简单的图形，在低负载时偏向于更丰富的图形。然后，内部感知执行器会观察每个模型的队列深度、缓存利用率和每个代理步骤的响应延迟，以决定调用哪个模型以及推理的深度；预算感知调度程序进一步重新排序每个模型的队列，以便首先满足紧急请求。系统采用分层约束 MDP 并通过强化学习进行端到端解决，自动学习在质量和延迟之间取得平衡。在五个基准测试中，INFRAMIND 在低负载下的精度比之前的基线高出 7.6 pp，延迟降低了 7 倍，并在高负载下保持了高达 99.9% 的 SLO 合规性，其中每个基线都下降到 50% 以下。

订阅66必读