SDOF：通过状态约束调度降低多代理编排中的协调税

arXiv:2605.15204v1 公告类型：新摘要：多代理编排框架（例如 LangChain、LangGraph 和 CrewAI）通过基于图的管道路由任务，但不强制管理实际业务流程的阶段约束。我们提出了 SDOF，一个将多代理执行视为受限状态机的框架。 SDOF 通过两个主要防御层进行操作，由三个组件实现：(1) 通过生成奖励模型 (GRPO) 训练的在线 RLHF 专用意图路由器和 (2) 具有 GoalStage 有限自动机检查和用于可审计执行控制的前置条件/后置条件 SkillRegistry 验证的 StateAwareDispatcher。在北森iTalent平台（6000+企业）支持的招聘系统上，185个专家策划的场景触发了1671个实时API调用。在这个 FSM 约束的对抗性路由基准测试中，我们的 GSPO 对齐 7B 意图路由器比零样本 GPT-4o 实现了更高的联合精度（80.9% 与 48.9%）。在端到端执行中，SDOF 达到 86.5% 的任务完成率（95% 置信区间为 80.8 至 90.7），并阻止注入、非法 HR 子集中的所有 22 个操作。在更广泛的消息级阻塞审核下，SDOF 的准确率达到 100%，召回率达到 88%，专家一致 kappa=0.94。对跨越 8 个服务域的 960 个 SGD 派生对话的单独评估在我们的 FSM 映射下发现了 201 个阶段顺序冲突，其中 41 个出现在正常分割中。该 arXiv 版本报告了当前验证的范围；扩展的多种子训练比较和更深入的工作流程评估将在后续更新中发布。