CAX-Agent：用于可靠 APDL 自动化的轻量级代理线束

arXiv:2605.15218v1 发布类型：新摘要：为 MAPDL 有限元仿真部署的大型语言模型面临着实际的可靠性挑战：如果没有结构化执行控制、工具封装和故障恢复，输出可能会不一致，任务失败很常见。代理线束范例通过插入特定于域的编排中间件来解决这个问题，该中间件管理工具生命周期、工作流状态和恢复升级。本文介绍了 CAX-Agent 的架构，这是一种专为 MAPDL 自动化而构建的轻量级代理工具，并根据经验评估了其核心组件之一——恢复策略。CAX-Agent 将执行组织为三层——LLM 服务、代理工具和求解器后端——并具有从确定性规则修补到模型驱动再生逐步升级到上下文丰富和人工干预的恢复阶梯。我们在 50 个标准结构基准上评估三种恢复策略（no_recovery、rule_only 和 model_only），每个策略重复运行 3 次（总共 450 个案例运行）。两名独立的人类评估者在盲态下对任务完成情况进行评分；评分者之间的一致性很强（二次加权 Cohen kappa = 0.84，96% 的分数对在一分之内）。 model_only取得了最好的完成率（0.9267）、任务得分（3.59/4）、总分（9.16/10）和零干预率（0.84），优于rule_only（0.7733、3.17/4、7.03/10、0.00）和no_recovery（0.6933、2.74/4） 5.60/10, 0.00)，效应量较大（Cliff 的 delta = 0.81-0.87）。该基准故意使用简单的几何图形来隔离复苏政策的影响；我们讨论这些发现的范围和更广泛验证的方向。