HealthCraft：急诊医学的强化学习安全环境

arXiv:2605.21496v1 公告类型：新摘要：前沿语言模型正在比基础设施更快地部署到临床工作流程中，以安全地对其进行评估。静态医疗质量保证基准忽略了急诊医学中重要的故障模式：轨迹级安全崩溃、工具滥用以及持续临床压力下的屈服。我们推出了 HealthCraft，这是第一个公共强化学习环境，它根据 Corecraft 改编，在现实的紧急医疗条件下奖励轨迹级安全。它建立在具有 14 种实体类型和 3,987 个种子实体的 FHIR R4 世界状态之上，公开了 24 个 MCP 工具，并定义了双层规则，只要违反任何安全关键标准，就会将奖励归零。我们发布了 6 个类别的 195 项任务，根据 2,255 项二元标准（515 项安全关键）进行评分；事后 10 项任务负类清单将其扩展到 205 项任务和 2,337 项标准。两个前沿模型的 V8 结果显示，Claude Opus 4.6 在 Pass@1 时为 24.8% [21.5-28.4]，GPT-5.4 在 12.6% [10.2-15.6] 时，安全失败率为 27.5% 和 34.0%。在多步骤工作流程（最接近真实紧急护理的代理）上，尽管个别步骤具有部分能力，但性能却崩溃至接近零（Claude 1.0%，GPT-5.4 0.0%）。 Pilot v2 和 v8 之间修复的六个基础设施错误重新排序了哪个模型“看起来更强”，这证明基础设施保真度是衡量的一部分。确定性的 LLM 判断叠加限制了评估器噪声，并且 60 次运行的负类烟雾试点表明奖励信号不是直接训练安全的：约束标准以 0.929 的流行率通过，这是评估安全带可以容忍的可游戏性，但训练奖励却不能。我们按照 Corecraft 第 5.2 节搭建与 Megatron+SGLang+GRPO 循环的耦合，并将训练奖励消融作为未来的工作。环境、任务、规则和工具在 Apache 2.0 下发布。

订阅66必读