智能AI morning

HealthCraft:急诊医学的强化学习安全环境

2026-05-23 1 阅读 Brandon Dent
arXiv:2605.21496v1 公告类型:新 摘要:前沿语言模型正在比基础设施更快地部署到临床工作流程中,以安全地对其进行评估。静态医疗质量保证基准忽略了急诊医学中重要的故障模式:轨迹级安全崩溃、工具滥用以及持续临床压力下的屈服。我们推出了 HealthCraft,这是第一个公共强化学习环境,它根据 Corecraft 改编,在现实的紧急医疗条件下奖励轨迹级安全。它建立在具有 14 种实体类型和 3,987 个种子实体的 FHIR R4 世界状态之上,公开了 24 个 MCP 工具,并定义了双层规则,只要违反任何安全关键标准,就会将奖励归零。我们发布了 6 个类别的 195 项任务,根据 2,255 项二元标准(515 项安全关键)进行评分;事后 10 项任务负类清单将其扩展到 205 项任务和 2,337 项标准。两个前沿模型的 V8 结果显示,Claude Opus 4.6 在 Pass@1 时为 24.8% [21.5-28.4],GPT-5.4 在 12.6% [10.2-15.6] 时,安全失败率为 27.5% 和 34.0%。在多步骤工作流程(最接近真实紧急护理的代理)上,尽管个别步骤具有部分能力,但性能却崩溃至接近零(Claude 1.0%,GPT-5.4 0.0%)。 Pilot v2 和 v8 之间修复的六个基础设施错误重新排序了哪个模型“看起来更强”,这证明基础设施保真度是衡量的一部分。确定性的 LLM 判断叠加限制了评估器噪声,并且 60 次运行的负类烟雾试点表明奖励信号不是直接训练安全的:约束标准以 0.929 的流行率通过,这是评估安全带可以容忍的可游戏性,但训练奖励却不能。我们按照 Corecraft 第 5.2 节搭建与 Megatron+SGLang+GRPO 循环的耦合,并将训练奖励消融作为未来的工作。环境、任务、规则和工具在 Apache 2.0 下发布。