安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实

AI + ML 病态且错误：安省审计员发现医生的 AI 记录员经常会忽略基本事实审计员表示，60% 的经过评估的 AI Scribe 系统在患者笔记中混淆了处方药物 Brandon Vigliarolo Brandon Vigliarolo 于 2026 年 5 月 14 日星期四 // UTC 时间 21:50 发布根据省政府的说法，为安大略省医疗保健提供者批准的 AI 系统经常会错过关键细节，插入不正确的信息，并产生患者和临床医生都没有提到的幻觉内容对 20 个经批准供应商的系统进行审核。该调查结果来自加拿大安大略省审计长办公室，并包含在一份有关该省公共服务人工智能使用状况的大型报告中。他们特别针对人工智能抄写员计划，该计划是安大略省卫生部为更广泛的卫生部门的医生、执业护士和其他医疗保健专业人员发起的。作为采购过程的一部分，官员们使用模拟的医患录音进行了评估。然后，医疗专业人员审查原始录音以及人工智能生成的注释，以评估其准确性。坦率地说，他们的发现对于任何关心人工智能在危急情况下准确性的人来说都是令人震惊的。据报道，20 个人工智能系统中有 9 个“捏造信息并向患者的治疗计划提出建议”，而这些信息并未在录音中讨论。根据该报告，评估人员在样本报告中发现了潜在的毁灭性错误信息，例如没有发现肿块或患者感到焦虑，尽管这些事情从未在录音中讨论过。在评估的 20 个系统中，有 12 个系统在患者笔记中插入了不正确的药物信息，而其中 17 个系统“遗漏了录音中讨论的有关患者心理健康问题的关键细节”。报告称，其中六个系统“完全或部分错过了患者的心理健康问题，或者遗漏了关键细节”。 OntarioMD 是一个为医生采用新技术提供支持并参与 AI Scribe 采购流程的组织，该组织建议医生手动检查其 AI 笔记的准确性，但报告指出，任何 AI Scribe 批准的系统都没有强制证明功能。糟糕的评估没有帮助，人工智能系统犯错误也并不令人震惊。正如我们之前报道的那样，以消费者为中心的人工智能倾向于向用户提供不良的医疗信息，一些研究发现大型语言模型无法在大约 80% 的测试病例中产生适当的鉴别诊断。但这里评估的工具是针对医生的，而不是针对消费者的，如此糟糕的性能需要解释。报告的很大一部分都归咎于系统的评估方式。根据该报告，人工智能抄写员表现的各个类别的权重是不稳定的。虽然平台评估分数的 30% 仅取决于其是否在安大略省境内设有分支机构，但医疗记录的准确性仅占总分的 4%。更多背景 AI 聊天机器人在医疗建议方面并不比搜索引擎更好 AI 医生助理很容易被左右而改变处方，给出糟糕的医疗建议 ChatGPT Health 想要你敏感的医疗记录，这样它就可以扮演医生“它看起来很性感，但这是错误的”——人工智能在生物学和医学领域的问题偏差控制仅占总评估分数的 2%；威胁、风险和隐私评估占另外 2%； SOC 2 Type 2 合规性又贡献了 4 个百分点。换句话说，与准确性、偏见控制以及关键安全和隐私保护相关的标准仅占 AI Scribe 系统总评估分数的一小部分。 REG AD “不准确的权重可能会导致选择的供应商的人工智能工具可能会产生不准确或有偏见的医疗记录，或者缺乏足够的保护来保护敏感的个人健康信息，”报告在谈到评分制度时说道。 The Register 联系了安大略省卫生部，询问其对该报告的看法，以及是否会遵守其对 AI Scribe 计划的建议，但我们没有立即收到回复。该部发言人周三告诉 CBC，安大略省有 5000 多名医生正在参与 AI Scribe 计划，目前还没有关于该技术对患者造成伤害的已知报告。 ® ai 和 ml ai + ml ai 软件加拿大医疗保健