评估个人健康记录在个性化健康人工智能中的效用

arXiv:2605.18937v1 公告类型：新摘要：患者管理的个人健康记录 (PHR) 有望让患者更好地了解自己的健康状况；但记录中的信息很复杂，可能会阻碍洞察力。在这项研究中，我们评估了大型语言模型（LLM、Gemini 3.0 Flash）在提供来自 PHR 的临床数据作为上下文时为用户健康查询提供有用答案的潜力。总共 2,257 个用户查询来自 3 个不同的分布，以代表患者的问题：较短的网络搜索查询、从聊天机器人对话模板得出的较长问题以及患者向其医疗团队提出的问题（患者呼叫）。查询与去识别化的 PHR（来自 1,945 个池）进行匹配。 Gemini 响应是在 (1) 没有 PHR 背景的情况下生成的； (2) 人口统计、病情和药物的基本概述； (3)具有完整、广泛的临床记录。为了进行评估，我们利用了现有的评级框架 (SHARP)，并针对解释 PHR 时的特定错误模式开发了一个新框架。使用自动评估者对整组进行评估，并使用临床医生对子集进行评级 (n=95)，两组评估者都了解完整的 PHR 背景。我们发现 PHR 数据对所有问题类型的答案的有用性都有显着提高（p < 0.001，配对 t 检验）。我们还观察到答案的安全性、准确性、相关性和个性化方面的潜在收益。我们的 PHR 评估框架进一步确定了法学硕士对复杂 PHR 特定方面的理解差距，例如时间迷失和罕见但有意义的虚构。这些结果表明 PHR 数据有可能帮助具有广泛用户需求的人们；并提供一个框架，用于根据 PHR 背景监控法学硕士答案中的差距。这项研究激发了进一步的工作，以评估和实现用户通过了解他们的健康记录所获得的潜在好处。