智能AI morning

使用开放权重大语言模型从脑 MRI 报告中自动提取结构化信息

2026-06-09 1 阅读 Kaouther Mouheb, Amos Pomp, Antoine Manenti, Romy de Haan, Farog Faghir, Joy Martens, Harro Seelaar, Francesco Mattace-Raso, Meike W. Vernooij, Frank J. Wolters, Stefan Klein, Esther E. Bron
arXiv:2606.07721v1 公告类型:新 摘要:目标:从自由文本放射学报告中自动提取数据可以实现大规模研究,但很少有研究评估大型语言模型 (LLM) 在荷兰神经放射学报告中的性能。方法:我们分析了来自一家三级记忆诊所(2016-2021 年)的 947 份脑部 MRI 报告,这些报告由顾问神经放射学家撰写。受过训练的医学生注释了三十个变量; 100 份报告经过双重注释,以评估评估者间的可靠性。我们使用不同的语言(荷兰语与英语翻译)和使用不同示例选择策略的少量提示来评估开放权重 LLM LLaMA 3.1 的性能。使用分类变量的平衡准确性、计数的准确性和平均绝对误差以及自由文本的文本相似性来评估性能。指标是根据 947 份报告中的 10 个随机部分计算得出的。结果:LLaMA 3.1 在视觉评分方面表现出较高的零样本性能(平均值 [95%-CI]):内侧颞叶萎缩:左侧 90% [77-100%],右侧 96% [94-99%],全局皮质萎缩:87% [83-91%],Fazekas:94% [93-96%]。检测到微出血的准确率为 93% [92-95%],检测到梗塞的准确率为 82% [80-84%]。病灶位置的文本相似度达到0.95 [0.95-0.96]。数值变量的表现较低:微出血数量为 80% [78-82%],梗塞数量为 66% [63-68%]。英文翻译产生了类似的结果。几次提示提高了数值变量的性能,使用基于结构相似性的选择,微出血达到 92% [90-93%],梗塞达到 81% [77-85%]。结论:LLaMA 3.1 显示出从荷兰神经放射学报告中提取数据的强大潜力。少样本提示增强了数值变量的性能,而特定位置变量的挑战仍然存在。