用于训练中风和糖尿病临床模型的数据集“糟糕得可笑”

Kaggle 上的一个数据集据称显示了中风患者，其中包括兰博和其他名人的西尔维斯特·史泰龙的图像。澳大利亚昆士兰科技大学统计学家阿德里安·巴尼特 (Adrian Barnett) 浏览在线图像数据集，指出了一些熟悉的面孔。西尔维斯特·史泰龙饰演兰博，然后再次走上红地毯。 “这太荒谬了，”巴内特说。乔治·克鲁尼、安吉丽娜·朱莉和丹尼尔·克雷格都不止一次出现，而且通常都使用相同的形象。 “你可以看到，”巴尼特说，“这只是一个糟糕得可笑的数据集。”这个特殊的数据集收集在一个名为“droopy”的文件夹中，并托管在一个名为 Kaggle 的开源存储库中，它是《科学报告》中发表的一篇论文的基础——不是作为寻找名人的游戏，而是作为用于早期检测中风的预测临床模型的训练集。这篇论文是巴尼特和他的博士研究的一个更广泛问题的最新例子。学生 Alexander Gibson 已使用 Kaggle 进行了记录，Kaggle 归 Google 所有，托管用户上传的数据集，研究人员和机器学习从业者可以使用这些数据集来构建预测模型。通过检查另外两个关于中风和糖尿病的 Kaggle 数据集（这两个数据集都包含表格患者数据），Gibson 和 Barnett 追踪了数据如何通过科学文献以及在某些情况下进入临床使用。他们的工作在二月份发布到 medRxiv 的预印本中进行了描述，已经导致使用这些可疑数据集的论文被多次撤回。吉布森说，在为预印本的工作搜索了如此多有问题的数据集后，《科学报告》的论文很容易找到。 “我刚刚在谷歌学术中搜索了‘Kaggle’和‘中风’，”吉布森说。 “这只是最先出现的问题之一。”这篇论文于 12 月发表，根据该论文，使用两个旨在显示中风患者图像的数据集来训练模型来实时检测中风并促进“快速临床干预”。其中一个数据集已从 Kaggle 中删除。在仍然在线的“droopy”数据集中，巴尼特和吉布森通过反向图像搜索发现，许多图像都描绘了贝尔麻痹症，旁边还有儿童和婴儿（以及名人）的图像。在 Kaggle 上，创建者声称该数据集包含 1024 张“不同患者”的图像，尽管存在明显的重复，并表示这是出于教育目的。 “这显然不适合严肃的研究，在伦理和科学上都是不合适的，”巴尼特说。 “鉴于基本检查，没有理由应该使用它。”在我们联系施普林格·自然之后，该杂志在论文中添加了编辑注释，警告读者对文章中数据的可靠性的担忧，并且可能会在他们的调查之后采取进一步的编辑行动。该文章的通讯作者埃及曼苏拉大学的阿拉·穆罕默德没有及时回复我们的发表请求。 Kaggle 之前曾面临过数据可靠性方面的审查。去年 12 月，The Transmitter 报道称 Springer Nature 已对近 40 家出版物采取了行动，这些出版物在未经同意或验证的情况下使用儿童面部数据集训练模型。对于研究人员来说，这一最新发现只是一个问题的一个例子，他们说这个问题可能会扩展到多个在线数据存储库中的数千篇论文。吉布森在为他的博士学位搜索临床预测模型数据集时首次遇到了有问题的数据。他很快找到了 Kaggle 以及那里托管的大量数据集。 “然后我想，‘它们从哪里来？’”他说。 “一直寻找，一直寻找，但根本没有任何信息。”为了描述这个问题，Gibson 和 Barnett 重点研究了两个数据集，一个关于中风，一个关于糖尿病，并确定了 124 篇已发表的论文，这些论文基于这些数据集构建了模型。他们在 medRxiv 上报道称，他们两人都未能通过一份检查表，该检查表涵盖了临床预测模型中数据来源的人员、时间、地点和原因。吉布森说，任何对数据集进行基本检查的人都会立即发现它们看起来不像真实数据。他们的发现在四月份的《自然》新闻报道中进行了报道，详细介绍了数据集如何包含数千个重复的患者观察结果，并且几乎没有缺失值，这在包含真实世界患者数据的数据集中是不可能的。当 Gibson 和 Barnett 在 PubPeer 上提出这些担忧时，一篇利用 Kaggle 数据的论文的作者之一通过引用其他 25 篇使用相同数据集的文章进行了回应。通讯作者纳伊姆·拉姆赞 (Naeem Ramzan) 写道：“它在当前文献中的持续存在表明，它仍然是该研究领域实验评估的普遍接受的资源。”这篇发表在《科学报告》上的论文于 4 月份被撤回，因为作者无法提供有关该数据的出处或准确性的信息。

订阅66必读