用于可扩展统计合理数据挖掘的少样本重采样

arXiv:2606.11235v1 发布类型：新摘要：知识发现的关键步骤是对数据挖掘结果的评估。在一些应用中，包括模式挖掘、图形分析等，此步骤包括评估结果的统计显着性，以避免仅由于数据中的噪声或随机波动而导致的虚假发现。虽然针对某些特定应用开发了专门的程序，但基于重采样的方法得到了广泛使用，特别是对于无法得出分析结果的复杂分析。然而，当前基于重采样的方法需要生成和分析数千个重采样数据集，因此对于大型数据集或计算密集型分析来说是不切实际的。在本文中，我们介绍了FewRS，这是一种简单有效的基于重采样的方法，用于评估数据挖掘结果的统计显着性，并严格保证错误发现的概率。我们的方法可以用于应用基于重采样的方法的每种情况。 FewRS 建立在我们对代表数据挖掘结果质量的测试统计的最高偏差的新颖约束的推导之上。我们证明 FewRS 需要生成和分析极少量的重采样数据集，从而形成具有广泛适用性的高度可扩展的方法。我们在模式挖掘和网络分析等常见任务上测试我们的方法。在所有情况下，与最先进的技术相比，我们的方法可将运行时间减少多达两个数量级，同时保持高统计能力，从而能够在大规模现实世界数据集上对数据挖掘结果进行统计验证。

订阅66必读