开发者生态
evening
美国禁止人口普查数据中的差异隐私
2026-06-13
1 阅读
nl
上周,美国商务部发布命令,宣布将禁止在人口普查局和经济分析局发布的所有统计产品中“注入噪音”。它是什么意思,为什么你应该关心?背景统计产品是从秘密数据集中发布的一堆数字。通常,该数据集包含机密信息,并且重要的是数字不会泄露该信息。美国人口普查就是一个众所周知的例子:统计数据是公开的,但美国居民个人填写的每张表格的内容必须保密。科学家们开发了多种技术,可用于发布有用的统计数据,同时保护原始数据的隐私。这个领域在统计界被称为披露避免。以下是其中一些技术。抑制:删除未通过某些阈值的数据(例如,如果人数低于 5,我们不会发布)。粗化(或概括):使数据属性不太精确(例如,将县转换为州,将出生日期转换为年龄范围等)。采样:从数据集中随机删除一些记录。交换:从不同记录中获取属性并随机交换它们。贡献边界:通过限制其最大影响力,确保单个人不会对统计数据做出“过多”贡献。噪声添加:在统计数据中添加随机数以隐藏其真实值。其中一些技术结合起来可以实现称为差异隐私的定义。这个定义有很多很好的基本特性,被广泛认为是科学家隐私保护的黄金标准。为了实现这一目标,科学家通常依靠贡献边界和仔细校准的噪声添加相结合。从1990年到2010年,美国人口普查局主要依靠十年一次的人口普查。然后,他们意识到这种技术实际上非常不安全,并且使用已发布的统计数据重建个人记录非常容易。这很糟糕,因为联邦法律要求该局对这些记录保密。因此,他们尝试了几种替代方法,并决定在 2020 年人口普查中采用差分隐私:这是使统计数据最有用的方法,同时防止这些攻击。值得重复的是:没有选择差异隐私是因为数学很好并且令人信服 1 。之所以选择它,是因为在减轻攻击的不同选项中,它是保留最多实用性的选项。选择其确切的隐私参数并不是因为它们提供了坚如磐石的可证明的保证,而是因为它们在达到可接受的隐私保护水平的同时从数据中榨取了最大的有用性。遗憾的是,“在新发现的隐私限制下保留了最大的效用”并不意味着“保留了与 2010 年人口普查一样多的效用”:数字变得不那么准确,并且不准确之处变得更加透明,因此无法忽视。这让不少人非常愤怒。人口统计学家和社会科学家不能再忽视他们所使用的数据是噪声数据。这需要他们对这些数据的概念化和处理方式进行重大转变。那些使用人口普查数据来实际重建记录的人已经无法再这样做了。人口统计学家承认这是常见做法。这也是一个公开的秘密,这是政治活动人员所为,是不公正划分选区的一部分。唷,这有很多背景。命令说了什么?政府现已决定,噪音注入不再是可接受的避免披露技术。该命令明确针对差异隐私,但似乎也影响了涉及随机性的其他技术:文本明确提到粗化应始终是首选,而将抑制作为“最后的手段”。我不知道为什么这个命令如此具体。也许他们想确保在美国人口普查工作的科学家不能在不称其为差异隐私的情况下仍然使用类似的技术?该命令还谨慎地表示,“不得解释为与任何宪法、法规、监管或其他法律条款相冲突”。因此,围绕这些统计产品的保密义务仍然适用。这在实践中意味着什么?其后果对于公用事业或隐私,甚至可能两者都是可怕的。很难低估这一点:与过去相比,未来的统计发布要么毫无用处,要么极其不安全。首先,从避免披露工具箱中拿走有用的工具总是会导致更痛苦的隐私/实用性权衡。该研究领域的重点是更好地理解和量化隐私风险,并开发更好的工具来减轻这种风险,同时保留实用性。对于统计