非等距直方图发布:差分隐私新方法

1 下载量 72 浏览量 更新于2024-08-28 收藏 1.41MB PDF 举报
"该文提出了一种基于差分隐私的非等距直方图发布方法,旨在解决传统差分隐私直方图发布的‘重拖尾’、‘零桶’问题,以及数据量差异导致的隐私保护不均衡问题。通过经验分布函数构建非等距直方图,再结合差分隐私技术添加噪声,最后根据组距调整隐私预算,以增强数据的隐私保护。实验表明这种方法能更好地反映数据分布特征,提高不同数据段的隐私性。" 差分隐私是一种重要的隐私保护技术,它通过添加随机噪声到统计查询的结果中,使得攻击者无法确定特定个体是否参与了数据集,从而保护个人隐私。在直方图发布场景下,差分隐私常用于保证每个数据桶的计数值在添加噪声后仍然保持一定的准确性,同时提供隐私保障。 传统的差分隐私直方图发布方法通常采用等距划分,这可能导致数据分布不均匀时的问题。例如,“重拖尾”现象是指直方图在数据分布稀疏的区域过度延伸,而“零桶”则是指某些区间内没有数据但直方图仍设置了桶。这些问题会降低直方图反映数据真实分布的能力。 针对这些挑战,文中提出的方法引入了非等距直方图。非等距直方图可以根据数据的分布特性,如稀疏性,自适应地调整每个桶的宽度。通过这种方式,可以更准确地捕捉数据的密集和稀疏区域,减少“重拖尾”和“零桶”现象。 在非等距直方图的基础上,文章采用了差分隐私保护技术,特别是拉普拉斯机制。拉普拉斯机制是差分隐私中常用的噪声添加策略,它在每个数据桶的计数值上添加符合拉普拉斯分布的噪声,以达到隐私保护的目的。然而,每个桶的敏感度(信息量)可能不同,因此,文章进一步提出了根据组距大小为每个桶分配隐私预算的策略。这样,对于包含更多数据的宽桶,可以分配更大的隐私预算,从而提高其隐私保护强度。 实验结果验证了所提方法的有效性,它在差分隐私保护下,能够更好地保留数据分布的细节,提高直方图的准确性,并增强了不同数据段的隐私性。这种方法对于处理大规模数据集和复杂数据分布的隐私保护问题具有重要的实践意义。