差分隐私保护:k-prototype聚类提升混合数据可用性

需积分: 32 2 下载量 65 浏览量 更新于2024-08-06 收藏 2.93MB PDF 举报
"基于k-prototype聚类的差分隐私混合数据发布算法旨在解决在保护个人隐私的同时保持数据可用性的问题。该算法应用在非交互式数据发布场景中,通过引入差分隐私保护技术来处理数据集,使得研究人员能够在不侵犯个人隐私的前提下进行数据分析。 差分隐私是一种统计学上的隐私保护模型,它通过在数据发布时添加随机噪声来确保单个个体的信息无法被确定。在此算法中,数据管理者首先改进了k-prototype聚类算法,这是一种用于处理混合数据(包含数值型和分类型属性)的聚类方法。改进的关键在于针对不同数据类型选择不同的属性差异度计算方式,使得数值型和分类型属性都能得到适当的考虑。这样,算法可以将数据集中相关性强的记录归为同一类别,从而降低差分隐私的敏感度。 接下来,算法利用聚类中心值,并结合差分隐私保护技术来处理数据记录。对于数值型属性,采用Laplace机制,这种机制通过添加Laplace分布的噪声来模糊原始数据,以达到隐私保护的效果;而对于分类型属性,算法使用指数机制,它能够有效地处理离散数据,同样能保证隐私性。 在隐私分析方面,该算法从差分隐私的基本概念和组合性质两个角度进行了证明,确保了算法的隐私保护能力。这表明即使多次查询,个体信息仍然受到保护,不会泄露过多个人信息。 实验结果显示,提出的算法能够在加入噪声的同时显著提高数据的可用性,这意味着研究人员能够在保护隐私的前提下进行有效的数据挖掘和分析。这种方法对于平衡隐私保护与数据利用的需求具有重要意义,尤其在医疗、金融等对数据隐私要求高的领域。 关键词:差分隐私,混合数据集,k-prototype聚类,数据发布,Laplace机制,指数机制 文献标志码:A 中图分类号:TP309"