差分隐私保护:k-prototype聚类提升混合数据可用性
需积分: 32 193 浏览量
更新于2024-08-06
收藏 2.93MB PDF 举报
"基于k-prototype聚类的差分隐私混合数据发布算法旨在解决在保护个人隐私的同时保持数据可用性的问题。该算法应用在非交互式数据发布场景中,通过引入差分隐私保护技术来处理数据集,使得研究人员能够在不侵犯个人隐私的前提下进行数据分析。
差分隐私是一种统计学上的隐私保护模型,它通过在数据发布时添加随机噪声来确保单个个体的信息无法被确定。在此算法中,数据管理者首先改进了k-prototype聚类算法,这是一种用于处理混合数据(包含数值型和分类型属性)的聚类方法。改进的关键在于针对不同数据类型选择不同的属性差异度计算方式,使得数值型和分类型属性都能得到适当的考虑。这样,算法可以将数据集中相关性强的记录归为同一类别,从而降低差分隐私的敏感度。
接下来,算法利用聚类中心值,并结合差分隐私保护技术来处理数据记录。对于数值型属性,采用Laplace机制,这种机制通过添加Laplace分布的噪声来模糊原始数据,以达到隐私保护的效果;而对于分类型属性,算法使用指数机制,它能够有效地处理离散数据,同样能保证隐私性。
在隐私分析方面,该算法从差分隐私的基本概念和组合性质两个角度进行了证明,确保了算法的隐私保护能力。这表明即使多次查询,个体信息仍然受到保护,不会泄露过多个人信息。
实验结果显示,提出的算法能够在加入噪声的同时显著提高数据的可用性,这意味着研究人员能够在保护隐私的前提下进行有效的数据挖掘和分析。这种方法对于平衡隐私保护与数据利用的需求具有重要意义,尤其在医疗、金融等对数据隐私要求高的领域。
关键词:差分隐私,混合数据集,k-prototype聚类,数据发布,Laplace机制,指数机制
文献标志码:A
中图分类号:TP309"
2021-03-09 上传
2020-08-28 上传
2024-05-30 上传
点击了解资源详情
2023-08-05 上传
2023-04-25 上传
2022-07-13 上传
2024-10-03 上传
weixin_38736760
- 粉丝: 5
- 资源: 980
最新资源
- C语言数组操作:高度检查器编程实践
- 基于Swift开发的嘉定单车LBS iOS应用项目解析
- 钗头凤声乐表演的二度创作分析报告
- 分布式数据库特训营全套教程资料
- JavaScript开发者Robert Bindar的博客平台
- MATLAB投影寻踪代码教程及文件解压缩指南
- HTML5拖放实现的RPSLS游戏教程
- HT://Dig引擎接口,Ampoliros开源模块应用
- 全面探测服务器性能与PHP环境的iprober PHP探针v0.024
- 新版提醒应用v2:基于MongoDB的数据存储
- 《我的世界》东方大陆1.12.2材质包深度体验
- Hypercore Promisifier: JavaScript中的回调转换为Promise包装器
- 探索开源项目Artifice:Slyme脚本与技巧游戏
- Matlab机器人学习代码解析与笔记分享
- 查尔默斯大学计算物理作业HP2解析
- GitHub问题管理新工具:GIRA-crx插件介绍