基于Hadoop的差分隐私保护大数据挖掘方案设计
需积分: 30 182 浏览量
更新于2024-07-17
4
收藏 1.3MB DOCX 举报
大数据差分隐私保护方案设计与实现
大数据时代,数据隐私保护变得越来越重要。差分隐私技术作为一种新型的隐私保护方法,具有坚实的数学基础和对抗新型攻击的能力,逐渐受到学界的认可。然而,大数据中的数据挖掘也需要保护隐私。本文将差分隐私技术与大数据中的数据挖掘进行结合,设计出在Hadoop大数据平台上基于数据挖掘的差分隐私保护方案。
本文采用数据挖掘中常用聚类K-means算法,并结合差分隐私技术,借由Hadoop的Mapreduce并行框架实行。为了避免传统的随机选择初始中心点的弊端,采用平均划分个数据集的方法得到初始中心点。迭代中在每个聚簇的属性向量和与数据总数目中加入Laplace噪声后计算聚类中心点,以此实现差分隐私保护。
在实验中,通过设置两组对比实验,评估了本文改进的算法在结果可用性上的一定改善。通过设置不同的隐私预算参数,在相同聚类个数下采用F-measure指标衡量最终聚类可用性。同时,通过设置不同聚类个数,与原始聚类算法的对比评价聚类结果准确性,发现不同的聚类数目下对聚类的准确率影响较小,但数目增多时,仍会使准确率下降。
本文的主要贡献在于:
1. 结合差分隐私技术与大数据中的数据挖掘,设计出基于Hadoop大数据平台的差分隐私保护方案。
2. 采用K-means算法,并结合差分隐私技术,实现了差分隐私保护。
3. 通过实验评估了本文改进的算法在结果可用性上的一定改善。
本文的结论是:大数据差分隐私保护方案设计与实现可以满足大数据时代的隐私保护需求,为大数据应用提供了坚实的隐私保护基础。
知识点:
1. 差分隐私技术:一种新型的隐私保护方法,具有坚实的数学基础和对抗新型攻击的能力。
2. 数据挖掘:大数据中的数据挖掘可以发掘出隐藏在海量数据背后的潜在模式及规则。
3. K-means算法:一种常用的聚类算法,用于数据挖掘和机器学习。
4. Hadoop大数据平台:一个基于分布式计算的大数据处理平台,提供了高效、可靠的数据处理能力。
5. Laplace噪声:一种常用的噪声添加方法,用于实现差分隐私保护。
6. F-measure指标:一种评估聚类结果可用性的指标。
7. 隐私预算参数:用于控制差分隐私保护的参数,影响着差分隐私保护的效果。
因此,本文的研究结果为大数据时代的隐私保护提供了重要的参考价值。
2020-09-18 上传
2022-05-29 上传
2022-05-31 上传
2024-04-25 上传
2022-11-03 上传
2022-06-06 上传
2021-10-01 上传
种花家的兔纸
- 粉丝: 1
- 资源: 1
最新资源
- C++ Qt影院票务系统源码发布,代码稳定,高分毕业设计首选
- 纯CSS3实现逼真火焰手提灯动画效果
- Java编程基础课后练习答案解析
- typescript-atomizer: Atom 插件实现 TypeScript 语言与工具支持
- 51单片机项目源码分享:课程设计与毕设实践
- Qt画图程序实战:多文档与单文档示例解析
- 全屏H5圆圈缩放矩阵动画背景特效实现
- C#实现的手机触摸板服务端应用
- 数据结构与算法学习资源压缩包介绍
- stream-notifier: 简化Node.js流错误与成功通知方案
- 网页表格选择导出Excel的jQuery实例教程
- Prj19购物车系统项目压缩包解析
- 数据结构与算法学习实践指南
- Qt5实现A*寻路算法:结合C++和GUI
- terser-brunch:现代JavaScript文件压缩工具
- 掌握Power BI导出明细数据的操作指南