大数据环境下的并行K-means算法:隐私保护与离群点处理
需积分: 18 178 浏览量
更新于2024-09-07
收藏 1.54MB PDF 举报
本文主要探讨了在大数据环境下,为了保护隐私并处理离群点,研究人员基于MapReduce计算框架设计了一种新的并行K-means算法。K-means是一种常见的聚类算法,但在大规模数据处理时,隐私保护成为一个关键问题。差分隐私作为一种强大的隐私保护机制,通过添加噪声来确保个体数据在聚合统计结果中不会被识别,从而保持数据主体的匿名性。
算法的核心在于并行化处理过程。首先,通过并行计算每个数据点与其邻域点之间的欧氏距离矩阵,同时计算最近邻超球的半径,这样可以有效地找出离群点的判定阈值。这个阈值有助于在后续的聚类过程中区分正常数据点和可能的异常值。然后,在这个保护隐私的基础上,算法选择初始的聚类中心,并进行并行的聚类步骤。这一系列操作都在MapReduce模型下完成,充分利用了分布式计算的优势,提高了算法的执行效率。
理论分析部分,论文证明了整个并行K-means算法严格遵守ε-差分隐私原则,这意味着即使攻击者拥有整个数据库,也无法确定某个个体的数据是否参与了计算,从而极大地保护了数据隐私。实验结果显示,这种算法在实现隐私保护的同时,聚类结果具有良好的可用性和准确性,且在性能上表现出色,优于同类其他隐私保护的K-means算法。
此外,该研究还关注了作者背景,樊一康专注于信息安全和数据挖掘,而刘建伟教授则在信息安全、网络安全和密码学等领域有所建树,他们的合作为算法的开发提供了深厚的专业基础。
这篇论文提出的并行K-means算法在大数据环境下的隐私保护和离群点处理方面展现出了创新性和有效性,为实际应用中的大规模数据聚类提供了一种兼顾隐私和效率的新方法。
2021-10-17 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_39840650
- 粉丝: 411
- 资源: 1万+
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码