隐私保护聚类算法:新方法与优化

需积分: 9 2 下载量 182 浏览量 更新于2024-09-06 收藏 388KB PDF 举报
"保序加密的新型隐私保护聚类算法。该算法旨在解决传统隐私保护聚类算法在通信复杂度上的瓶颈,同时保持高精度和数据隐私性。 在数据挖掘过程中,聚类是一种无监督学习方法,用于发现数据的内在结构和类别。K-均值和K-中心点是两种常见的聚类算法。K-均值以其简单和效率受到广泛应用,但它对异常值或噪声敏感。相比之下,K-中心点算法更健壮,因为它不受离群点的影响,更适合处理含有噪声的数据集。 在隐私保护的背景下,传统的数据挖掘方法可能暴露用户的敏感信息。为了克服这个问题,研究人员提出了数据干扰和查询限制两类策略。数据划分,特别是垂直划分,是一种有效的查询限制策略。在这种方法中,原始数据被不同实体持有,通过协作计算来挖掘信息,从而减少隐私泄露的风险。 Vaidya等人提出的算法结合了加密技术和安全多方计算,以在K-均值聚类中保护隐私。然而,由于K-均值的局限性,Zhan提出了基于隐私保护的K-中心点算法,该算法在垂直划分的数据集上运行,能够保持挖掘结果的准确性并保护数据隐私。尽管如此,Zhan算法的通信复杂度较高,限制了其在大规模数据集上的应用。 针对这一挑战,本文提出的算法创新性地融合了保序加密和秘密同态加密技术。保序加密允许在加密数据上进行排序操作,而秘密同态加密则支持对加密数据进行计算,且结果仍保持加密状态。这种结合使得算法能够在不揭示原始数据的情况下进行聚类计算,降低了通信复杂度,提高了处理大数据集时的效率,同时保持了良好的隐私性和准确性。 通过与其他隐私保护聚类算法的对比,实验结果显示,本文的算法在降低通信复杂度、保护隐私以及保持聚类准确性方面具有显著优势。这表明该算法在实际应用中具有广阔前景,特别是在需要处理大量敏感数据的场景,如医疗记录分析、金融交易挖掘等。 本文的研究对隐私保护的聚类挖掘领域做出了重要贡献,提供了一种新的解决方案,有效地平衡了隐私保护、计算效率和挖掘质量之间的关系。未来的工作可能包括优化算法以适应更多类型的数据分布和改进加密技术以进一步提升性能。"