基于差分隐私的不确定数据频繁项集挖掘算法:有效性与隐私保护

需积分: 15 0 下载量 66 浏览量 更新于2024-09-08 收藏 976KB PDF 举报
本文研究了一种名为"FIMUDDP(frequent itemsets mining for uncertain data based on differential privacy)"的算法,它针对在不确定数据中挖掘频繁项集并保护用户隐私的问题。在当前环境下,不确定数据中可能包含用户的敏感信息,如果直接处理这些数据,攻击者可能会利用背景信息推断个人隐私。因此,研究者提出了一个基于差分隐私的解决方案。 差分隐私是一种常用的技术,用于在数据分析过程中提供个体隐私保护。它通过在数据发布时添加随机噪声,使得攻击者即使掌握部分信息,也无法准确地推断出单个个体的数据。FIMUDDP算法巧妙地结合了差分隐私的指数机制和拉普拉斯机制,这两个机制分别通过指数分布和拉普拉斯分布的随机扰动来确保结果的隐私保护。指数机制适用于对查询结果计数的场景,而拉普拉斯机制则用于数值型属性的扰动。 该算法的目标是从不确定数据集中挖掘出期望支持度下的前K个最频繁项集,同时确保挖掘过程满足差分隐私的要求。这涉及到对数据采样的精确控制,以及如何在保证隐私的前提下,尽可能保持数据的有用性。通过理论分析和实验评估,研究者证明了FIMUDDP算法的有效性,即它能够在保护用户隐私的同时,准确地挖掘出频繁项集,这对于实际应用中的数据挖掘和隐私保护至关重要。 此外,研究团队由丁哲、秦臻和秦志光三位专家组成,他们分别来自电子科技大学信息与软件工程学院,他们的研究领域涵盖了机器学习、信息安全、网络测量、无线传感器网络、移动社交网络、信息和网络安全等多个方向,这体现了他们在复杂技术环境下的跨学科合作。 本文的研究工作还得到了多个基金项目的资助,包括国家自然科学基金、四川省科技计划项目以及国家自然科学基金委员会和广东省人民政府自然科学联合基金的重点项目。这些基金支持表明了学术界对差分隐私在不确定数据处理中作用的认可,以及对保护用户隐私问题的重视。 FIMUDDP算法为不确定数据的频繁项集挖掘提供了一种隐私保护框架,是当前数据挖掘领域中一个重要的技术创新,对于促进数据共享与隐私保护之间的平衡具有重要意义。