改进的l-多样性：隐私保护大数据发布的可扩展k-匿名方法的研究

197 浏览量更新于2024-01-17 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报改进的l-多样性：用于隐私保护大数据发布的布里杰什湾Udai Pratap Rao Mehta计算机工程系，S。诉印度苏拉特国立技术学院阿提奇莱因福奥文章历史记录：收到2019年2019年7月4日修订2019年8月10日接受在线预订2019年8月14日保留字：可扩展k-匿名化l-多样性MapReduce匿名化隐私保护大数据发布大数据隐私A B S T R A C T在大数据分析时代，数据所有者更加关注数据隐私。数据匿名化方法，如k-匿名、l-多样性和t-封闭性，被长期用于保护已发布数据中的隐私。然而，这些方法不能直接应用于大量的数据。MapReduce和Spark等分布式编程框架用于大数据分析，这给隐私保护数据发布带来了更多挑战。最近，我们在文献中发现了一些可扩展的隐私保护大数据发布方法，其中大多数是基于k-匿名和l-多样性的。然而，这些方法需要一个显着的改进，以达到现有的隐私保护数据发布方法的水平，因此，我们提出了改进的可扩展的l-多样性（ImSLD）的方法，这是改进的可扩展的k-匿名性（ImSKA）的可扩展的匿名化。我们的方法是基于可扩展的k-匿名化，使用MapReduce作为编程范式。我们使用扑克数据集和扑克数据集的合成大数据版本来测试我们的方法。结果分析表明，由于MapReduce迭代次数较少，因此在运行时间方面有了显着改善，并且与现有方法相比，还表现出更低的信息丢失，同时由于初始等价类中记录的紧密排列而©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍大数据具有3V（Volume，Velocity，Variety）的特点，传统的数据处理方法难以处理，因此，Hadoop、MapReduce、Spark等分布式编程框架被用来处理大数据。通常，使用此类框架处理的数据是匿名形式的，但是，使用多个来源收集和处理数据会导致重新识别数据中存在的个体（Mehta和Rao，2016）。因此，隐私是大数据分析的主要关注点之一在与隐私保护大数据发布（PPBDP）相关的文献中，我们发现了一些方法，如可扩展的k-分析（SKA）（Mehta和Rao，2017，2018），基于MapReduce的分析（MRA）*通讯作者。电子邮件地址：brijesh.b. ieee.org（B.B. Mehta）。沙特国王大学负责同行审查制作和主办：Elsevier（Zakerzadeh等人，2015），可扩展子树匿名化的混合方法（Zhanget al.，2014）和两阶段自上而下的专业化（TPTDS）（Zhang等人，2014），这可以适用于大数据（Jain等人，2016年; Zhang等人，2014年）。所有这些方法都基于k-匿名化（Samarati和Sweeney，1998 a，b），其被认为是最流行的隐私保护数据发布方法之一并且适合于大数据分析（Mehta等人，2016年）。k-匿名遭受记录链接攻击（Fung等人，2010年），当数据集中的敏感值之间的多样性不足时。因此，l-多样性（Machanavajjhala等人，2006年，2007年），也被称为隐私超越k-匿名。在k-匿名中，仅考虑数据集的标识（直接或间接）属性进行匿名化，而在l-多样性中，还考虑敏感属性，这使得难以使用Hadoop实现。因此，我们改进和扩展了Mehta和Rao（2017）提出的用于l-分集的SKA方法。1.1. 文件的组织第2节讨论了现有MapReduce隐私保护方法的相关工作。第3节https://doi.org/10.1016/j.jksuci.2019.08.0061319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comðÞð Þð ÞðÞ←←←←←←←←←þ← ðÞ半]小行星1424Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423- 1430讨论我们提出的方法。第4节讨论了实施细节和结果。最后，在第五节中给出了结论和未来的研究方向.2. 相关工作数据匿名化始于k-匿名，由Samarati和Sweeney介绍（Samarati和Sweeney，1998 a，b）。随后，工作扩展到不同类型的数据，如关系数据（LeFevre等人，2005，2006; Nergiz等人，2009;Wong等人，2010）、图形数据（Liu和Terzi，2008; Hay等人， 2008）、流数据（Zakerzadeh和Osborn，2013; Zhou等人， 2009）和值集数据（Xue等人，2012年）。许多匿名化方法，诸如l-多样性（Machanavajjhala等人，2006，2007），t-贴近度（Li等人，2007），d-存在（Nergiz等人，2007 b），c;t-分离（Chawla等人，2005 a，b），差分隐私（Dwork，2006，2007，2008），和多关系k-匿名（Nergiz等人，2007a，b，2009）已经由不同的研究人员提出。匿名化方法可以分为：i隐私保护数据发布（PPDP）或非交互式匿名化，ii隐私保护数据挖掘（PPDM）或交互式匿名化（Cormode和Srivastava，2009;Clifton和Tassa，2013）。PPDP技术以匿名形式发布整个数据集，而PPDM只发布查询的匿名数据。k-匿名性、l-多样性、t-封闭性是一些著名的PPDP技术。d-presence、c-isolation、differential privacy是一些公知的PPDM技术。Mehta等人（2016）找到k-匿名一个很好的候选人，以解决所有3V的通过比较现有的PPDP技术与大数据的所有3V。与PPDP方法的可扩展性相关的文献非常有限（Mehta等人，2019;Sangeetha和Sudha Sadasivam，2019;Canbay等人，2018年）。然而，我们发现一些隐私保护大数据发布（PPBDP）方法是可扩展的，并与分布式编程框架一起工作。两阶段自顶向下专业化（TPTDS）由张等人提出。（ 2014）用于识别目的。因此，在下一次迭代中，每个节点只需要访问那些由其对应的reducer更新的文件。通过这种方式可以消除维护全局文件的负担。然而，多次迭代和文件管理是这种方法的两个主要缺点。随着迭代次数的增加，系统性能降低，使用MapReduce进行文件因此，Mehta和Rao（2017，2018）提出了一种使用MapReduce的可扩展k-Anomalization（SKA）的新方法。SKA是执行蒙德里安的完全相反的方法（LeFevre等人， 2006）算法。在Mondrian和MRA（Zakerzadeh等人， 2015）方法将输入数据集视为单个等价类并划分为子类，直到k-匿名条件成立，而在SKA方法中，数据集被排序并划分为具有相似值的最小可能类，并迭代合并，直到k-匿名条件满足。SKA的改进版本（ImSKA）将在后续章节中详细讨论我们还发现SKA可以推广到l-多样性。因此，我们提出了一种改进的可伸缩l-分集（ImSLD）方法作为对ImSKA的扩展3. 该方法3.1. 改进的可扩展k-分析（ImSKA）在SKA算法中，对输入数据进行排序以生成初始等价类。进一步发现，排序列的排列在初始等价类生成过程中也起着至关重要的作用。因此，我们将数据集的所有列按照唯一值数量的升序排列，唯一值数量最少的列排在第一位，依此类推。以这种方式排序的数据集具有连续行之间的低距离，这导致低信息损失，因为它是根据每个等价类中每个属性（-列）的最大值和最小值之间的差异计算的。ImSKA的伪码（Mehta等人，2019）算法在算法1中给出隐私保护方法的一个扩展，自顶向下的Spe，城市化（TDS）提出的冯等。（2007）使用MapReduce框架。进一步观察到，对于较小的k值，TDS方法面临较高的运行时间，而Wang等人（2004）提出的自底向上一般化（BUG）方法对于较高的k值提供较高的运行时间。因此，提出了用于可扩展子树匿名化的混合方法，其中基于k的值来选择匿名化方法（Zhang等人， 2014年）。这些方法的主要缺点是数据的分散，其中大数据的大量人群效应未被充分利用，而是变成分布式数据匿名。Zakerzadeh et al.（2015）提出了多维k-匿名化方法，LeFevre et al.（2006）算法用于 MapReduce 框架。提出了两种基于 MapReduce 的匿名化（MRA）方法：第一种方法将给定的数据看作一个等价类，然后对每个属性的元组进行分裂，直到新产生的类满足k-匿名性条件。在每次迭代之后，数据文件根据新的等价类进行更新，并作为下一次迭代的输入。需要在所有节点之间共享全局文件以在每次迭代之后更新等价类信息这个全局文件在每次迭代之后变得越来越大。第二版本的MapReduce的匿名化提出了克服的缺点，其中，而不是生成一个全局文件的所有节点，文件块的生成和分布在所有节点之间。在map- ping步骤中，每个节点将一个唯一的文件id附加到文件的每个部分。用于改进的可缩放k-分析（ImSKA）的算法1过程要求：输入数据;k确保：输入数据1的GNCPIMSKA2：INPUT DATA从分布式文件系统中获取数据文件3：QID DATA过滤来自输入文件的准标识符（INPUTDATA）4：QID DATA按照列中唯一值的数量的升序重新排列列5：QID DATA排序（QID DATA）6：GROUP QID组QID DATA中的所有属性QID数据7：对于组QID中的每个组，8：记录计数（组QID）9：EQ类组QID记录计数10：结束11：MRGD EQ CLASS大小的空数组EQ CLASS12：对于EQ中的每一行上课13：MRGD EQ CLASS←MRGD EQ CLASS←EQ CLASS14：如果MRGD EQ CLASS ≥Pkbf，则15：NCPEQ NCP MRGD EQ CLASS16：MRGD EQ CLASS用EQ CLASS大小的空数组重新初始化←←←←←þ半]←←←←←←←←←þ←←←þ←þ←þ←þ半]← ðÞ17：如果结束18：结束第19章：一个女人B.B. Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423-143014254：GROUP DATA组中的INPUT DATAby QID属性输入数据5：对于GROUP DATA中的每个组，20：对于NCP EQ中的每行，21：GNCP GNCP NCP EQ22：结束23：GNCP GNCP=QID DATA中的记录总数24：将GNCP值打印为%信息丢失25：结束程序我们使用Apache Pig来实现ImSKA。算法1以算法形式示出了该过程。在步骤 2 中，从分布式文件系统加载输入文件（ INPUTDATA）。k-匿名只需要QID，因此，QID从INPUT DATA中过滤出来并存储在名为，QID步骤3中的数据（QID DATA）QID DATA的列在步骤4中以每列中唯一值的数量的升序重新排列QID DATA然后分别在步骤5和步骤6中相对于其所有属性被分类和分组步骤7至步骤10生成初始等价类（EQ CLASS），该类中记录的计数值。将步骤12至步骤16的EQ CLASS合并为合并的等价类（MRGD EQ CLASS），并且在此还检查MRGD EQ CLASS（MRGD EQ CLASS）的记录计数值是否大于k的值。如果k-匿名条件成立，则MRGD EQ CLASS的NCP值使用等式2计算。（3）用大小为EQ CLASS的空数组重新初始化MRGD EQ CLASS。在随后的步骤中，使用等式2计算全局NCP（GNCP）。（4）对于整个数据集，以信息损失百分比表示。SKA和ImSKA技术之间的主要区别在于初始等价类中属性（列）的排列。在SKA算法中，对输入文件进行排序，并生成初始等价类。如果我们以这样一种方式对列进行后置处理，即两个连续记录（行）之间的距离保持最小，则信息损失可能最小。3.2. 改进的可扩展l-分集（ImSLD）我们观察到ImSKA可以扩展到l-分集，因此，我们提出了一种改进的l-分集（ImSLD）方法PPBDP。ImSLD的伪码在算法2中给出k-匿名性与l-多样性的主要区别在于对敏感属性的考虑在k-匿名中，只有QID用于生成等价类，因此，如果一个表包含至少k个不同记录的相似QID值，则该表是k在l-多样性中，利用QID和敏感属性生成等价类.因此，一个表首先是k-匿名的，然后我们需要检查每个等价类中的l个不同的敏感值。如果一个表的不同记录的敏感属性中至少有l个不同的值，则该表被称为l用于改进的可缩放l-分集（ImSLD）的算法2过程Require：INPUT DATA;k确保：输入数据的GNCP值1：IMSLD程序2：INPUT DATA从分布式文件系统中获取数据文件3：INPUT DATA按照其中唯一值的数量的升序重新排列具有QID属性的列6：记录计数（组数据）7：EQ班级组数据记录计数8：结束9：MRGD EQ CLASS大小为EQ CLASS的空数组10：SEN2011：SEN VAL空数组12：对于EQ中的每行上课13：MRGD EQ CLASSMRGD EQ CLASSEQ等级14：敏感数据从合并的等效类（MRGD EQCLASS）中过滤敏感数据15：如果SEN VAL中没有敏感数据，则第16章：你是谁？敏感数据第17章：你是谁？18：如果结束19：如果MRGDEQCLAS[1/2 COUNT]Pk和然后，20：NCP EQ NCP MRGD EQ CLASS21：MRGD EQ CLASS用EQ CLASS大小的空数组重新初始化第22章：你是谁？23：SEN VAL空数组24：如果结束25：结束26：GNCP027：对于NCP EQ中的每一行，28：GNCP GNCP NCP EQ29：结束30：GNCP GNCP=QID DATA中的记录总数31：将GNCP值打印为%信息丢失32：结束程序我们使用Apache Pig来实现ImSLD。算法2以算法形式示出了该过程。在步骤 2 中，从分布式文件系统加载输入文件（ INPUTDATA）。在步骤3中，以具有QID属性的每列中的唯一值的数量的升序重新排列INPUT DATA的列然后，在步骤4中，相对于QID属性对输入数据进行分组步骤5至步骤8生成初始等价类（EQ CLASS），该类中记录的计数值。将步骤12至步骤25EQ CLASS合并为合并的等价类（MRGD EQ CLASS），是否MRGD EQ CLASS记录计数值（MRGD EQ CLASS）大于k值，并且在此检查灵敏值计数SEN大于或等于l。如果k-匿名性和l-多样性条件成立，则MRGD EQ CLASS的NCP值使用等式2来计算。（3），MRGD EQ CLASS以及SEN VAL用大小为的空数组重新初始化EQ CLASS和SEN CLASS重新初始化为0。在随后的步骤中，使用等式2计算全局NCP（GNCP）（4）对于整个数据集，以信息损失百分比表示。4. 执行细节和结果我们使用3个节点的Hadoop集群，每个节点包括4 GB的RAM和1TB的硬盘。我们使用两种编程语言Apache Pig和Python来实现我们的方法Apache Pig是Hadoop的数据流脚本语言它使数据流语句的编写变得容易，并自动为相应的数据流语句生成映射器和归约器。然而，我们发现使用Pig很难计算NCP，因为它不允许控制流语句。因此，我们处理数据以生成输入-min;M第1页i/1n[X½]小行星1426Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423- 1430pair在Pig中，然后使用Python计算NCP的值。由于匿名化过程，我们在更新某些值时会丢失一些原始为了衡量任何隐私保护数据发布技术的性能，信息损失是被广泛接受的参数。有不同的度量来计算信息损失。我们使用归一化基数惩罚（NCP）作为计算信息损失的指标，因为它提供了与大数据更相关的信息损失百分比。下面给出计算类的NCP和全局NCP的公式（Ghinita等人，（2007年）：数值属性的NCP可以给出为，NCPAnum 公司简介EC的num最大值xA数量EC一个数字1-minAnumFig. 1.基于映射缩减的分析（MRA）的NCP比较（Zakerzadeh等人， 2015），可扩展k-分析（SKA）（Mehta和Rao，2017）和改进的可扩展k-分析（ImSKA）扑克1 M数据集。其中，分子和分母分别表示等价类（EC）和整个数据集分类属性的NCP可以定义为，NCP一只猫中国人民解放军（0;卡容量为 1;卡上显示;否则;一只猫ð2Þ哪里 CA 是的最低共同祖先的allAcat值inEC; card_ca_cat是ca的子树中的叶子数，jA catj是不同A cat值的总数。可以给出EC类在所有拟标识符属性上的NCP因为，A jNCP无菌;无菌3天其中m是QID的数量NCP_t_n给出了每个类的信息损失，因此，为了找到整个数据集的全局NCP，GNCP_T_n表示为，图二.基于映射缩减的分析（MRA）的运行时间比较（Zakerzadeh等人，2015），可扩展k-分析（SKA）（Mehta和Rao，2017）和改进的可扩展k-分析（ImSKA）扑克1M数据集。Xn NC P（N）其中n是数据集中的记录数ImSKA 和 ImSLD 技术使用 UCI 存储库中可用的扑克数据集（Cattral和Oppacher，2007）进行测试。从扑克数据集生成的合成数据集也用于增加数据量。从数据集的各个属性中选择随机值以生成新的元组。实验中使用的数据集的细节在表1中给出。针对扑克P1M数据集计算MRA、SKA和ImSKA的NCP值，其中不同的k值范围从10到160，如图1A和1B所示。1和2.据观察，与SKA相比，ImSKA中的信息损失较低，因为测试数据集中元组的紧密排列。然而，ImSKA的运行时间高于SKA，因为它需要更多的时间来重新排列列但仍明显低于MRA。主要原因是，MRA需要多次MapReduce迭代，然后是SKA和ImSKA。我们进一步测试ImSKA，用于大量数据，例如扑克10M和扑克100M数据集。如图 3 -6很明显，图三.基于映射缩减的分析（MRA）的NCP比较（Zakerzadeh等人， 2015），可扩展k-分析（SKA）（Mehta和Rao，2017）和扑克10 M数据集的改进可扩展k -分析（ImSKA）。表1数据集表。数据集元组数量大小扑克1M（Cattral和Oppacher，2007）1百万24.5MB扑克10M（合成）10百万235.4MB扑克100M（合成）100百万2.4 GB见图4。基于映射缩减的分析（MRA）的运行时间比较（Zakerzadeh等人，2015），可扩展k-分析（SKA）（Mehta和Rao，2017）和扑克10 M数据集的改进可扩展k -分析（ImSKA）。MaxGNCP认证¼B.B. Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423-14301427我们计算了扑克1M数据集和k 10的NCP和运行时间（RT）的值，其中l从2到8变化，并将其与MRA方法进行比较，如图2所示。 7和8我们进一步将k的值从10更新为20，并将结果与MRA方法进行比较，如图1A和1B所示。9和10的在结果中观察到，我们提出的方法ImSLD优于-图五.基于映射缩减的分析（MRA）的NCP比较（Zakerzadeh等人， 2015），可扩展k-分析（SKA）（Mehta和Rao，2017）和扑克100 M数据集的改进可扩展k -分析（ImSKA）。见图6。基于映射缩减的分析（MRA）的运行时间比较（Zakerzadeh等人，2015），可扩展k-分析（SKA）（Mehta和Rao，2017）和扑克100 M数据集的改进可扩展k -分析（ImSKA）。见图7。基于MapReduce的解析（MRA）的NCP比较（Zakerzadeh等人，2015）和针对k = 10和扑克1 M数据集的改进的可扩展的I-Diversity（ImSLD）。与现有技术相比，ImSKA表现出较低的信息丢失，并且对于相同的隐私级别，它也具有中等的运行时间。根据PPDP的文献，仅仅k-匿名是不够的，因为它没有考虑敏感属性，而匿名，henxe，l-多样性方法被提出来克服k-匿名的局限性。类似地，我们还将我们的方法ImSKA扩展为ImSLD。SKA方法仅针对k-匿名性提出，而基于MapReduce的匿名化（MRA）方法针对k-匿名性和l-多样性提出，因此，我们将我们的方法ImSLD与MRA方法进行比较。见图 8 。基于 MapReduce 的解析（ MRA ）的运行时间比较（ Zakerzadeh 等人，2015）和针对k = 10和扑克1 M数据集的改进的可扩展的I-Diversity（ImSLD）。见图9。基于MapReduce的解析（MRA）的NCP比较（Zakerzadeh等人，2015）和针对k = 20和扑克1 M数据集的改进的可扩展的I-Diversity（ImSLD）。见图10 。基于MapReduce 的解析（MRA）的运行时间比较（ Zakerzadeh 等人，2015）和针对k = 20和扑克1 M数据集的改进的可扩展的I-Diversity（ImSLD）。¼小行星1428Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423- 1430在运行时间方面形成现有的方法MRA，因为我们提出的方法比MRA具有更少的MapReduce迭代次数。它还具有低信息丢失，同时提供相同的隐私级别。我们进一步测试我们提出的方法，ImSLD，为大量的数据，如扑克10M和扑克100M数据集。如图在图11-14中，我们测试了扑克牌10 M数据集的ImSLD，保持k1/4 10，同时将l的值从2变化到8。然后见图14 。基于MapReduce 的解析（MRA）的运行时间比较（ Zakerzadeh 等人，2015）和针对k = 20和扑克牌10 M数据集的改进的可扩展I-Diversity（ImSLD）。见图11。基于MapReduce的解析（MRA）的NCP比较（Zakerzadeh等人，2015）和针对k = 10和扑克牌10 M数据集的改进的可扩展的I-Diversity（ImSLD）。见图 12。基于MapReduce的解析（ MRA ）的运行时间比较（ Zakerzadeh 等人，2015）和针对k = 10和扑克牌10 M数据集的改进的可扩展的I-Diversity（ImSLD）。图十三.基于MapReduce的解析（MRA）的NCP比较（Zakerzadeh等人，2015）和针对k = 20和扑克牌10 M数据集的改进的可扩展I-Diversity（ImSLD）。对于相同的L值，k值从10更新到20。结果表明，ImSLD在运行时间和NCP方面优于现有方法，而不会影响中等规模数据集扑克10M的隐私级别。我们进一步测试了扑克100M数据集的ImSLD，如图12所示。15 -18带k10，并且将l的值从2改变到8。然后，对于相同的l值，将k值设置为20。可以图15.基于MapReduce的解析（MRA）的NCP比较（Zakerzadeh等人， 2015）和针对k = 10和扑克牌100 M数据集的改进的可扩展I-Diversity（ImSLD）。图16.基于MapReduce的解析（MRA）的运行时间比较（Zakerzadeh等人， 2015）和针对k = 10和扑克牌100 M数据集的改进的可扩展I-Diversity（ImSLD）。B.B. Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423-14301429竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用图17.基于MapReduce的解析（MRA）的NCP比较（Zakerzadeh等人， 2015）和针对k = 20和扑克牌100 M数据集的改进的可扩展I-Diversity（ImSLD）。图18.基于MapReduce的解析（MRA）的运行时间比较（Zakerzadeh等人， 2015）和针对k = 20和扑克牌100 M数据集的改进的可扩展I-Diversity（ImSLD）。从结果中观察到，ImSLD在运行时间和NCP方面优于现有方法，并且对于大型数据集Poker 100M具有相同的概率水平我们用不同大小的数据集，不同的k值和不同的l值来测试我们提出的方法ImSLD。与现有方法的比较清楚地表明，ImSLD在所有大小的数据集的运行时间方面优于MRA，因为所需的MapReduce迭代次数较少。与具有相同隐私水平的MRA相比，ImSLD还显示出较低的信息丢失5. 结论我们使用 Apache Pig for Pri- vacy Preserving Big DataPublishing实现了改进的k-分析和改进的l-多样性我们已经分析了匿名数据集的NCP方面的信息损失，并观察到与现有方法相比，信息损失较低我们还观察我们的方法的运行时间，并与现有的方法进行比较。我们发现ImSKA的运行时间略高于SKA，因为它需要数据集中的后置属性，但仍然优于MRA方法，具有非常高的裕度。然而，SKA算法仅用于k-匿名化，因此容易遭受记录链接攻击.我们提出了ImSKA的l-分集扩展ImSLD，并与已有的MRA方法进行了比较.实验结果表明，ImSLD在运行时间方面优于MRA，并且在相同的隐私级别下具有较低的信息丢失。Canbay，Y.，Vural，Y.，Sagiroglu，S.，2018.隐私保护大数据发布。2018年国际大数据、深度学习和打击网络恐怖主义大会（IBIGDELFT）IEEE，安卡拉，土耳其，pp.24-29. https://doi.org/10.1109/IBIGDELFT.2018.8625358.卡特拉尔河，Oppacher，F.，2007年扑克数据集。可用（2016年4月18日访问）。Chawla，S.，德沃克角，McSherry，F.，史密斯，A.，Wee，H.，2005年a。公共数据库的隐私权第二届国际密码学理论会议论文集， TCCSpringer-Verlag ，Cambridge，MA，pp.363-385. https://doi.org/10.1007/978-3-540-30576-7_20网站。Chawla，S.，德沃克角，McSherry，F.，Talwar，K.，2005年b。关于隐私保护的直方图。在：第二十一届人工智能不确定性会议（UAI2005）的会议记录。弗吉尼亚州阿灵顿，弗吉尼亚州阿灵顿。120-127. 可用（2016年4月18日访问）。克利夫顿角，Tassa，T.，2013.句法匿名和差异隐私。2013年IEEE第29届国际数据工程研讨会（ ICDEW ）。 IEEE ， Brisbane ， QLD ， Australia ， pp. 88-93.https://doi.org/10.1109/ICDEW.2013.6547433。Cormode，G.，Srivastava，D.，2009年分析数据：生成、模型、使用。2009年ACMSIGMOD数据管理国际会议论文集，SIGMOD'09。ACM，Providence，RhodeIsland，USA，pp. 1015-1018. https://doi.org/10.1145/1559845.1559968网站。德沃克角，2006.差异隐私。In：Bugliesi，M.，Preneel，B.，Sassone，V.，韦格纳岛（编），自动机，语言与程序设计，计算机科学讲义第4052卷。Springer BerlinHeidelberg，Venice，Italy. 1-12. https://doi.org/10.1007/11787006_1网站。德沃克角，2007. 提出更好的问题，获得更好的答案-- 私人数据分析的新方法。在：Schwentick，T.，Suciu ，D.（编），数据库理论Springer，Berlin Heidelberg，Barcelona，Spain，pp. 18-27. https://doi.org/10.1007/11965893_2网站。德沃克角，2008.差异隐私：结果调查。在：Agrawal，M.，Du，D.，Duan，Z.，Li，长穗条锈菌A.（编），计算模型的理论与应用，计算机科学讲义第4978卷。Springer Berlin Heidelberg，Xi1-19. https://doi.org/10.1007/978-3-540-79228-4_1网站。Fung，B.C.M.，Wang，K.，余，附，2007.为隐私保护而对分类数据进行分析。IEEETrans. Knowl. Data Eng.19（5），711-725。https://doi.org//TKDE.2007.1015.Fung，B.C.M.，Wang，K.，陈，R.，余，附，2010年。隐私保护数据发布：最近发展的调查。 ACM 计算监视器 42 （ 4 ）， 14 ： 1-14 ： 53 。网址： http ：//doi.org/10.1145/1749603.1749605Ghinita，G.，Karras，P.，Kalnis，P.，Mamoulis，N.，2007.快速数据匿名化，信息丢失率低。在：第 33 届超大型数据库国际会议的会议记录， VLDBVLDBEndowment，Vienna，Austria，pp.758-769.https://doi.org/10.1109/ICDE.2007.369025网站。海伊，M.，Miklau，G.，詹森，D.，Towsley，D.，Weis，P.，2008.在匿名社交网络中抵制结构性重新识别。 Proc.VLDBEndowment 1 （ 1 ）， 102-114.https://doi.org/10.14778/1453856.1453873网站。贾恩，P.，Gyanchandani，M.，Khare，N.，2016.大数据隐私：技术视角与评论。J.Big Data 3（1），25. https://doi.org/10.1186/s40537-016-0059-y。LeFevre，K.，DeWitt，D.J.，Ramakrishnan河，2005. Incognito：高效的全域k-匿名。 2005 年 ACM SIGMOD 数据管理国际会议论文集， SIGMOD '05 。 ACM ，Baltimore，Maryland，pp. 49-60. https://doi.org/10.1145/1066157.1066164网站。LeFevre，K.，DeWitt，D.J.，Ramakrishnan河，2006.蒙德里安多维k-匿名。第22届国际数据工程会议论文集，ICDE '06。IEEE计算机协会，华盛顿特区，美国，pp。1-11.https://doi.org/10.1109/ICDE.2006.101网站。Li，N.，Li，T.，Venkatasubramanian，S.，2007. t-封闭性：超越k-匿名性和l-多样性的隐私。在：IEEE第23届国际数据工程会议论文集。IEEE，Istanbul，Turkey，pp.106-115. 网址：http：//doi.org/10.1109/ICDE.2007.367856Liu，K.，Terzi，E.，2008年图上的身份匿名化2008年ACM SIGMOD数据管理国际会议论文集ACM，Vancouver，Canada，pp.93-106.https://doi.org/10.1145/1376616.1376629.Machanavajjhala，A.，Gehrke，J.，Kifer，D.，Venkitasubramaniam ，M.，2006年。 l 多样性：超越k 匿名的隐私。第 22届数据工程国际会议论文集。 IEEE ，Atlanta，GA，USA，pp. 13-24. 网址：http：//doi.org/10.1109/ICDE.2006.1Machanavajjhala，A.，Kifer，D.，Gehrke，J.，Venkitasubramaniam，M.，2007年l多样性：超越k匿名的隐私。ACM Trans. Knowl. Discovery Data 1（1），1-52。https://doi.org/10.1145/1217299.1217302网站。梅塔， B. B. ，拉奥， UP ，2016. 隐私保护非结构化大数据分析：问题和挑战。Procedia 计算 Sci. 78 ， 120-124 。 https://doi.org/10.1016/j.procs.2016.02.020 。2015年第一届信息安全和隐私国际会议，印度那格浦尔。小行星1430Mehta，U.P. Rao/Journal of King Saud University- Computer and Information Sciences 34（2022）1423- 1430梅塔，B. B.，拉奥，UP，2017.隐私保护大数据发布：使用MapReduce的可扩展k-匿名化方法。IET Software 11，271-276. 网址：http：//doi.org/10.1049/iet-sen.2016.0264梅塔，B. B.，拉奥，UP，2018年面向隐私保护大数据发布的可扩展匿名化最近的调查结果Intell。Comput. Tech. 708，297-304。https://doi.org/10.1007/978-981-10-8636-6网站。第五届ICACNI 2017会议记录，卷。二、梅塔，B. B.，拉奥，UP，库马尔，N.，Gadekula，S.K.，2016年。隐私保护大数据分析。 2016 年第六届先进计算和通信技术国际会议论

下载后可阅读完整内容，剩余1页未读，立即下载