大规模数据隐私：Skyline计算的MapReduce优化与近似算法

版权申诉

152 浏览量更新于2024-07-02 收藏 1.03MB PDF 举报

云计算时代的数据隐私保护面临着巨大的挑战，尤其是在大规模数据背景下。随着数据交换和发布的频繁，如何确保用户数据在满足隐私需求的同时保持其可用性成为关键问题。Skyline计算方法作为一种有效的策略，旨在找到一组既不过度牺牲隐私又能保持数据价值的策略，即不被其他策略所“支配”。 Skyline策略的核心在于，它要求筛选出一组隐私策略，这些策略在数据发布过程中既能保护个人隐私，又不会失去过多的数据信息。然而，随着数据范围的增大，可能存在的隐私策略数量急剧增加，这使得传统的Skyline计算在大规模数据场景下变得困难重重。为解决这一问题，研究者提出了全策略空间的Skyline算法SKY-FILTER-MR。 SKY-FILTER-MR利用MapReduce编程模型对传统Skyline计算进行优化，通过分布式处理的方式，显著提高了算法的效率，使其能够应对海量数据的处理。MapReduce模型将复杂的计算任务分解成多个独立的小任务，然后并行执行，极大地提高了计算速度和资源利用率。此外，SKY-FILTER-MR引入了近似的Skyline概念，这是一种可调整精度的方法。通过设置一个控制参数，算法可以筛选掉在一定程度上不如Skyline策略集中的策略，从而减少备选策略集的规模，进一步降低计算时间。这种近似计算允许用户在隐私保护与数据可用性之间找到一个平衡点，根据实际需求调整参数。实验结果显示，SKY-FILTER-MR在优化后的状态下，能够将备选策略集的规模降低多达732倍，同时执行效率提升了4倍。这表明该算法在大规模数据隐私策略Skyline计算中的表现极为出色，并具有良好的扩展性。近似的Skyline参数对于算法性能的影响显著，参数增大通常意味着更高的执行效率，但必须确保计算精度的前提下。云计算背景下的大规模数据隐私策略Skyline计算是一个复杂且重要的问题，SKY-FILTER-MR算法通过MapReduce模型的运用和近似的Skyline策略设计，提供了一种高效、可扩展的解决方案，有助于在保护数据隐私的同时，提高数据的可用性和处理效率。关键词包括去识别化策略、Skyline、数据隐私和MapReduce，这些都是理解并实施这种创新方法的关键术语。

问题。差分隐私假设第三方拥有任意的背景知识它都能提供隐私保护。它保证数据

表添加或删除单个记录都不会对数据分析产生明显的影响。查分隐私虽然拥有完美

的隐私定义，但是实现查分隐私的常用方法会造成数据严重的扭曲，查分隐私不太

适合实际应用中对数据可用性高的隐私保护的数据发布。

隐私模型是通过匿名化操作实现的。匿名化操作主要有泛化（Generalization）

[17]

, 抑制（Suppression）, 解剖（Anatomization） , 重组（Permutation）和扰动

（Perturbation）

[14]

。泛化和抑制都是隐藏准标识符的细节，用一个大区间去替代某

一些具体的值。解剖和重组则是破坏准标识符和敏感属性的关系。扰动是添加噪声、

聚合交换、统计合成使数据失真。泛化是隐私保护数据发布中一种较常用的方式。

一般分为全域泛化和子树泛化模式。全域泛化要求一个属性的所有值都泛化到同一

个水平。这种泛化方式粒度最大，数据失真最严重。子树（Subtree）泛化要求分类

树中所有非叶子节点的值要么一起泛化到同一个水平要么都不泛化。类似于将属性

的值域进行了一个个的分割。非同质泛化

[17]

精度更高，数据的可用性更高，但是实

现困难，实用性不强。常见的子树泛化包括自顶向下具体化

[18]

和 Mondrian

[20]

，全

域泛化算法 Incognito

[21]

， Incoginito 的基本思想是策略晶格上搜索，寻找满足 k-匿

名的策略，并在这些策略中选出使得信息损失量最小的策略。Incognito 自底向上地

遍历策略晶格，在搜索过程中标记满足 k-匿名的策略节点，通过策略晶格的性质（父

策略节点不满足 k-匿名则子策略节点一定不满足）进行剪枝搜索。最后，根据信息

损失度量函数，给出信息损失量最小的策略。

对隐私保护和数据的可用性的量化是隐私保护数据发布中一个重点

[27][28]

。任何

一种隐私模型都需要衡量它的隐私保护指标和数据适用性指标。数据可用性的度量

是用来测量数据的使用性，包括一个数据度量和一个搜索度量。数据度量是匿名化

表对于原始数据表的数据质量，而搜索度量则是指导匿名化的过程是以最小数据失

真方向进行。Cormode 提出经验隐私和经验使用性的概念

[29]

。采用逆向思维，基于

攻击者的推断隐私信息的能力和对攻击者的信任来定义隐私。数据的使用性则通过

查询的负载来测量。除此之外，还有通过测量原始数据表和匿名化表的相似性去度

量数据的失真程度

[30]

，一个最一般的度量方法测量

[31]

和一个权衡度量

[18]

。

目前，大多数算法是通过控制再识别的风险量（数据隐私）来尽可能地最小化

信息损失量。例如，k -匿名，l-多样性，t-逼近，δ-泄露，β-相似。但是，这些模型

提供的泛化方式（隐私策略）是很有限的，为了获得更多的选择满足用户的多层次

万方数据

需求，Skyline 是一个不错的选择

[32][33][34][35][36][37][38]

。Skyline 筛选出一系列“感兴趣”

的点，这些“感兴趣”的点指的是那些不被其他点“支配”的点。要求过滤掉那些（假设

是 n 维的）在 n 个指标上都比保留下的点差的点。在多目标决策、数据库的可视化

和海量数据提取等方面 Skyline 计算具有广泛的应用，许多研究者对 Skyline 计算给

予深入的研究，集中式的 Skyline 计算最早被关注，许多有效的 Skyline 算法被提出。

BNL 和 DnC

[33]

最先被提出，BNL 通过比较输出所有不被其他点支配的 Skyline 点，

数据空间被分成若干个区间，采用分治求解的思想先局域比较再全局求解。 SFS

[34]

是在 BNL 的基础上增加了预排序，将数据点全部按单调函数排序以后，任何一个排

在前面的点都不可能被排在后面的点所支配。SFS 对二维数据的处理非常有效但是

不能有效地应对高维数据的处理。LESS

[35]

对 SFS 进行了优化获得了更高的效率。而

SaLSa

[36]

通过剔除遍历整个已排序的数据点操作对 SFS 和 LESS 作了进一步的优化。

BBS

[37]

是集中式算法中最值得推荐的算法，它具有反应快和 I/O 开销小的优点。为应

对大规模数据的处理，很多并行 Skyline 算法被提出

[39][40]

。这些算法从数据的有效划

分（partition）和拓展性（高维数据的处理）努力。Tao 提出的 minimal-sky 算法

[40]

是 SFS 的改进版本，其关键在于确定一个合适的取样概率能有效地划分数据，使每

个节点负载（计算，存储，通信）均衡。

隐私策略 Skyline 计算是一种有效地将 Skyline 计算应用到隐私保护的数据发布

中的方式。隐私策略即是为了数据发布中的隐私保护对数据进行泛化处理的方法。

将所有的隐私策略作为 Skyline 要处理的对象，这组数据的维数是二（隐私度量和数

据的可用性度量）。针对这个问题一些启发式的算法被提出

[4][5][12]

。一种是基于海明

距离的二分法搜索算法

[5]

，每一位的选择由权值来决定。这种算法能快速推荐一些较

好的策略，但是推荐的准确性不高且推荐策略的范围小。另一种采取的是基于概率

的启发式搜索算法

[4][12]

，搜索范围扩大覆盖整个 RU(R:隐私再识别的风险量，U：信

息损失量)空间，但是以一定的路径每次选取一定量的策略进行 Skyline 处理，推荐

的误差与初始的 Skyline 集合和路径的选取有关。2015 年 Xia

[12]

在 2013 年 Xia

[4]

的初

始化和路径选取做了改进。对于初始化，2013 年 Xia 是随机选择一条从最一般化到

最具体化的路线作为最初的 Skyline 策略集。这里最一般化指的是所有属性的值都泛

化到整个属性的值域，最具体化是表示属性的每一个值不作任何泛化处理保持原有

状态。而 2015 年 Xia 是先选取一个全局泛化空间然后逐渐通过插值来改进，每次插

值的原则是尽量使插值后生成的两个区间的记录平衡。这样做的好处是生成的策略

万方数据

在相同的隐私再识别的风险量下，信息损失量最小。这样的策略更优，更可能进入

最终的 Skyline 策略集。当这些策略进入初始的 Skyline 策略集，他们可以过滤掉很

多被支配的策略大大节约策略比较的时间。对于路径选取，他们都是通过逐次选取

子晶格链来更新 Skyline 策略集。不同的是，在 2013 年 Xia 中子晶格链是包含所有

从最顶端到最低端的策略的晶格的一个子图。这里的最顶端到最低端是用户定义的，

他们之间策略具有支配传递性，是一个接一个支配下去的。而 2015 年 Xia 是从最一

般化到最具体化晶格上的一系列子晶格。在每次的迭代中，用这一次子晶格的最顶

端策略最为下一次迭代的最顶端策略。当晶格链到达策略最具体化的状态是，随机

以最一般化状态重新开始。但是，不幸的是这两种算法收敛都很慢。

1.3 研究内容与目标

针对数据发布中的隐私泄露问题，在 Hadoop 平台下设计有效的隐私策略 Skyline

计算算法，满足用户对隐私保护和数据可用性的多层次需求。但是，随着数据表准

标识符属性值域基数的增长，产生的隐私策略的数量呈指数级增长。从如此大规模

数量的策略中筛选出满足需求的策略会带来巨大的时间开销。通过深入研究隐私策

略过滤机制和基于 MapReduce 的 Skyline 算法，提出有效策略过滤和筛选方案，在

保证数据精度的前提下，大大降低备选策略集的规模。研究内容主要是以下三个方

面：

1. 隐私策略的生成和表示。隐私策略定义为去识别化策略，采用二进制字符串

表示。分析研究对象准标识符属性的性质得到各属性对记录的分布式独立的。利用

这个性质设计了一个有效的策略生成方式，理论分析证明先筛选后合成的策略生成

方式可以大大降低备选策略集的规模。同时，研究这种策略生成方式的可行性。

2. 基于 MapReduce 的隐私策略 Skyline 计算方法。研究 MapReduce 框架下的

Skyline 处理算法。设计一个有效的策略 Skyline 算法，要求能处理大规模的策略数

据，策略数据具有两个指标：隐私保护和数据可用性。同时具有良好的性能：高效

率，扩展性好。并且满足用户对隐私保护的需求。

3. 基于近似的 Skyline 过滤机制。研究策略数据分布的特点，寻找有效的过滤机

制进一步提高算法的效率。在基于 MapReduce 的隐私策略 Skyline 计算方法的基础

上增加一个过滤机制。采用近似的 Skyline 将 Skyline 的筛选能力扩大，降低了备选

万方数据

剩余50页未读，继续阅读

programxh

粉丝: 17

大规模数据隐私：Skyline计算的MapReduce优化与近似算法

分布式数据的反SKYLINE查询算法研究.pdf

论文研究-Skyline计算研究综述.pdf

论文研究-分布式数据流上的Skyline计算.pdf

云计算环境中的数据查询处理方法研究.pdf

VMware Skyline平台技术概述.pdf

论文研究-基于高维稀疏数据的k-分桶高效skyline查询算法 .pdf

论文研究-SGMU：一种高效的基于高斯模型的不确定数据流Skyline查询方法 .pdf

分布式不确定数据上的概率Skyline计算.pdf

分布式环境下的Skyline代表点查询.pdf

QoS约束的代表性Skyline Web服务选择.pdf

最新资源