隐私保护数据发布：KC切片模型的多敏感属性动态数据发布

2 浏览量更新于2024-01-16 收藏 1.34MB PDF 举报

隐私保护

数据发布

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报引入敏感度NVS Lakshmipathi Rajua，M.N.Seetaramanathb，P.Srinivasa Raoca印度维沙卡帕特南GVPCE（A）CSE部b印度维沙卡帕特南GVPCE（A）信息技术部c印度AU工程学院CS SE系阿提奇莱因福奥文章历史记录：收到2018年2018年8月23日修订2018年9月12日接受在线发售2018年保留字：KCi切片分析多敏感属性准属性A B S T R A C T隐私保护数据发布（PPDP）是现实世界场景的一个重要方面PPDP通过在发布数据的同时保持隐私和实用性的权衡，使研究人员朝着正确的方向前进。提出了一种基于KC切片模型的多敏感属性动态数据发布的概念。我们提出的KCI切片方法分两个阶段完成数据发布过程第一阶段基于属性的敏感性将记录分配到桶中，该阶段考虑不同敏感属性的不同隐私阈值它使用语义l多样性方法将记录分配到桶中以防止相似性攻击。验证桶中所有敏感属性值它根据敏感属性之间的相关性将敏感属性分解为多个敏感表。后一阶段寻找准属性之间的相关性该算法将相关的准属性进行分组，并将敏感属性值的SID与准属性值连接起来。最后对已发布的拟表进行随机置换。与KC切片方法相比，提出的KCi©2018作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍一般来说，一些政府部门和其他医疗机构收集有关个人的信息用于商业和研究分析。此类数据可能包括有关个人的某些敏感信息隐私保护数据发布（PPDP）的主要目标这些事情可以帮助研究人员实现PPDP方向的预定目标（Li和Li，2009）。泛化或抑制方法等匿名化方法保护了已发布数据中个人的隐私。数据集可以包含不同类型的属性，如标识符属性、准属性、敏感属性和非敏感属性（Onashoga等人， 2017年）。发布标识符数据*通讯作者。电子邮件地址：suribabu205@gvpce.ac.in（N.V.S. Lakshmipathi Raju）。沙特国王大学负责同行审查属性导致其数据被包括在数据集中的个人的隐私泄露揭示准属性的数据可能导致通过关于受害者的背景知识来识别个体（Anjum等人，2018年）。在匿名化技术的帮助下发布时，可能需要保护敏感数据（Wang等人，2010年）。匿名化方法用于保护数据免受身份链接攻击、属性链接攻击和背景知识攻击（Anjum等人，2018年）。在隐私和实用性之间有一个权衡。为了获得发布数据的更多隐私，必须在发布数据的实用性上做出妥协（Li和Li，2009）。但这影响了数据发布的主要目标。真实世界的数据集包含多个敏感属性，但大多数PPDP模型集中于单个敏感属性（Onashoga等人， 2017年）。因此，在发布数据时，有必要考虑所有的敏感属性，以帮助研究者进行全方位的研究分析。为所有敏感属性提供相同级别的隐私可能无法为已发布数据提供预期结果。因此，区分高敏感属性和低敏感属性是十分必要的.每个敏感属性都有一个敏感度级别。在我们的实验中，通过为每个敏感属性https://doi.org/10.1016/j.jksuci.2018.09.0131319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comNVS Lakshmipathi Raju等人/沙特国王大学学报1395ðÞ属性敏感属性的敏感性级别可以由其中存在的高敏感值的数量来确定如果敏感属性的敏感程度超过一定的限度，则称为高敏感属性。如果敏感属性的敏感度级别低于限制，则将其称为低敏感属性。可以基于驻留在其中的高敏感值的数量将敏感属性分类为不同的类别具有更多高敏感值的敏感属性称为高敏感属性。具有较少数量的高敏感值的敏感属性被称为低敏感属性（Liu等人， 2012年）。在成人数据集中（Newman等人，2006），观察到两个属性[疾病，职业]具有与其余两个敏感属性[关系，教育]相同的更多数量的高敏感值。因此，属性[疾病，职业]被认为是高敏感属性在所提出的模型。该系统的基本目标是通过保持所需的隐私级别来为每个敏感属性获得更多的效用。该系统对敏感属性施加了所需的隐私级别。对各种敏感属性应用可变阈值级别有助于获得所需的实用程序级别要公布的数据。高敏感度属性值的违反比低敏感度属性值的违反对个人隐私的影响更大。数据发布可以是静态的，也可以是动态的。静态数据发布禁止对发布的数据进行任何更新。许多真实世界的应用程序只在增量的基础上提供数据。动态数据发布方便了对已发布数据的更新。本文研究动态数据发布。在数据发布中使用的一些标准匿名化方法是k-匿名、l-多样性和t-封闭性。m-invariance方法是用于发布动态数据的各种方法之一。它使用伪造的概括来发布各种版本（Xiao和Tao，2007）。KC-slice方法是一种针对多敏感属性的动态隐私保护数据发布技术。KC切片模型对所有敏感属性应用相同的阈值水平。它没有考虑敏感属性的敏感性（Onashoga等人， 2017年）。本文提出了一种适用于多敏感属性动态数据发布的KCI切片模型.它包括KC切片的方法以及多个敏感属性。它只考虑分类敏感属性。KCI切片模型根据敏感属性的敏感程度，对所有敏感属性设定阈值.本文还表明，可以通过对不同的敏感属性施加不同的阈值，而不是对所有敏感属性施加相同的阈值本文的结构如下。第2节介绍了相关工作，第3节描述了方法的概念，第4节演示了指标的评估，第5节侧重于结果和讨论，第6节解释了针对不同攻击模型的隐私保护，第7节总结了未来可能扩展的文件2. 相关工作以下是研究人员用于多敏感属性的方法 Gal等人（2008）提出了一种针对具有多个敏感属性的患者数据的隐私保护模型。它使用l-多样性和k-匿名技术对多个敏感属性。最后，数据是匿名的。该模型利用失真来保护多敏感属性的隐私它也被扩展到指定具有非常小的不同值的属性的较低程度的多样性。Yeet al. （2009）提出了一种使用随机噪声添加导致的数据失真的分解方法。它认为一个有意义的-作为主要敏感属性。本文提出了一种新的隐私攻击方法，并提出了分解和l1;l2;. ld-多样性模型。此模型不适用于动态释放。它提供了多个类别敏感属性和数值敏感属性的各种方向。Das和Bhattacharyya（2012）提出了分解+方法，以克服分区方法的缺点它生成一个数据集，在多个敏感属性上具有不同的l-多样性此模型适用于动态发布，但它不是适用于高维数据集。Liu et al.（2012）提出了一种新的多敏感属性的k-匿名模型。该方法将敏感属性分为高敏感属性和低敏感属性。元组根据高敏感度属性进行排序它打破了敏感属性之间的关联，克服了攻击.它利用信息熵来发现等价类的差异性。这种方法可以降低抑制比，但它不适合大数据集。Usha等人（2014）提出了一种基于k-匿名的多敏感属性隐私保护数据挖掘方法。它采用了一种基于聚类的多敏感属性非同质匿名化这种方法考虑了敏感属性的敏感性它没有在真实数据集上实现，并且发布的数据集可以通过背景知识攻击来破解。Han等人（2013）提出了一种SLOMS方法。它是一种针对多敏感属性微数据的隐私保护数据发布方法。此方法匿名化数据集中的许多敏感属性。它推广了拟属性和敏感属性。该方法将多个敏感属性垂直划分到多个表中，并使用l-多样性对元组进行桶化。它会自动导致更高的抑制比，并需要更多的执行时间。Liu et al.（2015）提出了使用聚类和多敏感桶化对数据集进行匿名化的MNSACM方法。现实世界的数据集包含数值和类别敏感属性，但它仅限于数值敏感属性，并没有在真实数据集上实现。它提供了三种不同的桶化方法，如MSB，MSDCF和MNSACM的比较分析。这种方法不适用于增量数据集。Susan和Christopher（2016）提出了一种切片解剖方法：一种新的多敏感属性隐私保护方法。该方法将敏感属性分解为敏感表，将准属性分解为准表。使用MFA方法对元组进行分桶。这项工作使用k-匿名和l-多样性的原则。它保护发布数据免受成员攻击、身份攻击和属性链接攻击，但切片算法应分别应用于QIT和ST。Anjum等人（2018）提出了一种有效的方法来发布多个敏感属性的微数据。它使用（p，k）- Angelization方法对多个敏感属性进行匿名化它通过消除背景知识攻击和成员攻击的威胁来保护发布数据的隐私它仅限于特定数据集中存在与个体相关的单个记录的情况Onashoga等人。（2017）提出了一个关于KC切片的模型。它是一种通过结合LKC隐私模型和切片的特征来针对多个敏感属性的动态隐私保护数据发布技术（Mohammed等人， 2009年）。该方法仅对敏感属性的多个敏感值中的一个敏感值应用该KC切片对所有敏感属性应用相同量的阈值，而不管它们的敏感性如何，由于这可能导致更大的抑制比。1396NVS Lakshmipathi Raju等人/沙特国王大学学报3. 方法的概念3.1. 现有方法（KC切片）现有的KC切片模型对于每个敏感属性仅考虑一个单个敏感值，称为高敏感属性值（Onashoga等人， 2017年）。该方法仅集中于敏感属性的许多敏感值中的高敏感属性值一般来说，敏感属性可以包含任意数量的高敏感值。KCi切片集中在这个方向.在发布数据时，将考虑敏感属性的所有敏感值KC切片方法以敏感表和准表的形式发布数据。它将相同的阈值应用于所有敏感属性以抑制高敏感属性值（Onashoga等人，2017年）。因此，可能存在高信息丢失的可能性。敏感属性的优先级排序是数据发布中的一个重要方面。它自动提高了已发布数据的实用性。KCI切片模型根据敏感属性的敏感程度，考虑了敏感属性的可变阈值.KC切片模型不使用任何方法来对元组进行分桶，但元组的分桶在数据发布中也起着重要作用。有必要遵循适当的方法对元组进行分组，这自动与抑制和效用增益相关。否则，这可能导致相似性攻击。3.2. 建议系统的方法（KCi切片）KCi切片的定义：该模型基于属性以获得所需的隐私和实用级别。它骗-在发布数据时，获取敏感属性的所有值它以多个表格的形式发布数据（Han等人， 2013年）。这里，K表示桶大小，Ci指定特定敏感属性的阈值表1指定了KC切片和KCi切片之间的关键差异。KCi切片方法遵循与其他方法不同的方向。该方法的主要目标是匿名化多个分类敏感属性的数据集。KCI切片方法使用两个不同的数据发布阶段.第一阶段集中于桶的创建和隐私检查。首先，它确定桶K的大小，桶K的大小基于数据集上的元组的总数和数据集的所有敏感属性上的不同敏感值的总数。表2详细说明了成人数据集的样本。KCI切片模型根据敏感属性的敏感程度，对每个敏感属性采用不同的阈值。将记录分配到桶是KCI片方法中的主要任务。它使用语义l-多样性方法（Li等人，2007）以基于具有最高阈值的敏感属性将记录分配到桶中。为此，它为最高阈值敏感属性的值构建不同的由于这一点，每个桶包含更多数量的不同的敏感值，可以自动减少相似性攻击。在我们的实验中，桶化是基于疾病属性。与教育和关系敏感属性相比，KCi切片模型将最高阈值应用于疾病和职业敏感属性。如果存储桶上的任何敏感属性值超过敏感属性的阈值级别，则将相关值抑制到阈值级别。敏感存储桶的每个敏感值的频率不超过该敏感属性的阈值。表1KC和KC i模型的主要区别。KC切片在KC切片模型中，K表示存储桶大小，C指定所有敏感属性在KCi切片方法中，K表示桶大小，Ci指定每个敏感属性不考虑敏感属性的敏感性考虑敏感属性它只对每个敏感属性的一个敏感值应用阈值它将阈值应用于敏感属性以敏感表和准表的形式发布数据以准敏感表和多敏感表仅发布一个敏感表根据敏感属性该方法使用相同的阈值（C），其适用于所有敏感属性，而不管其敏感性该方法根据属性的敏感程度，对不同的敏感属性采用不同的阈值它没有使用适当的方法来分桶元组它使用语义l-多样性算法来分桶元组由于所有敏感属性的阈值都是固定的，研究者对已发布数据的可能存在从敏感表中识别被抑制的敏感值的可能性由于对不同敏感属性的阈值不同，研究者可以利用更高的利用率对已发布的数据无法从敏感表中识别隐藏的敏感值它可以减少相似性攻击表2成人数据集的样本。小时年龄性别工资邮政编码状态教育疾病关系占领4039男性10950038746美国单身汉咳嗽非家族成员达姆-文书1350男性8800038746美国单身汉疟疾丈夫执行经理4037女性10850038746美国大师胃癌非家族成员执行经理4030男性10500038746美国单身汉心痛丈夫销售1649女性9050081513牙买加月9肿瘤非家族成员移动服务3023女性9150038746美国单身汉白内障亲生子女达姆-文书4648男性12000038746美国Hs-grad气管炎丈夫工艺修补4031男性10550038746美国阿索-亚当疟疾丈夫达姆-文书9850男性17300038746美国大师运动非家族成员农业-渔业4034男性10700038746美国Hs-grad心痛亲生子女运输移动NVS Lakshmipathi Raju等人/沙特国王大学学报1397←ð Þ ðÞðÞ← ðÞ表3相关准属性。小时/工资年龄性别邮编/州40、10950039男性38746，美国13，8800050男性38746，美国40、10850037女性38746，美国40、10850030男性38746，美国16，9050049女性81513，牙买加30，9150023女性38746，美国四十六、十二万48男性38746，美国40，10550031男性38746，美国九十八、十七万三千50男性38746，美国40，1070034男性38746，美国根据我们的运行示例，将敏感属性[疾病、职业、教育和关系]的阈值分别设为2、2、3和3在关系敏感属性中，丈夫的出现频率为4，非家庭成员的出现频率为4。有必要压制一种丈夫价值观和一种非家庭价值观。表5示出了hus带和非家族中的抑制敏感值疾病敏感属性的任何值根据表5，疾病敏感性属性的值未被抑制。在教育敏感属性中，本科生的出现频率为4。有必要压制单身汉的一种价值观表4显示了单身汉的抑制敏感值在职业敏感属性的情况下，dam-clerical的计数为3。表4显示了dam-clerical的抑制敏感值表4和表5显示了所得到的敏感属性值及其各自的计数。最后，该阶段确定所有敏感属性之间的相关性，以找到高度相关的敏感属性。它通过将敏感属性拆分到多个敏感表中，将高度相关的敏感属性放置到一个单独的表中（Susan和Christopher，2016）。结果显示，学历与职业、疾病与关系的相关性较高它将高度相关的敏感属性放在表4（教育-职业）和表5（疾病-关系）中作为一个将敏感属性分成多个敏感表的主要目的是避免敏感属性之间的一对一累积关系通过使用表4和表5，可以识别敏感桶上的敏感值的类型，并获得各种类别的敏感值的频率第二阶段集中于桶分区和切片。最初，它为表4和表5中所示的所有敏感属性桶生成SID。该阶段根据准属性之间的相关性确定高相关准属性，并将高相关准属性进行拼接表3描述了连接的高度相关的准属性，如人力资源-工资，邮政编码-州和其他属性，如年龄和性别。该阶段还将敏感属性的SID与相关准属性相结合。表6指定了相关的QID与敏感属性桶的SID的级联它还可以对表6的所有桶应用随机排列以避免链接攻击。表7显示了敏感属性的置换QID和SID。从表7中，研究人员可以得到所需算法1. Bucket创建和隐私检查。输入：TD-表数据，S-敏感属性和阈值的数量c1; c2. C s输出：Ti½TDB1;TDB2;。。。TDBn]==Ti是要发布的各种表1：开始2：为表的所有敏感属性创建不同的敏感列（TD）3：从（TD）中找到元组的总数（t）4：找出所有敏感属性的不同敏感值的数量之和（b）5：k = t/b;6：//根据敏感度为每个敏感属性分配阈值7：for（i=1; i =s; i++） do8：Asic ci;9：结束10：//Bucketizaton过程基于使用语义l-多样性方法具有最高阈值的敏感属性。它使用敏感属性的不同敏感列。//11：而TD12：对于（j=1;j6b; j++），13：将k个元组分配到桶Bj中14：TDBj¼Bj;15：结束16：结束时17：抑制违反每个桶的阈值水平的敏感属性的值TDBr As1;As2;. 为sTD B1;B2;. B n18：for（i=1; i =s; i++） do19：pi¼ nnAi½TDBi];20：对于（r=1; r =pi; r++），21：cir<$njAsirj=k×100;22：if（cir>Asic）cir←cir-Asic;suppressTDBi½Asir]更新TDBi;23：其他24：更新TDBi;25：结束26：结束27、根据敏感属性之间的相关性，将表拆分为多个敏感对所有敏感属性28：for（i=1; i =s; i++） do29：对于（j=i+ 1; j =s; j++），30：gij¼correlate=Asi;Asj;31：//假设gij是一个数组变量32：33：1/2l;m] 1/4Indexmax1/2gij] n;表4在教育职业的特定隐私阈值下，对相关敏感属性表进行了验证。SidSAS001#（1），学士（3），硕士（2），九（1），Hs-grad（2），Assoc-acme（1）002 #（1），Dam-clerical（2），exec-management（2），sales（1），other-service(1) 、手工艺-修理（1），农-渔（1），运输-移动（1）34：s←s- fAsl;Asmg;35：TrTD Asl;Asm;36：//更多相关的敏感属性被保存为单独的敏感表Tr//第37章：结束第38章：结束第39章：一夜情1398NVS Lakshmipathi Raju等人/沙特国王大学学报ðÞ⁄PhWJJ12¼表5算法2.桶分区和切片输入：Tr½T DB1;T DB2;.. 。TDBn];TDq输出：Bqa;Bs a1;Bs a2;.1：开始2：对Tr3：为Tr/ 2TDBi的每个Csi生成SID]Bsi←集群SIDi;Csii;Bsai←ui<$1iBsi;4：针对准TDq的所有桶重复循环5：//假设t是准属性的数量6：for（i=1; i =t; i++） do7：对于（j=1; j =t; j++），8：r←ateAqi;Aqi<$1;9：如果rPh在疾病关系的特定隐私阈值下，对相关敏感属性表进行了验证。SidSAS101咳嗽（1），疟疾（2），胃癌（1），心脏疼痛（2），肿瘤（1），白内障（1），支气管炎（1），运动（1）102####（2）、非家庭成员（3）、丈夫（3）、自有子女（2）表6SA的相关QID和SID的串联小时/工资年龄性别邮编/州40，109500，00139,002男性，101岁38746，美国，10213，8800，00150,002男性，101岁38746，美国，10240，108500，00137,002女性，101岁38746，美国，10240，108500，00130,002男性，101岁38746，美国，102169050000149,002女性，101岁81513，牙买加，10230，91500，00123,002女性，101岁38746，美国，10246，120000，00148,002男性，101岁38746，美国，10213：Cqij←Aqi;14：TDq14TDq-Aqi;15：结束16：结束17：BJ←CqijjjSIDi;18：Bqa←Uj1JBj;19：Bqa ←RandpermutefB qg;B1;B2. B nn;20：发布Bqa; Bs a1; Bs a2;.. 。 ;第21章：结束关于敏感属性的准属性和SID的数据的知识。通过结合表4、5和7，研究人员可以获得所需的信息。KCislice最终发布了表4、表5和表7。3.3. 算法分析要在单个块中抑制元组，需要O（d + h），其中d是不同元组的数量，h是块中元组的数量。为了在所有桶中执行上述操作，时间复杂度将是O（（d + h）块数）），即，O（t），t =数据库中元组的总数。要执行随机置换，它需要O（l），其中l是块中的行数。对于分区表，它需要O（t），其中t是数据库中的行数。4. 评价指标以下指标用于衡量抑制率，失真，信息增益和隐私损失（Mendes和Vilela，2017）。4.1. 丢失度量损失度量用于度量属性的损失（Liu，2010）。它覆盖了该特定属性的所有元组值在一般来说，分类敏感属性的值可以是匿名的。表7SA的置换QID和SID。小时/工资年龄性别邮编/州40,109500,00139,002男性，101岁38746，美国，10298,173000,00150,002男性，101岁38746，美国，10240,105500,00131,002男性，101岁38746，美国，10216,90500,00149,002女性，101岁81513，牙买加，10213,88000,00150,002男性，101岁38746，美国，10240,108500,00137,002女性，101岁38746，美国，10246,120000,00148,002男性，101岁38746，美国，10240,105000,00130,002男性，101岁38746，美国，10240,107000,00134,002男性，101岁38746，美国，10230,91500,00123,002女性，101岁38746，美国，102但是A.此度量可用于找出敏感属性的每个不同值的丢失。属性的整体损失可以通过属性的所有不同敏感值的累积和来测量。该度量用于描述信息损失（Fung等人， 2010年）。4.2. 加权层次距离（WHD）该度量用于测量不同抽象级别（如单元格、元组和表）的抑制率。Li等人（2006）引入了该度量，并基于树的加权层次结构。层次树的每个级别都有一个特定的权重，并定义域级别之间的权重。重量是统一重量和身高重量。在统一权重中，所有级别的权重都是1，并且在这种情况下，单元格的泛化之间的失真也是相等的。在身高权重方案中，每个级别具有不同的权重。与远离顶部的水平相比，靠近顶部的水平具有更大的失真。泛化的加权层次距离定义为：PpWj j1通过泛化或抑制来表示世界卫生组织（WHD）ð2ÞLM-100Aj-1 战斗机ð1Þj¼;-由方程式（2），h定义域层次结构的高度。在域层次结构中，级别从最一般到最由方程式（1）M表示域中已被抑制的值的数量。jAj表示属性的域的大小。具体而言，这些级别表示为1; 2;. h-1; h. j和j-定义了由wj;j-1表示的域级别之间的权重。第十章：Cqij←AqijjAqij;40，105500，00131,002男性，101岁38746，美国，102十一日：十二：TDq<$TDq-1Aqi[Aqi<$1];其他98，173000，00140 1070000150,00234,002男性，101岁男性，101岁38746，美国，10238746，美国，102NVS Lakshmipathi Raju等人/沙特国王大学学报13991XXIGPL中国j值位于2和h之间，表示为26j6h。如果一个细胞是generalized从水平p到水平q然后值p总是大于值q。● 均匀重量：wj;j-1¼1，其中26j6h。● 身高权重：wj;j-1¼j-1b，其中b值始终是由用户提供的实数P1域层次结构的示例在图1和图2中给出。一比四(1)元组泛化的失真该度量用于定义一般化元组和正常元组之间的失真（Li等人，2006年）。设t 1/4m1; m2;. ; m n是正常元组，并且t01/4m01; m02;. m0n是t的广义元组。这种泛化的失真被定义为：图二.职业的层次结构M失真度t;t0WHDlevelmj;levelm0j3第1页由方程式（3），级别mj是属性层次结构中mj的域级别。加权层次距离用于度量泛化或抑制的速率。(2)表格泛化失真该度量用于定义一般化表和正常表之间的失真（Li等人，2006年）。这种泛化的失真被定义为：jDj失真度D;D0 失真度D; D0失真度ti;t0i失真度4失真度1/1由方程式（4），D0是表D中的广义表，ti是D中的第i个元组，t0i是D0中的第i个元组，jDj是D中的元组个数.该度量产生整个表的失真。因此，有必要考虑每个元组的加权层次距离。4.3. 权衡度量权衡度量的主要基本目标是确定信息需求与隐私要求。 Fung等人（2010）提出了权衡指标。图三. 教育的层次结构见图4。关系的层次结构IGa联系我们ð5 Þ该度量用于确定每个匿名化操作中的信息增益和隐私损失（Fung等人，2010年）。该指标定义如下由方程式（5），这里信息增益将是从失真Fig. 1. 疾病的层次结构1400NVS Lakshmipathi Raju等人/沙特国王大学学报的属性。Fung等人（2010）通过包含s属性的所有QIDj上匿名性的平均下降来衡量隐私损失PL（s），即，PLsavgfAQIDj-AQIDg6阈值，其余所有阈值为零。不太敏感的属性，如教育和关系，在初始阈值时损失最小。研究结果表明，在敏感属性的敏感性Sj导致获得更好的效用率。图6指定了所有敏感属性的平均抑制率。4.4. 实施环境和数据集这项研究工作是在Windows 8操作系统上完成的，该操作系统运行在1.6 GHz英特尔处理器上，具有4.0 GB RAM和1 TB硬盘存储。KCi-slice 是用 python ， MySQL 实现的 . 来自加州大学欧文分校（UCI）机器学习库的成人数据集用于实验（Newman等人， 2006年）。5. 结果和讨论这种方法使用两个重要的措施来衡量抑制率。它们是损失度量和最小失真。效用增益度量用于度量属性的增益5.1. 丢失度量图图5和图6指定关于损失度量的信息。A的损失定义为所有元组t的损失t[A]的平均值根据表8，高敏感属性疾病和职业的损失指标图五. 敏感属性的丢失度量5.2. 最小失真图7指定关于失真的信息。该图显示，当阈值增加时，抑制值的数量减少。失真率是基于加权分层距离测量来计算的（Li等人， 2006年）。5.3. 隐藏记录占总记录的百分比以及隐藏记录占未隐藏记录表9指定了所有敏感属性存储桶中被抑制的记录占记录总数的百分比。它考虑的是数据集中记录的总数。当敏感属性值超过阈值限制时，该模型会抑制所有敏感属性值。图8指定了在各种隐私阈值处，针对每个敏感属性，被抑制的敏感值占总敏感值的百分比。疾病敏感属性的最大单元格抑制仅对于隐私阈值5为5%，并且对于其余所有阈值，单元格抑制为0%。所有属性的桶化都是基于表8各种阈值下敏感属性的损失度量。阈值5101520253035疾病0.05000000教育0.50.280.140.0660.01700关系0.40.250.1660.0950.0590.0280.003占领0.40.1060.0030000见图7。敏感属性的最小失真图。表9抑制的敏感值占总敏感值的百分比阈值51015202530教育3823.6313.096.31.60占领40.0911.564000关系4934.7124.1315.149.64.5图六、使用LM对所有敏感属性的抑制率NVS Lakshmipathi Raju等人/沙特国王大学学报1401疾病敏感属性。根据成人数据集，关系属性仅包含6个不同的敏感值。现有方法仅对许多敏感值中的一个敏感值应用抑制（Onashoga等人，2017年）。所提出的方法将可变阈值应用于基于其敏感性的敏感属性。在KCi切片中，关系敏感属性中的非家庭成员仅在关系属性值的总数下获得14.5%的抑制率，但在阈值5时，在KC切片中的抑制率为19.5%。图9指定了在针对每个敏感属性的各种隐私阈值处被抑制的敏感值与未被抑制的敏感值的百分比。这些结果表明，见图8。每个敏感属性中被抑制的敏感值占敏感值总数的百分比。见图9。每个敏感属性中抑制的敏感值与未抑制的敏感值的百分比。表10Sensitive属性值的名称：Hs-grad值总数：10，501。阈值510152025303540抑制值6937531736972077539000未抑制值35645184680484249962105011050110501表11Sensitive属性值的名称：Some-college值总数：7291。阈值510152025303540抑制值372721075685395000未抑制值356451846723675272867291729172911402NVS Lakshmipathi Raju等人/沙特国王大学学报抑制值与未抑制值的比率对于高敏感性属性非常小，而对于不太敏感的属性最小。5.4. 效用增益效用增益是根据敏感属性的每个敏感值的抑制和非抑制敏感值计算的（Xu等人，2014年）。表10和表11指定了针对各种隐私阈值的教育敏感属性的抑制敏感值和未抑制敏感值。图10和11指定了某些教育敏感属性值的效用增益。根据表10和表11，当阈值增加时，未抑制值的数量急剧增加。这通过增加阈值来指定更多的效用图图12和图13显示了某些疾病敏感属性值的效用增益。基于表12和表13，对于阈值5，抑制值的数量较少，对于所有剩余阈值，抑制值的数量为0。它反映了所有阈值的100%效用。即使对于更低的阈值速率也可以实现这一点，因为分组化可以基于属性来完成图图14和图15指定了某些关系敏感属性值的效用增益。根据表14和表15，当阈值增加时，未抑制值的数量急剧增加。这里，通过增加阈值来获得高利用率。图图16和17指定了一些对属性敏感的属性值的效用增益。根据表16和17，图10个。教育的效用增益：Hs-grad。抑制值的数量仅存在到阈值15，并且对于所有剩余阈值为0。这通过增加阈值来实现更高的效用率。5.5. KC和KCi作为比较的一部分，图。图18、图19和图20呈现了KC切片和KC i切片模型之间的比较分析。结果表明，在所有的情况下，抑制值的数量是较少的KCi切片方法相比，抑制值的数量在KC切片方法在不同的阈值。图18、19和20示出了敏感属性的特定敏感值的抑制率。表18规定了KC切片和KCi切片模型的关系属性中非族值的抑制值的数量从表18中可以看出，在非系列敏感值的每个阈值水平下，与KCi切片相比，KC切片中抑制值的数量非常高。表19指定了在各种阈值下，关系中的非家庭成员属性的效用水平的百分比。从表19中可以看出，与KC切片相比，即使在非系列敏感值的初始阈值水平下，KCi与KC切片相比，KCi切片实现了超过20%的超额利用率，图12个。疾病效用增益：心痛。见图11。教育的效用增益图13岁疾病效用增益：白内障。NVS Lakshmipathi Raju等人/沙特国王大学学报1403表12敏感属性值的名称：心脏疼痛值总数：1843。阈值510152025303540抑制值2090000000未抑制值16341843184318431843184318431843表13敏感属性值的名称：白内障值总数：1838。阈值510152025303540抑制值1390000000未抑制值16991838183818381838183818381838图十四岁关系的效用增益：丈夫。图15.关系的效用增益：不在家庭中。阈值水平20为非家族敏感值。KCI切片模型考虑了所有敏感属性的可变阈值.在我们的实验中，关系敏感属性被认为是不太敏感的属性。不必将最高阈值级别应用于关系敏感属性。图19说明了在KC切片和KCi切片模型之间针对关系属性中的非家族成员的比较分析。从表20中可以看出，对于某些敏感值，在每个阈值水平下，与KCi表21指定了在各种阈值下，某些大学在教育属性中的效用水平的百分比。根据表21，即使在初始阈值水平下，与KC切片相比，KCi切片中的效用水平百分比也很高大学的敏感价值当与KC切片相比时，KCi切片实现了超过22%的超额效用率，甚至对于某些学院敏感值达到阈值水平15。图20指定了在教育属性中针对某个学院的KC切片和KCi从表22中可以看出，在执行管理敏感值的每个阈值水平下，与KCi切片相比，KC切片中的抑制值数量较高表23详细说明了在不同阈值下，职业属性中执行管理人员的效用水平从表23中可以看出，当与执行管理敏感值的初始阈值水平下的KC切片相比时，KCi根据表23中所示的结果，当在执行管理价值的各种阈值水平下与KC切片相比时，KCi图18示出了在职业属性中用于高管的KC切片和KCiKC-i切片模型根据敏感属性的敏感程度，为每个敏感属性设定了一个合适的阈值. KCI切片模型对高敏感度属性考虑了最高阈值它会自动为高敏感属性带来更多隐私。在KC切片模型中，对于每个敏感属性，仅抑制一个敏感值因此，可以存在通过使用背景知识从敏感桶中识别被抑制的敏感值的可能性。在KCi切片模型中，表14敏感属性值的名称：丈夫值总数：13193。阈值510152025303540抑制值9629800963894769312914882054未抑制值356451846804842410064117051298813189表15敏感属性值的名称：不在族中值的总数：8305。阈值510152025303540抑制值4741312115011630000未抑制值356451846804814283058305830583051404NVS Lakshmipathi Raju等人/沙特国王大学学报图16. 职业的效用收益：其他服务。图17.职业：工匠修理获得效用增益。从敏感表中识别隐藏的敏感值，因为它在发布数据时会考虑敏感属性的所有敏感值。KCi切片模型的特点是在所有敏感属性上获得所需数量的隐私级别和效用级别。通过引入KCi-切片模型，与KC-切片模型相比，它实现了更高结果表明，KCi-切片模型在阈值5时教育属性的超额隐私率为21.83%，关系属性的超额隐私率为29.6%，职业属性的超额隐私率为34.46%，图18. 职业中“执行管理”的Kci图十九岁KciKc在关系中对于“不在家庭中”的比较KC切片模型最后，在阈值5处，KCi切片模型比KC切片模型获得了22.69%的超额收益.同样地，当与KC切片模型相比时，KCi6. 针对不同攻击模式的隐私保护所提出的系统是成功的，对所有的链接类型的攻击，如身份链接攻击和属性链接攻击中列出的冯等。（2010年）。敏感属性的拆分表16Sensitive属性值的名称：服务器-服务值总数：5138。阈值510152025303540抑制值3194154714500000未抑制值19443591499351385138513851385138表17敏感属性值的名称：Craft-repair值总数：4099。阈值510152025303540抑制值2155568700000未抑制值19443531409240994099409940994099●NVS Lakshmipathi Raju等人/沙特国王大学学报1405图20. 教育学中“某学院”Kci与Kc的比较根据相关性划分为多个敏感表，利用SID对敏感属性进行聚类，以及对QID进行随机置换，可以有效地防止这类攻击。根据敏感属性的敏感程度，选择适当的隐私阈值，可以防止表链接攻击。该系统还可以防止相似性攻击。它考虑每个敏感属性的所有敏感值本研究工作使用语义l-多样性方法对元组进行分桶。该算法根据敏感属性的敏感性对

下载后可阅读完整内容，剩余1页未读，立即下载