轨迹数据发布中的隐私泄露影响及保护方法

68 浏览量更新于2024-01-06 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊23（2020）1291完整文章先验知识对轨迹数据发布中隐私泄露的影响D. Hemkumar，S.Ravichandra，D.V.L.N. 索马亚尤卢计算机科学与工程，国家理工学院Warangal 506004，印度阿提奇莱因福奥文章历史记录：收到2019年2020年5月14日修订2020年6月2日接受2020年6月30日在线提供关键词：隐私安全化轨迹数据发布A B S T R A C T基于位置的服务的使用的快速增长导致了对用户的轨迹数据发布的广泛研究但是，这里的一个关键问题是通过有效对手的各种链接攻击可能侵犯用户隐私针对身份链接攻击、属性链接攻击和相似性攻击等单一或组合的链接攻击，存在几种隐私保护方法。然而，相关记录链接攻击在现有的隐私保护方法中还没有被研究过本文提出了一种新的匿名化方法，以提供对所有四个链接攻击的用户的隐私保障。所提出的方法包括两个阶段，即虚拟化和抑制。虚拟化方法作为敏感属性的替换机制，而抑制方法作为用户轨迹的匿名化机制，以匿名化轨迹数据集，从而保护用户的隐私免受上述四种为了验证所提出的方法的效率，它也比较现有的方法，即KCL-L，KCL-G和KCL-PPTD，考虑合成和实时数据集。实验结果表明，该方法与现有方法相比，具有更好的性能，同时信息损失©2020 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍位置感知设备如GPS移动电话、RFID标签的使用的进步促进了用户的时空数据点的容易被称为用户轨迹的用户的时空数据点的序列这是因为，轨迹数据集包含用户因此，在发布轨迹数据集时，人们越来越关注的问题之一是如何控制用户的潜在隐私泄露，这可以很容易地跟踪和监控[4，5]。现有的隐私保护方法遵循基本的隐私保护原则，如在将用户身份带入（或发布）到发布之前从轨迹数据集中*通讯作者。电子邮件地址：hemkumar. gmail.com（D. Hemkumar），ravic@nitw.ac. 在（S. Ravichandra），soma@nitw.ac.in（D.V.L.N. Somayajulu）。lic域来实现用户但是，有效的对手可以通过使用他/她的先验（或背景）知识以高概率推断用户关于目标受害者的先验知识可以从各种资源中获得[7]，或者在大多数情况下，它是公开的[8]。此外，攻击者可以对已发布（或私有）数据集执行各种链接攻击，以高概率推断用户以下示例说明了如何通过执行各种链接攻击来侵犯用户示例：考虑一家医院X，该医院维护一个数据库，该数据库包含ID形式的患者患者的轨迹是患者相对于时间访问的位置的序列，并且被表示为一对轨迹。例如，患者ID 6被访问的位置是分别在时间戳6、7和8处的k、n和m。敏感值为高血糖。医院希望向数据挖掘人员发布（或发布）数据集以供研究之用。患者可能期望恶意数据挖掘者（或攻击者）可以通过执行以下链接攻击来滥用与披露患者敏感信息相关的https://doi.org/10.1016/j.jestch.2020.06.0022215-0986/©2020 Karabuk University. 出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestch布吕格nJ Jnn我123M123K12K12KMJJJJ12Kk1m1292D. Hemkumar等人/工程科学与技术，国际期刊23（2020）1291表1医院轨迹数据集Id轨迹敏感属性1a 1！ d 2！ p 3！ m 4！ k 6！ m 8登革热2d 2！ n 5！ k 6！ n 7高血糖一对一！ p 3！ n 7！ m8病毒感染3p 3！ m 4！ k 6！ 8高血糖4a 1！ d 2！ n 5！ k 6！ m 9登革热5n 5！ k 6！ m9肺部感染6k 6！ n 7！ 8高血糖7a 1！ d 2！ k 6！ n 7！ m9霍乱八比二！ n5！ n7！ m9伤寒身份链接攻击：如果患者（或目标受害者）的轨迹属性链接攻击：这种攻击只发生在目标受害者的敏感值更频繁地出现然后，即使对手没有目标受害者的唯一轨迹信息，对手也有可能破坏敏感信息[12]。相似性攻击：只有当对手利用他的先验知识识别目标受害者的所有可能的敏感值时才会发生。如果识别出的敏感值在语义上相似，则攻击者可以破坏目标受害者的广义敏感值[13]。相关记录链接攻击：在真实数据集中，目标受害者可能在发布的数据集中有多个数据记录。例如，行1和行3是属于相同患者id1的记录（即，相关记录w.r.t id），如表1所示。如果攻击者具有关于相关记录的附加知识，则攻击者可以高置信度地预测受害者在文献中，已经提出了许多隐私保护方法，例如泛化[7，14，15]，聚类[16，17]，Suppression[13，18]，扰动[19]，SwapLocation和ReachLoca- tion[20]，以保护用户敏感信息免受链接攻击。然而，这些方法为用户提供了隐私，单一或组合的链接攻击，如身份本文的主要贡献如下。我们提出了一个隐私保护匿名化方法，保护用户我们在我们的方法中引入了一个称为隐私高度的隐私阈值，它用于确定隐私风险的最后，我们通过在合成和实时数据集上进行实验，比较了以前的方法与所提出的匿名化方法之间的信息丢失率本文的其余部分组织如下。第2节介绍了基本的符号，隐私攻击，隐私要求和效用度量的定义。在第3节中，我们提出了一个隐私保护匿名化方法，为用户提供隐私，从四个链接攻击。在第4中给出了综合和实时数据集的实验结果。第5节简要介绍了现有的匿名化方法。最后，在第6中对本文进行了总结。2. 背景在本节中，我们讨论了一个基本的符号，从一个有效的对手的隐私链接攻击，实现私人轨迹数据集的隐私要求和度量匿名轨迹数据集的效用的度量。2.1. 符号轨迹数据集由用户的数据记录组成轨迹数据集T表示为，T1;S1; S2; S3; S4; S5;S6; S7;S8;S9;S10;S11; S12; S13;S14;S16; S18; S19; S其中，id是在T中唯一地标识用户记录的关键字Ti¼floc1;t1i;loc2;t2i;loc3;t3ilocn;tni..........................设ti=ti=i，ti为用户i的第n个，链接攻击、属性链接攻击和相似性链接攻击。此外，差分隐私（DP）是一个新的隐私概念，并被定义为查询应答机制的属性[21]。它确保所得到的答案不受轨迹数据集中任何数据记录的添加或删除的影响。然而，使用DP发布轨迹数据集可能无法在发布的轨迹数据集中提供数据真实性[6，13]。这是由于所得到的输出（或轨迹数据集）由于不确定性而不真实（例如，拉普拉斯噪声[22]），以实现不同的，是移动点的序列，直到用户i的第m个位置。总用户i 例如，如表1所示，用户id 3的移动点的总数为jT3jT4。设轨迹T i 1/2 ft i;t i;t i;。. .... ;tig，则轨迹Tj<$ft;t;t;tg被称为用户i的子轨迹，当且仅当存在一个整数k6m和<$Tj<$k<$Ti<$k，记为sj<$Ti。例如，fa1;d 2;n 5g是T4的子轨迹，如表1所示。此外，任意两个轨迹Ti^fi;;tig和T j <$ft j;t j;.. . ;t j;. ;tjg可以通过使用联合操作进行合并，保护方法，并且也没有隐私保护方法来解决所有上述四种链接攻击。在本文中，我们使用虚拟化和抑制的方法来匿名化的轨迹数据集，以保护用户的隐私，从上述四个虚拟化方法通过使用隐私高度阈值作为敏感属性的替换机制，抑制方法通过使用K-匿名阈值作为用户数据轨迹的匿名化机制。这两种方法的详细程序在第3节中描述。此外，隐私模型，如K-匿名[23]，l-多样性[24]和置信边界，[24] 不适合匿名的轨迹数据集，因为这些模型未能解决以下挑战，例如高维[25]，稀疏性[7]和序列性[18]。表示为，T i[T j] ft i; t i;. ; t i; t j... . ; t jg if T ikT jk2.2. 攻击者模型侵犯用户隐私的攻击者模型我们假设攻击者可以从各种来源获得关于目标受害者的先验知识，并且他的目标是通过将他的先验知识与已发布的轨迹数据集相关联来破坏目标受害者的敏感假设A是对手，这可能是数据分析员或数据收集器本身，他们的目标是找到记录或发送。尊重隐私据我们所知，相关的记录链接攻击在以前的隐私保护FGFGFG¼v¼ ðÞð Þ ððÞ Þ我tn2sinD. Hemkumar等人 /工程科学与技术，国际期刊23（2020）1291-13001293目标被害人在T.例如，Bob是用户，他的详细信息存储在给定的表1中。基于A身份链接攻击：假设对手A知道Bob分别在时间戳2和4访问的位置d和m，则A可以声称记录T1属于Bob。这是因为，T1是唯一一个包含子轨迹的记录d2; m4和subse-频繁地A 发现Bob的敏感值是登革热 100%信心属性链接攻击：假设A知道BobT1、T4和T7。对手A可以预测鲍勃患有登革热疾病具有67%的置信度，因为三个记录中的两个具有相同的敏感值。相似性攻击：设A对手A可以100%的置信度预测鲍勃有细菌感染，因为T7和T8的敏感值是不同类型的细菌感染。相关记录链接攻击：假设一个用户（Bob）在给定的数据集中有多个记录。让A知道Bob在数据集中拥有的数据记录的数量，以及关于鲍勃然后对手A可以100%的置信度预测Bob患有登革热加病毒感染因为由A识别的数据记录的数量与A为了防止上述链接攻击，需要向参与发布的Trajec- tory数据集的每个用户提供隐私。定义1.轨迹数据集T对于任何序列或轨迹Ti保持隐私，当且仅当Ti对于任何整数q和K满足0jTij6q和jTis jPK，其中jTij是用户i的轨迹的移动点的总数<换句话说，对手（具有有限的先验知识）不能以高置信度识别任何用户为了实现对来自对手的隐私，它是必要的，在我们提出的方法中采用一些隐私的要求2.3. 隐私要求我们在我们的建议方法中使用了敏感属性的分类树[26]来计算敏感值的级别。总的来说分类树被定义为元组的集合，敏感属性的分类树是由各种节点（或敏感属性）组成的层次结构。值），并在不同级别的各个节点之间建立关系。分类树中的每个节点都有自己的级别，称为隐私级别，级别编号从根开始节点到叶子节点。让一个函数“”m i ""被定义为返回用户i的某个级别的敏感值。节点mj是节点mi的父节点当且仅当'<$m i>T4（登革热）敏感值此外，我们采用传统阈值[18]，例如用户的轨迹至少出现K次，并限制对手对手知道任何目标用户的移动点的最大数量Q2.3.1. 虚拟化虚拟化方法用于虚拟化（或假名）用户的敏感值。如果任何数据记录的敏感值违反给定的隐私高度阈值C（称为关键数据记录），然后的虚拟化方法发现一个适当的虚拟-从满足给定隐私高度阈值的分类树中获取敏感值，并将其替换为原始敏感值。敏感值sv 2S被称为虚拟敏感值对于关键数据记录Tisiff's v 6 C和s v 2 h s。例如，假设C2，记录T4违反C阈值（见表1）. 然后，虚拟化方法确定虚拟-T4的敏感值，即，病毒感染，并替换为记录T4的原始敏感值，如表2所示。修改后的轨迹数据集（表2）被命名为虚拟轨迹数据集，并表示为Tv。2.3.2. 抑制抑制是从用户轨迹中抑制（或消除）违规移动点的方法。一组运动点被称为违反（或临界子轨迹）当且仅当jTjsijTj2Ts0 其中jTjsij是包含子轨迹si的数据记录的总数。抑制方法可以应用于两种设置。(1)它只从数据集的相应轨迹中消除一个移动点，称为局部抑制。(2)它从数据集的所有轨迹中消除一个移动点，称为全局抑制。在我们的匿名化方法中，我们采用了局部抑制设置，以在已发布的轨迹数据集中实现高数据效用。例如，假设阈值K1/42，子轨迹fa1;m 4g不满足K值。因为fa1; m4g还没有出现如表2所示，在相对于记录T1的敏感值的T的任何轨迹中。抑制临界子轨迹的移动点取决于抑制度量，这在接下来的子部分中讨论。2.4. 效用度量重要的是平衡匿名轨迹数据集T0的用户隐私和效用之间的权衡我们定义了一个抑制度量来衡量的抑制得分的关键子轨迹中的每个移动点。它有助于决定哪些移动点必须从关键子轨迹中删除，从而使匿名轨迹数据集获得更多的实用性。抑制评分定义如下。定义2.设T_i_T_s是具有相同敏感值s2S的数据记录的集合，T_i2 T_i_s是用户i的数据记录。假设si2Ti是用户i的临界子轨迹。移动点tn2si相对于tT n 2si的抑制分数表示为：Ttn;Ts，计算如下。S节点mi 而<$hkmi是节点m i的第k个祖先。比如说，Tt;TsjTtnjSð1Þ<$h1<$H1N1<$=病毒，如图所示。1.一、njðT Þ j接下来，我们在我们的方法中引入了一个称为隐私高度的阈值，并表示为C。它用于确定隐私风险的上限。换句话说，所提出的方法提供了一个初步的，向敏感值的级别大于隐私高度阈值的用户提供隐私保证。例如，记录当C设置为2时，T4违反了隐私高度阈值，因为其中，n是一组包含移动点tn的敏感值s的轨迹。临界子轨迹si相对于Ts的抑制度量表示为vsi;Ts，并计算如下。最大值Tt;Ts2ðÞðÞð Þ←ð Þ←ð Þ÷ð Þð Þ←ð Þ ð Þ←ð Þ ð Þ←ð ð ð ÞÞ ^ð ð ÞÞÞ1294D. Hemkumar等人 /工程科学与技术，国际期刊23（2020）1291-1300Fig. 1.人类疾病分类树。表2虚拟轨迹数据集ID轨迹虚拟敏感属性1a 1！ d 2！ p 3！ m 4！ k 6！ m8病毒感染2d 2！ n 5！ k 6！ n 7高血糖一对一！ p 3！ n 7！ m8病毒感染3p 3！ m 4！ k 6！ 8高血糖(1) 敏感属性虚拟化：敏感属性虚拟化方法旨在从给定的轨迹数据集中识别所有关键数据记录，并通过使用相应敏感属性域的分类树将其敏感值替换为虚拟敏感值。算法1示出了敏感属性虚拟化SaV方法的伪代码并且如下。4a1！ d2！ n5！ k6！ m9 病毒感染5n 5！ k 6！ m9肺部感染算法1：SaV（）6k6！ n7！ 8高血糖7a 1！ d 2！ k 6！ n 7！ m9细菌感染8d 2！ n 5！ n 7！ m9细菌感染此外，局部抑制方法总是消除关键子轨迹中抑制分数较小的移动点。一旦该方法是抑制数据集Tv的所有关键子轨迹的移动点，则替换所有原始敏感值以代替Tv中的相应数据记录的虚拟敏感值，如表3所示。据我们所知，以前的匿名化方法都没有使用虚拟化方法来保护轨迹数据发布场景中用户的隐私。同时也注意到在我们提出的方法中没有敏感属性信息的损失。因此，所提出的方法提供了更好的数据效用，也确保了更好的隐私保证对四个链接攻击。3. 该方法在本节中，我们提出了一种匿名化方法，防止用户的敏感信息从四个链接攻击。该方法分为两个阶段：（1）敏感属性虚拟化，采用隐私高度阈值作为敏感属性的替换机制;（2）轨迹抑制，采用K -匿名阈值作为用户身份的匿名化机制以上两个阶段的详细程序如下。表3分析轨迹数据集T0Id轨迹敏感属性1p 3！ m 4！ k 6！ m 8登革热2d 2！ n 5！ k 6！ n 7高血糖一比七！ m8病毒感染3p 3！ m 4！ k 6！ 8高血糖4d 2！ n 5！ k 6！ m 9登革热5n 5！ k 6！ m9肺部感染6k 6！ n 7！ 8高血糖7d 2！ k 6！ m9霍乱8d 2！ n 5！ m9伤寒输入：轨迹数据集T，敏感属性分类，隐私高度C。输出：虚拟轨迹数据集Tv.1：扫描轨迹数据集T2：对于每个Ti，将其与连续的Ti 1进行比较3：如果Ti;Ti1are属于一个个体，则4：如果Ti s 6 C ^ 'T i 1 s 6 C^'，5：如果（Ti s Ti 1s），则6：将敏感值设置为虚拟值7：否则8：vs←max9：set：Ti s;Ti 1svs10：如果结束十一：否则，如果T i;T i1中的一个保持C阈值，则12：set：vs ← T is，假设T i s 6 C ，13：set：T i 1 s vs14：其他15：呼叫EVsVeXTis，16：设置Ti s;Ti 1svs17：如果结束18：其他十九日：如果不是的话6个C是吗？6C然后20：将敏感值设置为虚拟值21：否则，如果Ti;Ti= 1中的一个保持C阈值，则22：调用 EVv =Ti=1 ，假设Ti = 1，T i23：set：T i sVS24：其他25：调用EVsV（）用于Ti;Ti= 126：set：Tis←vs27：set：Ti 1svs28：如果结束29：如果结束30：结束算法SaV（）将原始轨迹数据集、隐私高度阈值和分类树作为输入，并产生虚拟轨迹数据集作为输出。SaV首先通过将每个记录与T的连续记录进行比较来查找属于同一用户的记录。如果找到记录，则验证-ðÞðÞðÞðÞðÞðÞð-Þ2¼[←←←←ð ðÞ÷ Þð Þ←¼þ-ðÞ2ðÞ¼[f [gðÞðÞðÞ--D. Hemkumar等人 /工程科学与技术，国际期刊23（2020）1291-13001295是否两个记录都满足隐私高度阈值。如果满足，则检查两个记录的敏感值是否相等。如果相等，则不必替换虚拟敏感值。否则，SaV在两个记录中选择具有最大级别敏感值的记录。将最大级别的敏感值设置10）。此外，其中一个记录不满足隐私阈值的可能性，老C，然后是SaV将其他记录的敏感值设置为虚拟敏感值，并违规记录（第11- 13行）。在最坏的情况下，没有记录满足隐私阈值C，则SaV调用EVsV算法以查找虚拟敏感值两记录并且算法3 ATdb（）输入：虚拟轨迹数据集Tv，A最大长度q;K阈值输出：分析的轨迹数据集T0。1：扫描轨迹数据集Tv2：letS = {set of all distinct sensitivevalues} 3：foreachs2S do第四章：第一节;第二节;第三节第五章：A¼ fTrjTr2Tv^Trsg第六章：B¼Tv- fAg第七章：对于每个Tr2Ado8：CrfsrjsrTr^ jsrj1g 9：foreachsr2Crdo替换为违规记录（第14- 16行）。在两个记录属于不同用户的情况下，10：如果Rjsr2Trj8Tr2B P卡茨然后然后重复一类似程序作为解释第19行之前20 .但是如果记录之一不满足隐私高度阈值，则SaV 呼叫EVsV 算法找到违规记录的虚拟敏感值并将其具有违规数据记录的敏感值。在最坏的情况下，没有一个数据记录满足C阈值，则SaV搜索器调用EVsV搜索算法来找到虚拟敏感值，并且11：DiDiSR12：其他13：从Tr A删除sr14：如果结束十五：端十六日：端17：whilekui11月16日星期二18：foreachsr2Di join with successfulsri inDi do替换为第21 - 28行两个记录的敏感值。19：如果n jsr[srni2Trj8Tr2BþPkomp然后算法2 EVsV（）INPUT：记录的敏感值Tii ist，敏感属性的分类，隐私高度C。输出：虚拟敏感值vss。1：初始化vsi;ji2：做第三章：setv shjTis4 ：if'vsC t h e n 5 ： t false6：其他第七章：J第八章：Ti sVS9：ttrue10：如果结束11：whileetheit第12章：一个女人第20章：你是我的女人斯瑞吉21：其他22：t¼sr[sri23：从TrA删除vt24：如果结束25：结束26：ii1二十七：end while 28：结束29：替换所有原始敏感值算法ATdb以虚拟轨迹数据集、对手它首先将所有不同的敏感值的集合分组，命名为集合S（第1行）。对于来自S的每个敏感值s，执行以下操作。将数据集Tv分割成两个不同的数据集，假设集合A由具有敏感值s的数据记录组成，并且剩余的数据记录到集合B中（第5行6）。然后，从集合A的记录中找到长度为1的所有子轨迹，并检查是否每个算法2EVsV采用违反集合A的子轨迹在数据中出现至少K-1次记录、敏感属性域的分类树和隐私高度阈值作为输入，并给出虚拟敏感值作为输出。算法EVsV开始于通过使用分类树来识别给定敏感值的父值（第3行），并验证所识别的父值（或敏感值）是否满足隐私高度阈值（第4行）。如果是，则返回父值作为虚拟敏感值。否则，遵循更新值或父值的相同过程。现在，通过使用SaV和EVsV算法将给定的轨迹数据集转换为虚拟轨迹数据集Tv。此外，在数据集Tv的队列中存在若干关键移动点，这导致用户的敏感信息被泄露。为了克服这个问题，抑制方法被应用到数据集Tv，以保护用户的敏感信息。(2) 轨迹抑制轨迹抑制方法用于从数据集Tv的轨迹中移除所有关键移动点，并产生匿名轨迹数据集。算法3示出了轨迹抑制方法ATdb的伪代码，如下所示。B组的记录。如果是，则保持子轨迹在集合A中的原样。否则，从集合A的相应数据记录中消除子轨迹的移动点（行7 15）。然后，通过并运算，求出所有长度为2的子轨迹并检查是否有长度为2的子轨迹不满足K隐私阈值。如果找到，则从子轨迹中消除移动点（通过抑制分数度量计算），并且子轨迹的剩余移动点保持在对应的数据记录中（行1825）。重复这些步骤，直到子轨迹的长度等于对手的先验知识长度λ。对所有S值重复相同的过程然后，将所有记录的原始敏感值复制到相应的响应T0记录的虚拟敏感值，如表3所示。因此，在我们提出的方法中，没有敏感属性信息的损失。所提出的匿名化方法产生匿名化轨迹数据集T0（表3），并且它确保保护用户的隐私免受四种据我们所知，以前的匿名化方法都没有使用虚拟化方法来保护轨迹数据发布中用户的隐私现在我们展示了匿名轨迹数据集FGFGfg fg fgfg¼0ð ÞQð Þ2ð Þ¼1/1我QQ小行星1296Hemkumar等人/工程科学与技术，国际期刊23（2020）1291T0可以抵抗所有四种链接攻击，即身份，属性，相似性和相关记录链接攻击。考虑表3是匿名轨迹数据集，并且它满足隐私要求，例如C1/2、K1/2和q1/2。假设对手A具有先验知识@1/2，为实施例D2; M4;A1; K6; N7;M9和A1;M8。然后，A可以执行所有表1上的四个链接攻击，在2.2节中讨论过。而表3抵抗针对A例如，Afd2;m 4g，对手无法识别任何数据记录它与表3中的先验知识fd2;m 4g相匹配，是4个与先验知识d2相匹配的数据记录，但对Bob敏感值的推断此外，对手无法执行这些四个链接攻击，具有长度为1/42的其他先验知识例如，给定先验知识为k6;m 9，对手可以推断Bob因此，表3抵抗针对A的先验知识的所有四种链接攻击。隐私泄露阈值（修复r0： 5）对具有各种@和K值的用户结果表明，随着@长度和K值的增加，用户平均4.1. 轨迹信息丢失：在已发布的轨迹数据集T0中，计算用户轨迹信息丢失的数量是至关重要的否则，数据分析的结果可能会给出错误的输出。轨迹信息丢失是由于从用户的轨迹中消除了满足隐私阈值的关键移动点而发生的。数据集T中的轨迹信息损失计算如下。给定匿名轨迹数据集T0及其原始轨迹数据集T。让你：T0-！T是将T0的数据记录映射到其对应的T的数据记录的函数。然后，火车-数据记录T0i的信息丢失是，@1/2。ILT0jUT0ij-jT0ijð4ÞijUT0ij4. 实验和结果我们进行了一个实验来评估我们所提出的算法的性能方面的信息损失在anonymized轨迹数据集T0。一般来说，信息丢失发生在任何匿名轨迹数据集中，其中，jUT 0ij是数据集T的T i中的移动点的总数，jT 0ij是数据集T 0的相应数据记录T 0i中的移动点的总数。然后，数据集T0的总轨迹是计算如ILT0RjT0 jILT0。图 3示出了平均轨迹信息从用户的轨迹或用户的敏感值的失真（或泛化）或两者中生成一组移动点。在我们的方法中，匿名化轨迹数据集T0中所有用户的敏感值不会失真，因为所有记录的原始敏感值都被复制到T0中记录的相应虚拟敏感值中（见表3）。因此，在我们的方法中的信息损失只从用户的轨迹，而不是从敏感属性。我们考虑了四个用于进行实验的轨迹数据集，例如Geolife[27]，T-Drive[28]，Metro 100 K[29]和私人Wi-Fi数据集。Geolife数据集是一个实时GPS轨迹数据集，在三年内从182个用户收集。数据（位置值）收集的平均频率每1到60个用户。T-Drive数据集包含以下路径：在具有不同K阈值的四个轨迹数据集中的损失。结果表明，随着K值的增加，由于不满足隐私阈值而增加了关键移动点的数量，T0时的平均轨迹信息损失也在增加此外，我们在原始轨迹数据集和匿名轨迹数据集上应用查询应答机制[13]设l是读取查询q和轨迹数据集作为输入的机制，并且它返回匿名轨迹数据集的错误率。机构l计算为jlTj- jlT0 j10357辆出租车在一年内的数据和平均频率（位置值）每3分钟从用户收集私人l¼qQjlTjð5ÞWi-Fi数据集是一个实时数据集，涉及24小时内从175个Wi-Fi点获得的约12500个用户轨迹，以及每1到12小时从用户收集数据的频率。5分钟最后，Metro100K数据集是一个合成数据集，包含24小时内26个城市的大都市地区的100000个用户轨迹。在所有数据集中，每个轨迹对应于一个人的路线和一个随机分配的敏感值，每个轨迹数据记录有六个可能的值之一。最初，我们首先分析在向公共部门发布原始轨迹数据集时可能违反的用户隐私数量为了进行分析，我们采用了隐私泄露阈值（记为r），它有助于确定隐私风险的上限。换句话说，如果用户的敏感值上的隐私泄露的概率大于r值，则用户的隐私处于各种链接攻击的风险中。数据的隐私泄露关于s S的记录Ti被表示为bTis，并且计算如下。bT i s Pb Tis jT i s>r 3其中s是长度至多为q个移动点的子轨迹。攻击者其中，jlTj和jlT0j分别是T和T0数据集中满足查询q的设q是计数查询（例如：计数T中包含a的数据记录的数量）子轨迹记录0）。在实验中，我们随机选择500个子从四个轨迹数据集中提取不同大小的轨迹，并计算计数查询的平均错误率。图4示出了在固定各种A结果表明，随着A的先验知识的增加，平均查询-回答错误率也随之增加这是因为随着@的增加，从临界子轨迹中消除了更多数量的移动点。隐私阈值对匿名轨迹数据集的效用的有效性是如下C阈值的影响：图。图5示出了隐私高度阈值对不同K值的T0中的用户轨迹的影响，同时固定Q2.结果表明，平均轨迹信息当隐私高度的值增加时，损失减小。由于少量的移动点被从数据集T中消除，因此少量的敏感值被泛化。请注意，根节点不能是privacy-height阈值的值。由于所有用户的敏感值变成了唯一的敏感值，这就导致了更多敏感属性信息的丢失。D. Hemkumar等人 /工程科学与技术，国际期刊23（2020）1291-13001297图二、用户相对于A的各种长度的先验知识的平均隐私风险，同时固定r1/（a）Geolife数据集（b）T-Drive数据集（c）Metro数据集（d）Private Wi-Fi数据集。图3.第三章。具有不同K阈值的T0中的平均轨迹信息损失（a）Geolife数据集（b）T-Drive数据集（c）Metro数据集（d）Private Wi-Fi数据集。见图4。不同A的先验知识的平均查询-回答错误率图五、隐私高度C阈值对不同K-匿名值的用户机密信息丢失的影响（a）Geolife数据集（b）T-Drive数据集（c）Metro数据集（d）Private Wi-Fi数据集。K阈值的影响：K隐私阈值对匿名化轨迹数据集T0的影响如图所示。3.第三章。结果表明，隐私阈值K值越大，用户的平均轨迹信息损失也越因此，数据发布者必须选择合适的K阈值，它保持了数据集T0的适度效用以及用户此外，我们证明了匿名的轨迹数据集的用户的兴趣点（POI）的有效性。为了确定特定区域的用户PoIs，我们需要对比-≤ ≤ ≤≤jðÞ ð j j j j ÞLKj小行星1298Hemkumar等人/工程科学与技术，国际期刊23（2020）1291用户经常访问的位置以及他们在这些位置停留的时间间隔。对于实验，我们考虑一组时间间隔（例如，5;10; P 5 &30和P 10 & 60分钟），因此，我们在原始数据集中找到特定于时间的访问PoIs，从所提出的方法和用于分析平均PoIs信息损失或失真的PoIs数量的其他现有技术方法发布的符号化数据集。图6示出了在原始数据集和从所提出的方法和其他现有技术方法公布的匿名化数据集之间访问的PoI结果表明，与其他最先进的方法相比，所提出的匿名数据集具有略高的访问频率。4.2. 比较KCL-本地[18]、KCL-全局[7，29]和KCL-PPTD[13]是最近的匿名化方法，其为用户提供隐私以对抗身份、属性和相似性等三种链接攻击的单一或组合我们将我们提出的pri- vacy方法与现有技术的方法进行比较，以验证我们的方法的效率，并且我们使用完全相似的数据集（Metro 100 K），该数据集用于上述方法中以进行公平的比较。实验结果表明，所提出的方法具有更好的性能与信息损失（包括轨迹和敏感值）显着减少，如图所示。7.第一次会议。该方法中的信息丢失与KCL-PPTD方法密切相关，因为在KCL-PPTD中，用户轨迹中的轨迹信息丢失较少，而敏感属性中的敏感信息丢失较多。而在我们的方法中，没有敏感属性的损失和一点点的轨迹信息丢失的用户因此，这两种方法的信息损失与KCL-PPTD相比，该方法避免了一次额外的链接攻击（相关记录链接攻击）。因此，所提出的方法是一个相对更好的方法比现有的方法。4.3. 复杂性分析所提出的匿名化方法包括两个阶段。在第一阶段，利用SaV敏感值和EVsV敏感值两种算法，用虚拟敏感值代替关键数据记录的敏感值，生成虚拟轨迹数据集。SaV分类的最坏情况时间复杂度是OjTj2，并且EV分类的最坏情况时间复杂度是Oh，其中h是分类树的高度。因为h很小，所以它变成O1。因此第一阶段的最坏情况时间复杂度是OT2。在第二阶段，利用ATdb算法对临界数据记录的移动点进行抑制。最坏情况下的时间ATdb的复杂度是O SnqTlTk，其中S是- 所有不同的敏感值，nq是长度为q的离散子轨迹的集合;jTjl是集合A的数据记录的总数，jAj1/4 l和jTjk是集合B的数据记录的总数，jBj ^k（参考算法3），即，jTjjTj jT j.因此，所提出的方法的最坏情况下的时间复杂度是O SnqT2.图8示出了在两个应用之间的运行时间性能的结果。提出的方法和以前的方法。我们可以观察随着K值的增加，运行时间也增加，因为更多的轨迹满足不同的K-匿名值。5. 相关工作在本节中，我们简要介绍了以前现有的隐私保护匿名化方法。以下方法为用户提供隐私保护，以抵御身份、属性、图六、原始数据集和从所提出的方法发布的匿名数据集之间访问的PoI的平均频率，KCL-PPTD，KCL-本地和KCL-全局。（a）Geolife数据集（b）T-Drive数据集（c）Metro数据集（d）Private Wi-Fi数据集。见图7。所提出的隐私方法与KCL-PPTD、KCL-本地和KCL-全局（a）Geolife数据集（b）T-Drive数据集（c）Metro数据集（d）Private Wi-Fi数据集之间的效用比较。ðÞD. Hemkumar等人 /工程科学与技术，国际期刊23（2020）1291-13001299图8.第八条。所提出的隐私方法与KCL-PPTD、KCL-本地和KCL-全局（a）Geolife数据集（b）T-Drive数据集（c）Metro数据集之间的运行时性能(d)私人Wi-Fi数据集但是，相似性。在文献中，Monreale等人。[30]提出了一种结合位置泛化和 K- 匿名概念的方法。它保证所有广义轨迹满足K- 匿名性。Ghasemzadeh等人。[31]提出了一种混合方法，旨在保护时空数据隐私和客流信息质量。该方法利用局部和全局抑制来实现隐私和信息质量之间的公平权衡，并比较两个概率流图来评估数据匿名化前后的信息质量。Nergiz等人。[15]提出了一种基于随机化的重建算法，用于发布匿名轨迹数据，并提出了底层技术如何适应其他匿名标准。这三种方法只能解决身份链接攻击，而不能解决属性、相似性和相关记录链接攻击。Fung等人[7]定义了一个称为LKC隐私的隐私模型。它保证了每个长度不超过L的子轨迹被轨迹数据集中至少KMohammed等人[29]提出了一种有效的匿名化算法，以解决匿名化高维、稀疏和顺序RFID数据集的特殊挑战。Terrovitis和Mamoulis[32]使用抑制技术来抑制位置信息，以实现安全数据发布的隐私要求。Chen等人。[18]提出了一个匿名化框架，采用现有的匿名化框架，轨迹数据匿名的隐私模型这一框架支持局部和全局抑制，旨在提高不同数据挖掘任务的数据效用。Hussaeni等人[33] 提出了一种动态更新的滑动窗口方法来匿名化高维轨迹数据。Terrovitis等人[34] 提出了四种方法，采用位置抑制，轨迹分裂，或抑制和分裂，以处理大的轨迹数据集。Liu等人。[35]提出了一种K-L隐私模型，该算法采用泛化和抑制技术保护轨迹数据的隐私。上述隐私保护方法只处理两种链接攻击，即身份链接攻击和属性链接攻击，而不处理相似性链接攻击和相关记录链接攻击。Elahe Ghasemi Komishani等人[13]提出了一种新颖的方法PPTD（轨迹数据发布中的隐私保护），用于在轨迹数据发布中保护个性化隐私。该方法主要包括敏感属性泛化和轨迹局部抑制两个步骤，分别用于泛化敏感属性和抑制轨迹。林瑶等[36]建议一个l;a;b隐私模型，抵御三种类型的链接攻击。是l-多样性机制的增强版本这两种方法提供了一个隐私保证，从三个链接攻击，即身份，属性和相似性，而不是相关记录链接攻击。Dwork等人[21]提出了一个新的隐私概念，称为隐私（DP），并被定义为查询应答机制的属性它确保了所得到的答案不受轨迹数据集中任何数据记录的添加或删除的影响最近，很少有方法在轨迹数据集上采用这种DP的思想[37，38]。这些方法的目标是发布对特定数据挖掘任务[39]例如计数查询应答和频繁项集挖掘。另一方面，使用DP发布轨迹数据集可能无法在发布的轨迹数据集中提供数据真实性[6，13]。这是由于所得到的输出（或轨迹数据集）由于不确定性而不真实（例如，Laplace噪声[22]），用于实现差分隐私。此外，DP的非交互设置中的查询应答机制的结果比交互设置中的查询应答机制的结果有更大的偏差[40]。因此，它不适用于轨迹数据发布场景。表4描述了防止不同类型的链接攻击的隐私保护方法的列表表4防止不同类型的链接攻击的隐私保护方法列表方法身份链接攻击属性链接攻击相似链接攻击相关记录链接攻击蒙雷阿莱[30]U–––加西姆扎德[31]U–––Nergiz[15]U–––香港[7]UU––穆罕默德[29]UU––[32]第三十二话UU––陈[18]UU––侯赛因[33]UU––[34]第三十四话UU––[35]第三十五话UU––Komishani[13]UUU–姚明[36]UUU–该方法UUUUnn1300D. Hemkumar等人/工程科学与技术，国际期刊23（2020）12916. 结论和今后的工作在本文中，我们提出了一个隐私保护的方法，以防止用户我们的方法采用了现有的LK隐私模型来固定的上限对手并引入了一个新的隐私阈值pr

下载后可阅读完整内容，剩余1页未读，立即下载