网络数据的隐私感知混淆方法

25 浏览量更新于2023-10-16 收藏 14.87MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2670隐身：一种混淆Web数据的方法0Rahat MasoodData61-CSIRO和UNSW悉尼，新南威尔士州，澳大利亚rahat.masood@student.unsw.edu.au0Dinusha VatsalanData61-CSIRO悉尼，新南威尔士州，澳大利亚dinusha.vatsalan@data61.csiro.au0Muhammad IkramData61-CSIRO和UNSW悉尼，新南威尔士州，澳大利亚muhammad.ikram@data61.csiro.au0Mohamed Ali KaafarData61-CSIRO，麦格理大学和Optus麦格理大学网络安全中心悉尼，新南威尔士州，澳大利亚dali.kaafar@mq.edu.au0摘要0用户在网络上搜索或共享信息时留下了他们的个人数据、兴趣和意图的痕迹。因此，基于推理分析，网络数据可能揭示有关用户的一些私人/敏感信息。已经进行了一些关于通过混淆方法提高网络数据隐私的工作[7, 12, 18,32]。然而，这些方法既不全面，也不通用，不能适用于任何网络数据，也不能有效对抗对手的攻击。为此，我们提出了一种针对网络数据的隐私感知混淆方法，解决了现有方法的这些缺点。我们使用概率方法预测网络数据的隐私风险，该方法包括网络数据的唯一性、一致性和可链接性等所有关键隐私方面。然后，我们的方法通过使用语义相似的数据对高风险数据进行混淆，以最小化隐私风险。我们的方法对具有关于数据集和模型学习的风险概率的知识的对手具有抵抗力，使用基于差分隐私的噪声添加。对两个真实网络数据集进行的实验研究验证了我们方法的重要性和有效性。我们的结果表明，平均隐私风险达到100%，最少需要10个敏感网络条目，而通过我们的混淆方法，最多可以达到0%的隐私风险，但平均效用损失为64.3%。0CCS概念0∙安全和隐私→隐私保护协议；数据匿名化和清理；隐私保护；0关键词0网络数据隐私，隐私风险评估，数据混淆，对抗机器学习，概率模型，语义相似性0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860930ACM参考格式：Rahat Masood，Dinusha Vatsalan，MuhammadIkram和Mohamed Ali Kaafar。2018。隐身：一种混淆Web数据的方法。在WWW2018：2018年Web会议上，2018年4月23日至27日，法国里昂，Jennifer B.Sartor，Theo D'Hondt和Wolfgang DeMeuter（编辑）。ACM，纽约，美国，10页。https://doi.org/10.1145/3178876.318609301 引言0广泛使用网络进行在线搜索或共享信息引入了各种隐私和保密威胁。其中最持久的威胁之一是通过用户的网络行为数据对其进行身份识别和跟踪[6, 16,33]。用户在使用在线服务（如社交网络、讨论论坛、产品评论网站和搜索引擎）时，无意中留下了他们的个人信息、兴趣和意图的数字痕迹，这可能泄露有关他们的敏感信息。当用户从匿名数据集中通过推理分析被窃听者或研究人员识别时，这种威胁变得更加微妙。文献中涉及此类威胁的几个例子是对65万用户的匿名化AOL搜索历史记录进行重新识别[16]，对50万个Netlix订阅者的训练数据进行重新识别[28]以及对马萨诸塞州医院出院数据进行重新识别[34]。虽然已经有一些关于通过混淆方法提高用户网络数据隐私的工作，但这些现有方法主要缺乏考虑网络数据隐私的所有关键方面/特征，并且不适用于任何网络数据（例如搜索查询、帖子、评论、评论）。此外，这些混淆方法对抗对手的攻击不具有弹性，即在对手对混淆机制和用户网络行为的知识的情况下，它们会破坏保护用户网络数据隐私的保证。为此，我们提供了两个关键问题的答案：（1）网络数据隐私的关键特征是什么？如何通过考虑这些特征来量化隐私风险？（2）如何开发一种具有鲁棒性的混淆机制，以提高高风险的网络数据的隐私，假设对手可以访问匿名化的网络数据并了解混淆算法的知识？我们提出了一种对用户网络数据的隐私风险进行预测并通过保护免受对手的推理攻击的高风险数据进行混淆的对抗性、定量化方法。0跟踪：Web上的安全与隐私 WWW 2018年4月23日至27日，法国里昂2680跟踪：Web上的安全与隐私 WWW 2018年4月23日至27日，法国里昂p(X1∶T ,Y1∶T ) ≙ p(X1)P(Y1︀X1)T∏t≙2p(Xt ︀Xt−1)p(Yt ︀Xt ).(1)2690某个数据或数据序列的非相似度被衡量为用户与其他用户的Web数据相似度的非似然性，使其独特或突出以揭示用户的身份。例如，如果用户数据包含'Smith'，则不太可能被识别，因为它是澳大利亚一个非常常见的名字，而包含'Dijith'（这是一个较不常见的名字）的数据更可能被识别（因此不匿名）。同样，如果用户数据包含一个较不常见的主题（例如，一个特定的药物），则更容易被重新识别，并且当用户的先前数据包含姓名和位置等个人信息时，可区分性和可链接性的概率变得更高。基于用户先前数据（即历史记录）的均匀性概率被衡量为用户输入数据的可能性（从而表明用户对数据感兴趣）。用户在先前历史中输入某个数据的次数越多，推断用户对该数据感兴趣的信心就越高。独特性和均匀性的联合概率衡量了用户在其Web行为中的可识别性的概率（即用户的隐私收益的逆）。用户数据与个人的可链接性概率基于用户数据中的个人身份信息（PII）的多少。PII可以揭示用户的个人身份，因此允许将相应的数据与用户进行链接。总体隐私风险被衡量为可识别性（独特性和均匀性）和可链接性概率的联合概率。从Web数据序列中推断的概率通常是基于先前数据的条件概率，因此随着用户的Web数据序列的增加，推断风险变得更高（用户数据序列的隐私保护概率随之降低）。这种直觉背后的原因是用户通过Web行为序列学习或揭示更多信息，因此数据变得更加精细或特定于某个主题，使得Web数据序列与个人高度可链接（不太匿名）。因此，推断概率变得更高，用户的后续Web数据/行为可能面临更高的泄露风险。02.2 风险预测0我们的风险预测模块的目标是以隐藏的马尔可夫模型（HMM）中的概率形式衡量用户Web数据的可区分性、均匀性和可链接性风险。用户用 u i 表示，时间 t 输入的数据表示为 X t。我们使用先前的Web数据训练HMM模型，以预测用户在当前时间输入的Web数据的隐私风险。HMM是一种概率模型，用于表示观测序列的概率分布。它们用于语音识别系统、计算分子生物学应用、计算机视觉应用和其他人工智能和模式识别应用 [ 17]。假设一系列事件（用户输入的Web数据）随时间 t 为 X 1 , X 2 , � , X T 。这些事件满足（一阶）马尔可夫性质，即当前事件 X t独立于 X t − 1 之前的所有事件。每个事件 X t 输出观测值 Y t，观测值也满足马尔可夫性质，即 X t 和 Y t与所有其他时间索引处的事件和观测值无关。这些马尔可夫性质表明，事件序列和它们的观测值的联合分布可以分解为：0用户输入的Web数据成为一个节点，并且在HMM中建模了独特性、均匀性和可链接性的概率。建模的三个概率为：0(1)独特性被建模为HMM中的转移概率。转移概率是给定所有用户的先前数据序列的条件概率与所有用户的数据相关的。这是为了计算用户数据与其他用户数据的不可区分性或非唯一性所必需的。数据可区分性的风险取决于先前数据。原因是如果考虑了相同主题中的先前数据，则数据的信息增益会更高。HMM中的节点包括与个人可识别信息主题相关的时间点数据（Xt）和/或私密/敏感主题（如癌症、药物和怀孕）。边缘包含节点之间的转移概率（p(Xt�Xt−1)）。这些转移概率根据它们发生的转换次数进行加权，即wT � 1 �count(Xt�Xt−1)。为了计算用户的Web数据的隐私风险，考虑加权转移概率，即wT ×p(Xt�Xt−1)。（2）均匀性被建模为HMM中的观测概率。观测概率是不同用户（ui）在先前Web数据中找到的数据的概率，包括要预测的风险用户（如果有）。每个节点包含一组具有观测概率的观测。我们将这些观测概率建模为不同用户对给定数据Xt在先前数据中的概率，即p(ui�Xt)。这是为了将用户的不均匀性因素纳入考虑，因为用户输入的数据的频率。用户输入特定数据的次数越多，对用户感兴趣的数据的推断的置信度（因此风险越高）就越高。再次，这些概率按照wO � 1 �count(ui�Xt)进行加权，然后进行反转（用户越均匀，隐私风险越高，因此隐私概率越低），即(1 − wO ×p(ui�Xt))。（3）除了这两个概率之外，我们还有基于先前搜索的用户的先验概率，其中包括PII（姓名、位置和组织）。为了将与PII主题以外的敏感/私密主题相关的Web数据链接到用户，需要考虑用户在先前数据中透露的PII。对于用户ui，先前风险概率通过从包含用户的观测概率> 0的PIIHMM中的所有路径中获取最小隐私概率（最大隐私风险）来计算，即p(ui�Xt) >0。对于之前搜索历史中没有透露任何PII的用户，先前隐私概率变为1.0。0用户ui在Web数据序列X1→X2→�→Xt上的整体隐私概率是根据马尔可夫方程（1）计算的。0主题：Web上的安全与隐私 WWW 2018年4月23日至27日，法国里昂×(1 − wO × p(ui︀Xx)),(2)2700概率：0p ( X 1 , � , X t � u i ) � min (HMM PII � u i ) × w T × p ( X 1 )0×( 1 − wO × p ( u i � X 1 )) × t ∏ x � 2 wT × p ( X x � X x − 1 )0其中HMM PII � u i 返回从PII HMM计算的包含用户观测概率>0的所有路径的隐私概率列表。02.3 混淆0一旦我们的方法根据预测的隐私概率将用户数据识别为隐私风险，第二步是用HMM中不同路径中的替代数据替换或修改原始高风险数据，以克服隐私风险并损失效用。我们根据原始数据Xx与建议数据Xy之间的语义相似性量化效用损失（ul）。0ul(Xx，Xy)�1.0−sim(Xx，Xy)，(3)0其中sim(Xx，Xy)是一个语义相似性函数[24]，返回两个数据之间的相似性值，范围在0和1之间。语义相似性越大，使用替代数据的效用损失越低。混淆模块生成一系列替代数据建议（从HMM模型中学习）以及它们的预测隐私风险和计算的效用损失，系统从中选择一种替代数据以克服隐私风险。重要的是要注意，原始数据的效用损失为0.0（1.0−sim(Xy，Xy)�1.0−1.0�0.0）。02.4对抗机器学习0给定训练数据集和学习的HMM模型，对手可以访问概率，就像所有其他现有的混淆技术一样，我们的隐私感知混淆技术可能容易受到隐私攻击以学习原始数据。对手能够使用学习的HMM概率计算或估计隐私风险值，这可能导致隐私侵犯。例如，如果用户的隐私风险随用户输入的数据增加而增加，突然降低风险，则对手可能能够猜测这可能是系统扰动的数据。在这种情况下，对手将能够通过获取具有更高风险的HMM中的所有可能路径来猜测实际数据。为了克服这种攻击，我们提出了一种对抗性机器学习技术，将差分隐私噪声添加到我们的HMM模型中。噪声以计数/概率的形式添加到HMM模型中，以扰乱原始概率分布。噪声的幅度取决于隐私参数ϵ和对手在HMM模型上的查询函数的灵敏度S。0定义2.1（L1灵敏度）。给定两个计数字典T1和T2，使得�T1��T2�且T1和T2仅在一个元素/条目的计数上不同，q查询函数的L1灵敏度为0两个字典的L1灵敏度可以通过以下方式测量：0S�max�T1，T20q∑i�1�Qi(T1)−Qi(T2)�，(4)0其中Q(�)是字典上的查询函数，��表示字典的基数。0定理2.2（差分隐私的噪声添加）。设Q为一组查询函数，S为Q的L1灵敏度。那么，通过添加随机噪声r，即QTi←QTi+r，可以实现ϵ-差分隐私，其中r是从幅度为b≥S�ϵ的拉普拉斯分布中抽取的随机独立同分布变量。0差分隐私字典发布（发布）对应于由对手发出的计数查询：0从字典中选择计数（�）f rom，其中计数�概率≥x（5）0给定一组查询函数Q，差分隐私将从拉普拉斯分布中抽取的幅度为b的噪声添加到真实的响应值中。如定理2.2所示，b由两个参数确定：(1)隐私参数ϵ和(2)Q的灵敏度S。在这种情况下，已知字典中一个元素的计数/概率值的单个更新最多可以将最多两个计数查询的结果改变一个幅度为1。因此，我们将拉普拉斯噪声添加到字典中的每个元素中，其中b�2�ϵ。正噪声通过增加计数/概率值来合并，而负噪声需要减去计数概率值。03评估0在本节中，我们介绍并讨论了基于对抗机器学习的差分隐私Web数据混淆方法的结果。首先，我们介绍了使用的数据集，然后讨论了我们的实验结果。03.1 数据集0为了衡量与在线Web数据相关的隐私风险，并评估我们的混淆方法的有效性，我们使用了两个数据集：（1）AOL用户的搜索查询；（2）GooglePlay上Android应用的评论[3]。我们在表1中总结了我们的数据集。AOL搜索查询：2006年，AOL发布了一个包含2000万用户搜索查询的匿名版本，涵盖了超过65万用户在3个月的时间内的查询。用户名被匿名标识符替换，旨在保护用户隐私。然而，对于一些进行自我保险或搜索个人详细信息（如社会安全号码、电话号码或位置方向）的用户，它未能防止去匿名化。因此，我们使用这个数据集来量化Web数据的敏感性，并评估我们的混淆方法的有效性。AOL搜索查询数据中的每一行包含五个字段：匿名用户ID、查询字符串、查询时间、所选项的排名以及所选项的URL路径的域。由于时间限制，我们没有在整个数据集上应用我们的方法，而是设置了一个标准，只选择那些查询大于100的用户。我们的采样数据集的统计数据如表1所示。03 https://play.google.com0跟踪：Web上的安全与隐私WWW 2018年4月23日至27日，法国里昂2710AOL搜索查询 Android应用评论0条目数（E）36,389,567 16,335,480 用户数（U）657,42911,196,960 应用数（A）ś 1,0186,56005M评论，其中条件E ≥ 100，E ≥ 15＆E ≤ 200采样数据集0条目数（E）23,927,203 13128 用户数（U）90,818 773应用数（A）ś 68660表1：使用的数据集0此外，为了突出搜索可能揭示用户信息的涉及隐私敏感主题的后果，我们关注三个主题：癌症、怀孕和酒精。为了提取这些主题中的查询，我们需要为每个主题识别一些必要的词语。为此，我们使用了Wordstream提供的免费关键字工具[4]，该工具利用了最新的Google关键字API。然后，我们对这些关键字进行主题建模，以获得最准确和相关的必要词语。我们使用NLTK[2]和gensim[1]进行主题建模和提取相关查询。Android应用评论：为了从GooglePlay商店收集用户对Android应用的评论，我们利用了[20]中开发的爬虫，并使用前100个应用作为种子。我们的爬虫通过遵循广度优先搜索的方法，收集具有相似描述或由同一开发者在GooglePlay上发布的应用程序，来收集应用程序标识符[5]和应用程序元数据。总之，我们在2016年12月的4周时间内爬取了1,018,656个应用，并从11,196,960个独特用户那里收集了16,335,480条评论。给定的用户评论包括用户的匿名ID、评论文本、评论时间和日期、应用程序ID和应用程序类别。我们选择了四个应用程序类别，即社交、生活方式、健康和游戏，并从我们的爬取数据集中提取了500万条评论，然后应用了一个标准，只选择那些在不同应用程序上提供15到20条评论的用户。我们发现，大多数评论是针对游戏，其次是生活方式和健康应用。03.2 实验和结果0我们从唯一性、均匀性和可链接性三个方面分析了隐私风险预测结果，并提出了结合这三个方面的整体风险预测结果。然后，我们讨论了使用一些验证案例的差分隐私Web数据混淆方法的结果。最后，我们呈现了效率结果。03.2.1实验设置。在应用我们的方法之前，我们首先通过过滤损坏的、无效的或空的句子来预处理数据，然后根据时间顺序重新排序它们。然后，我们将数据分为20-80的测试方法，其中20%的数据用于测试，80%的数据用于训练HMM。此外，为了减少训练时间，我们应用了k-means聚类将训练数据分成k个簇，然后使用多进程技术同时运行每个训练簇[15]。k-means算法有助于基于最近的均值（质心）将相似的Web数据，即查询和评论，分组在一起。04 https://www.wordstream.com5每个Android应用程序都有一个唯一的标识符，简称为应用程序ID。0在我们的数据集中，我们使用肘部法则[36]选择了20个聚类。然后，将每个多处理聚类的结果合并为一个训练模型。对于AOL数据集，我们使用[25]提出的短句语义相似性算法来查找相似的查询，而使用词频-逆文档频率（TF-IDF）来评估应用程序评论的相似性[15]。我们使用基于ϵ-差分隐私的噪声添加来进行对抗性机器学习，其中隐私预算参数设置为 ϵ � 0.3。03.2.2隐私风险预测。我们的结果表明，随着在Web上共享更多数据，隐私风险增加。对于AOL数据集，我们发现当用户输入10个查询时，平均隐私风险达到100％（1.0隐私风险）。表2（用户ID3058504）显示了一个示例用户，他在输入10个查询后风险变为100％。此外，仅具有1个敏感查询的用户的平均风险在78％至83％（0.78-0.83）之间。这是因为我们的框架基于统一性、唯一性和可链接性等三个方面计算风险。即使用户没有统一的数据，他也可能通过输入数据的独特模式被识别出来，反之亦然。例如，我们可以预测表2中显示的用户在输入10个查询后，他或他的家庭成员患有甲状腺癌。同样，我们观察到另一个用户（表2中的用户ID“3612363”）想了解在MD Anderson癌症中心工作的PaulMansield博士。进一步的查询将揭示他对MDAnderson的前列腺癌及其治疗感兴趣。我们还观察到怀孕和酒精主题的类似情况，并发现用户可以通过其独特的Web模式进行识别。例如，我们发现表2中显示的用户ID“7894176”怀孕，但存在抗磷脂抗体和吸烟问题。同样，用户ID“4320454”想通过找到一些方法来对抗药物检测。对于应用程序评论数据集，我们发现仅具有1个敏感评论的平均隐私风险为80.5％（0.805），而具有7个评论的风险增加到87.5％（0.875）。在表2中，我们观察到用户ID“1559229”与纤维肌痛症有某种关联，并使用应用程序改善他的健康问题。同样，我们分析出用户ID“5995260”的所有评论具有相同的写作模式，因此他的隐私风险仅通过六个评论就达到99％（0.99）。考虑到我们的整体风险预测结果，我们发现任何包含国家名称、人名、疾病名称、人称代词或统一性等词语的数据输入的隐私风险为75％（0.75）或以上，属于高风险/敏感数据。因此，我们将隐私风险阈值设置为0.75，即任何具有超过75％隐私风险的条目都被视为高风险，需要使用（语义相似的）条目进行混淆。图2显示了隐私风险预测的结果。从图2a中可以清楚地看出，即使不知道用户的唯一身份，我们的方法也能重新识别用户。我们的结果表明，如果用户有10个或更多的数据输入，平均风险达到100％（1.0）。对于酒精，最小平均风险为78％（0.78）的1个查询。对于应用程序评论，我们在7个评论中实现了最高的87.5％（0.875）平均风险，而仅有1个评论的最小风险为80.5％（0.805）。图2b显示了具有预测隐私风险的用户的CDF。对于癌症和怀孕，我们发现超过50％的用户的风险高于0.85，而0跟踪：Web上的安全与隐私WWW 2018年4月23日至27日，法国里昂2720跟踪：Web上的安全与隐私WWW 2018年4月23日至27日，法国里昂2730Track: Security and Privacy on the Web WWW 2018，2018年4月23日至27日，法国里昂2740Track: Security and Privacy on the Web WWW 2018，2018年4月23日至27日，法国里昂2750Web行为的独特序列。这意味着与其他人以不同方式执行Web操作或共享数据的用户很可能在其他人中被识别出来。此外，我们发现在大多数情况下，在Web上分享个人身份信息的用户是100%可识别的。(3)在给定数据集和混淆知识的情况下，对手可以区分原始的和混淆的Web入口。方法中使用差分隐私可以抵抗这种攻击，但代价是损失效用。0限制：我们只使用了基本的HMM模型来衡量隐私概率和相应的隐私风险。我们没有研究不同的概率模型，如高斯分布、狄利克雷分布和最大熵马尔可夫模型（MEMM）进行比较。我们的方法可以通过用其他概率方法替换HMM模型来扩展。AOL数据集（大多数其他相关工作中使用的数据集）已经过时。来自搜索引擎（如Google和Yahoo）和社交平台（如Facebook）的最新Web数据集可能导致较高的隐私风险率。我们还没有在在线环境中测试我们的框架，因此未来的重要研究方向是开发一个实时的隐私风险预测和混淆系统，在运行时评估和混淆Web入口，无论用户是否参与。也许可以为我们提出的方法开发一个浏览器插件。我们为差分隐私混淆方法设置了固定的隐私预算参数。同样，我们将隐私风险阈值固定为0.75。我们需要进一步研究不同的参数设置。此外，语义相似性函数不适用于毫秒级的风险计算，需要研究其他高效和有效的相似性度量方法，以用于实时应用。04 相关工作0已经进行了一些关于Web搜索查询混淆技术的研究。TrackMeNot（TMN）[18]是一个Firefox插件，可以从预定义的Rich SiteSummary（RSS）提要中随机发出虚假查询。GooPIR是一个独立应用程序，用于向Google查询添加噪声[12]，它通过添加虚假关键字修改用户查询，然后根据原始用户查询在本地重新排列搜索结果。Web的隐私模型（PRAW）[32]是另一种技术，它在用户感兴趣的不同主题中持续生成虚假查询。还有一些关于其他Web数据（如社交网络）的混淆方法的研究。Weinsberg等人[37]研究了混淆对推荐系统效用的影响，使用了不同的分类器。Salman等人[31]和Li等人[23]提出了在将数据公开之前对数据进行扭曲以防止推理攻击的方法，并提供了效用保证。Chen等人[7]调查了在线社交网络的不同混淆策略和政策的有效性，并提出了一种基于χ2特征选择度量的新型混淆策略，无需了解对手使用的分类器。另一方面，只有少数作品考虑了Web数据的隐私量化。Peddinti等人[30]评估了隐私0基于机器学习分类器的TMN提供的保证。Gervais等人[14]还通过学习用户原始查询和虚假查询之间的可链接性，评估了查询混淆技术（如TMN和虚假查询生成）的效果，采用了机器学习算法。Balsa等人[3]通过调查其隐私特性，对六种现有的混淆技术进行了定性分析。该研究提供了对现有解决方案不足之处的见解，但没有定量分析和比较这些技术。Chow等人[8]提出了两个特征，可以用来区分TMN虚拟查询和真实用户查询。Biega等人[4]最近研究了通过手动开发敏感键值对规则，并基于用户的搜索历史对规则进行概率计算，来量化Web数据的隐私风险。基于规则的方法耗时且不可靠，无法实时预测风险。Biega等人[5]提出了一种基于信息检索的在线社区隐私风险评估方法，该方法使用排名来建模针对最受影响用户的理性对手。在[26]中，提出了一种基于一组个人资料项目的敏感性和可见性计算在线社交网络用户隐私分数的框架。追踪用户的威胁可以追溯到Sweeney，她首次证明了粗粒度的信息（如生日、性别和邮政编码）可以唯一地识别一个人[35]。这项工作之后，又有几项研究提供了关于Web追踪和设备指纹识别的测量见解[9-11, 13, 21, 22, 27, 29, 38,39]。然而，这些工作中没有一项允许在用户积极参与在线Web活动时预测Web数据的风险。此外，没有任何工作解决了即将利用推理攻击的在线用户的基于风险预测的混淆问题。对抗性机器学习是近期研究的一个活跃领域[19]。然而，迄今为止，还没有任何工作考虑将对抗性机器学习应用于Web数据混淆技术。我们的工作是首次在任何Web数据上使用综合风险评估方法解决隐私感知混淆方法的方向。05 结论0由于Web的广泛使用和对隐私和保密性的日益关注，Web数据隐私已经引起了广泛关注。文献中进行了一些关于对抗Web数据隐私风险的混淆方法的研究。然而，这些方法并不通用，不能适用于任何Web数据，并且它们不考虑使用语义相似数据对高风险预测数据进行混淆。此外，文献中还没有研究Web数据混淆的对抗机器学习方法。在本文中，我们提出了一种注重隐私的混淆方法，解决了现有方法的缺点。我们使用两个真实的Web数据集进行了实验，实验结果表明我们的方法在预测Web数据的隐私风险和混淆高风险数据方面是有效的。将来，我们计划将我们的混淆方法实现为一种以用户为中心的应用程序，部署为浏览器插件。0跟踪：Web上的安全与隐私WWW 2018年4月23日至27日，法国里昂2760参考文献0[1] 2018.gensim：面向人类的主题建模。https://radimrehurek.com/gensim/。（2018）。访问日期：2018年12月1日。[2] 2018.自然语言工具包。http://www.nltk.org.（2018）。访问日期：2018年12月1日。[3] EroBalsa，Carmela Troncoso和Claudia Díaz。2012.OB-PWS：基于混淆的私人Web搜索。在IEEE安全与隐私研讨会SP2012中，2012年5月21日至23日，美国加利福尼亚州旧金山。491-505。[4] JoannaBiega，Ida Mele和Gerhard Weikum。2014.用户搜索历史中隐私风险的概率预测。在第一届大数据隐私和安全国际研讨会PSBD@CIKM2014中的论文集，2014年11月7日，中国上海。29-36。[5] Joanna Asia Biega，KrishnaP. Gummadi，Ida Mele，Dragan Milchevski，Christos Tryfonopoulos和GerhardWeikum。2016.R-Susceptibility：一种基于IR的评估在线社区用户隐私风险的方法。在第39届国际ACMSIGIR信息检索研究与开发会议（SIGIR'16）中的论文集。ACM，纽约，美国，365-374。[6] Prima Chairunnanda，Nam Pham和Urs Hengartner。2011.隐私：随着打字消失！通过打字模式识别Web用户。在PAS-SAT/SocialCom2011中，隐私，安全，风险和信任（PASSAT），2011年IEEE第三届国际会议和2011年IEEE第三届社交计算国际会议，美国马萨诸塞州波士顿，2011年10月9日至11日。974-980。[7]Terence Chen，Roksana Boreli，Mohamed Ali Kâafar和Arik Friedman。2014.在在线社交网络中混淆技术的有效性。在隐私增强技术-第14届国际研讨会PETS2014中的论文集，2014年7月16日至18日，荷兰阿姆斯特丹。42-62。[8] RichardChow和Philippe Golle。2009.伪造上下文数据的乐趣，利益和隐私。（2009），105-108。[9] Anupam Das，NikitaBorisov和Matthew Caesar。2014.你听到我听到的东西吗？：通过嵌入式声学组件对智能设备进行指纹识别。在2014年ACMSIGSAC计算机和通信安全会议（CCS）论文集中的论文集，美国亚利桑那州斯科茨代尔，2014年11月3日至7日。441-452。[10] Anupam Das，Nikita Borisov和MatthewCaesar。2016.通过运动传感器跟踪移动Web用户：攻击和防御。在第23届年度网络和分布式系统安全研讨会（NDSS）中，美国加利福尼亚州圣地亚哥，2016年2月21日至24日。互联网协会。[11]Sanorita Dey，Nirupam Roy，Wenyuan Xu，Romit Roy Choudhury和SrihariNelakuditi。2014.AccelPrint：加速度计的缺陷使智能手机可追踪。在第21届年度网络和分布式系统安全研讨会（NDSS）中，美国加利福尼亚州圣地亚哥，2014年2月23日至26日。互联网协会。[12]Josep Domingo-Ferrer，Agusti Solanas和Jordi Castellà-Roca。2009.h（k）-从隐私不合作的可查询数据库中检索隐私信息。在线信息评论33，4（2009），720-744。[13] Peter Eckersley。2010.您的Web浏览器有多独特？在隐私增强技术中，第10届国际研讨会PETS2010中的论文集，德国柏林，2010年7月21日至23日。1-18。[14] Arthur Gervais，RezaShokri，Adish Singla，Srdjan Capkun和Vincent Lenders。2014.量化Web搜索隐私。在2014年ACMSIGSAC计算机和通信安全会议（CCS'14）中的论文集。ACM，纽约，美国，966-977。[15] Jiawei Han，Micheline Kamber和Jian Pei。2011.数据挖掘：概念与技术，第3版。Morgan Kaufmann。[16] Saul Hansell。2006.AOL删除了大量Web用户的搜索数据。http://query.nytimes.com/gst/fullpage.html?res=9504e5d81e3f93ba3575bc 0a9609c8b63。纽约时报（2006）。[17] BunkeHorst和Caelli Terry Michael。2001.隐马尔可夫模型：在计算机视觉中的应用。第45卷。世界科学。[18] Daniel CHowe和Helen Nissenbaum。2009.TrackMeNot：在Web搜索中抵制监视。在《身份之路的教训：匿名性，隐私和网络化社会中的身份》中，第23章（2009），417-436。[19] Ling Huang，Anthony D.Joseph，Blaine Nelson，Benjamin I. P. Rubinstein和J. D. Tygar。2011.对抗性机器学习。在第4届ACM安全与人工智能研讨会AISec2011中的论文集，美国伊利诺伊州芝加哥，2011年10月21日。43-58。[20] MuhammadIkram和Mohamed Ali Kâafar。2017.对移动广告拦截应用的首次研究。在第16届IEEE国际网络计算和0应用程序，NCA 2017，剑桥，美国，2017年10月30日至11月1日。343ś350。[21]Andreas Kurtz，Hugo Gascon，Tobias Becker，Konrad Rieck和Felix C.Freiling。2016年。使用个性化配置对移动设备进行指纹识别。PoPETs2016，1（2016），4ś19。[22] Pierre Laperdrix，Walter Rudametkin和BenoitBaudry。2016年。美女与野兽：转移现代Web浏览器以构建独特的浏览器指纹。IEEE安全与隐私研讨会论文集，SP 2016（2016），878ś894。[23] Chen Li，HoutanShirani-Mehr和XiaochunYang。2007年。在数据发布中保护个人信息免受推理攻击。在第12届高级数据库系统国际会议（DASFAA'07）论文集中。Springer-Verlag，柏林，海德堡，422ś433。[24] YuhuaLi，David McLean，Zuhair A Bandar，James D O'shea和KeeleyCrockett。2006年。基于语义网络和语料库统计的句子相似性。IEEE知识与数据工程交易，18，8（2006），1138ś1150。[25] Yuhua Li，David McLean，Zuhair A.Bandar，James D. O'Shea和KeeleyCrockett。2006年。基于语义网络和语料库统计的句子相似性。IEEE Trans. on Knowl.and Data Eng.，18，8（2006年8月），1138ś1150。[26] Kun Liu和EvimariaTerzi。2010年。计算在线社交网络用户隐私得分的框架。ACM Trans. Knowl. Discov.Data，5，1，文章6（2010年12月），30页。[27] Rahat Masood，Benjamin Zi HaoZhao，Hassan Jameel Asghar和Moahmed AliKâafar。2017年。海报：TouchTrack：您的触摸手势有多独特？在2017年ACMSIGSAC计算机与通信安全会议论文集中，CCS2017，美国德克萨斯州达拉斯，2017年10月30日至11月3日。2555ś2557。[28] ArvindNarayanan和VitalyShmatikov。2008年。对大型稀疏数据集的强大去匿名化。在2008年IEEE安全与隐私研讨会（SP'08）论文集中。IEEE计算机学会，华盛顿特区，美国，111ś125。[29] ŁukaszOlejnik，Claude Castelluccia和ArturJanc。2012年。为什么约翰尼无法安心浏览：Web浏览历史模式的独特性。第五届隐私增强技术热门话题研讨会（HotPETs 2012），1ś16。[30] Sai Teja Peddinti和NiteshSaxena。2010年。基于查询混淆的Web搜索隐私：TrackMeNot的案例研究。在第10届隐私增强技术国际会议（PETS'10）论文集中。Springer-Verlag，柏林，海德堡，19ś37。[31] Salman Salamatian，Amy Zhang，Flávio du Pin Calmon，SandilyaBhamidipati，Nadia Fawaz，Branislav Kveton，Pedro Oliveira和NinaTaft。2013年。如何隐藏大数据的大象或驴子：针对统计推断的实际隐私。在2013年IEEE全球信号与信息处理全球SIP会议中，美国德克萨斯州奥斯汀，2013年12月3日至5日。269ś272。[32] Bracha Shapira，Yuval Elovici，Adlay Meshiach和TsviKulik。2005年。PRAW-Web的隐私模型。美国信息科学与技术协会期刊（JASIST），56，2（2005），159ś172。[33] Jessica Su，Ansh Shukla，Sharad Goel和ArvindNaraya

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

网络数据的隐私感知混淆方法

物联网隐私保护问题.docx

怎么对bp神经网络模拟的数据做混淆矩阵

android 避免混淆方法的参数

基于差分隐私的健康数据发布平台 代码实现

混淆矩阵可以直接从数据集中生成混淆矩阵

在paddle paddle中，如何绘制数据集的混淆矩阵

简单介绍一下差分隐私保护技术

神经网络训练分类测试混淆矩阵怎么用matlab算

proguard只对方法体进行混淆应该怎么配置，不混淆成员变量，类名，注解，方法名，实体，枚举。仅混淆方法体的内容。

基于混淆布隆过滤器的不经意

不平衡数据集混淆矩阵

matlab bp神经网络混淆矩阵怎么看

写出“人工神经网络单层感知器学习算法”的实验分析

擦除/覆盖是数据删除的常规方法

心电数据预处理混淆矩阵

用多层感知机再计算，用Scikit Learn库，对 Kaggle 的良性/恶性肿瘤数据集画出混淆矩阵，计算准确率、精准率、召回率。文件名 Cancer_Data.csv

混淆矩阵如何挖掘数据

python绘制原始数据混淆矩阵

一维数据集 五分类混淆矩阵代码

BP网络识别 混淆矩阵

最新资源

基于差分隐私的健康数据发布平台代码实现

一维数据集五分类混淆矩阵代码

BP网络识别混淆矩阵