自动提取网站隐私政策中的选择退出：基于机器学习的文本分析和浏览器扩展的研究

134 浏览量更新于2023-11-29 收藏 973KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

在干草堆中找到选择：从隐私政策文本中自动提取选择退出声明Vinayshekhar Bannihatti Kumar*1，Roger Iyengar*1，Namita Nisal2，Yuanyuan Feng1，HanaHabib1，Peter Story1，Sushain Cherivirala1，Margaret Hagan3，Lorrie Faith Cranor1，ShomirWilson4，Florian Schaub2，Norman Sadeh11卡内基梅隆大学2密歇根大学信息学院3斯坦福大学4宾夕法尼亚州立大学{vbkumar,raiyenga,sadeh}@cs.cmu.edu摘要网站隐私政策有时会为用户提供选择退出某些收集和使用其个人数据的选项。不幸的是，许多隐私政策将这些说明深埋在文本中，很少有网络用户有必要的时间或技能来发现它们。我们描述了一种方法，用于自动检测隐私政策文本中的退出选择，并通过Web浏览器扩展将其呈现给用户我们描述了两个语料库的选择退出的选择，使培训的类筛选器，以确定选择退出的隐私政策。我们用于提取和分类选择退出选择的整体方法将识别常见的选择退出超链接的分类与监督机器学习相结合我们的方法实现了0.93的准确率和召回率。0.9. 我们介绍Opt-Out Easy，这是一个Web浏览器扩展，旨在向浏览Web的用户提供可用的退出选择。我们评估我们的浏览器扩展的可用性与用户研究。我们还提出了一个大规模的分析结果的选择退出发现在成千上万的最受欢迎的网站的文本。CCS概念• 安全和隐私→安全和隐私。关键词隐私、机器学习、退出、隐私政策、文本分析。ACM参考格式：Vinayshekhar Bannihatti Kumar*1，Roger Iyengar*1，Namita Nisal2，Yuanyuan Feng1，Hana Habib1，Peter Story1，Sushain Cherivirala1，Margaret Hagan3，Lorrie Faith Cranor1，Shomir Wilson4，FlorianSchaub2，Norman Sadeh1.2020. 在干草堆中找到选择：自动提取Opt-Out* 前两位作者对论文的贡献相等允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和 / 或付费。请求权限请发邮件至permissions@acm.org。WWW©2020计算机协会ACM ISBN 978-1-4503-9999-9/18/06。. . 十五块https://doi.org/10.1145/1122445.1122456隐私政策的声明文本。在WWW '20：The 2020 Web Conference，2020年4月20日至24日，台北。ACM，纽约州纽约市，美国，12页。https://doi.org/10.1145/1122445.11224561引言在网络上，通知和选择主要围绕（1）使用隐私政策来披露与网站相关的数据做法，以及（2）用户可以选择是否与网站互动，并可能行使提供给他们的其他选择。这个框架被广泛认为是打破[10，50]。网站隐私政策往往是冗长的法律文件，用户往往难以理解，或者根本不读[19，36，38]。尽管大多数网络用户对隐私政策的认知难以接近，但隐私政策通常包含有关用户在收集和使用其个人信息方面的某些选择的信息。这些选择，我们统称为选择退出，允许用户将自己排除在数据实践之外，例如广告网络的跟踪，与第三方共享个人信息，或通过电话或电子邮件联系。很少有用户阅读隐私政策，人们通常不知道这些选择退出选项的存在，因此无法利用它们。一个自动提取和分类隐私政策文本中的退出选择的工具可以帮助更多的人利用这些选择。我们提出了这样一个工具的发展，从技术自动识别选择退出的选择，设计，开发和评估的浏览器扩展，使这些结果提供给用户。我们的研究建立在最初的观察基础上，即描述退出选择的隐私政策文本通常包括超链接[43]。我们最初收集了236个网站隐私政策的语料库，并从这些政策中手工标记了2，692个超链接，以表明它们是否代表与隐私相关的退出机制。接下来，我们训练了一个逻辑回归分类器来自动检测隐私政策文本中的退出我们还探索了主动学习的潜力，以减少该机器学习任务所需的手动标记数据的数量此外，检测选择退出使我们能够表征其属性的分布例如他们所处理的数据实践我们已将语料库发布给研究界，以供进一步开发。1在确定检测退出的可行性后，我们使用我们的系统在6，885个隐私政策中识别退出，以支持1我们的语料库可从以下网址获得：https://www.usableprivacy.org/data记录v.1.1的更正版本发布时间五月8，2020WWWKumar和Iyengar等人一个实际的网络覆盖水平我们讨论了不同类型的退出在不同网站上的分布-一个我们进一步使用我们的技术来自动识别隐私政策文本中的选择退出，并设计和开发一个Web浏览器扩展，Opt-Out Easy，它为用户提供他们访问的网站的选择退出。一个小规模的主题之间的用户研究表明，扩展使帮助用户更快地确定选择退出的选择，并使他们能够成功地行使这些选择退出提供的选择的差异2背景相关工作下面，我们简要讨论与本研究相关的先前工作。2.1监管框架欧洲的《通用数据保护条例》（GDPR）授予消费者有关公司如何使用其信息的几项权利。例如，第7条允许消费者在履行合同义务或商业交易之外撤销对处理其个人数据的同意，第21条规定了对将个人信息用于直接营销的美国的一些法律也规定了消费者的某些类型的退出选择。在联邦一级，《控制非请求色情和营销攻击法》（CAN-SPAM）要求公司为商业和营销电子邮件提供退出选择。《加州消费者隐私法》（CCPA）授予加州居民拒绝将其个人数据出售给第三方的权利，包括出于营销目的[9]。与定向广告相关的选择退出选项包含在由数字广告联盟（DAA）、网络广告倡议（NAI）和欧洲互动广告局（IABEurope）制定的广告行业DAA成员必须为消费者提供一个基于跟踪的定向广告的退出机制[15]。IAB欧洲已经制定了特定于GDPR的透明度和同意指南[27]。这些行业组织也为他们的成员开发了选择退出工具[16，45]。2.2选择退出的可用性问题此前的研究发现，消费者往往反对使用他们的个人信息用于营销目的，并希望控制接收营销通信[8，13]。由于隐私问题，类似的反对意见也被发现与网络跟踪和定向广告有关[7，29，58，59]。然而，消费者在解决这些问题时面临多重挑战。在2010年的一项调查中，McDonald和Cranor发现许多人不知道与广告相关的选择退出工具[39]。Yao等人发现用户对定向广告的工作原理仍然存在误解和有限的技术知识[63]。Habib等人进行的隐私选择的实证分析发现网站主要通过用户帐户设置和隐私政策提供选择但是，在不同的文本标题下放置的选项并不一致网站，这使得消费者很难找到选择退出的选择[21，22]。同样，Sanchez-Rola等人发现，他们分析的许多网站提供了有关选择的误导性信息，并且即使在GDPR实施后，选择退出广告跟踪通常也很难找到或无效。此外，消费者很少阅读隐私政策，这些政策仍然具有很差的可读性[18]。这对当前选择退出的选择有多大用处产生了负面虽然被广泛采用，但广告业开发的指导方针和选择退出工具存在严重缺陷。研究发现，许多网站不符合相应的自我监管指南，特别是关于跨性别[30]。Hernandez等在美国Alexa排名前500的网站中，只有不到10%的第三方广告显示了DAA指南所要求的AdChoices图标，包含相关文本的广告甚至更少。用户也被发现难以理解这些选择退出工具的范围，例如将NAI广告选择退出工具误解为选择退出所有数据收集[39]。这些工具的局限性凸显了对其他技术的需求，以使消费者能够有效地行使其隐私偏好。阻止在线跟踪器的浏览器扩展已经变得流行，并且已经发现可以有效减少定向广告的数量[3]。然而，它们也存在可用性问题。取决于扩展，如果用户保持默认设置，他们可能无法有效地阻止所有网络跟踪器[49]。此外，一些扩展使用用户不理解的术语，并且当浏览器扩展干扰网站的使用时，可能不会向用户提供适当的提示以更改扩展设置[33]。之前的工作表明，使用这些扩展并不能让用户更好地理解网络跟踪[37，55]。简而言之，尽管用户希望对在线跟踪有更大的控制权，但目前的机制未能激发用户的参与[40，57]。我们利用这项先前工作的发现来设计一个新的浏览器扩展，该扩展消除了用户定位选择退出过程的负担。2.3选择退出的程序化提取文本分类一直是自然语言处理领域的研究热点。经典的NLP技术专注于从文本和训练模型中提取特征，如逻辑回归或支持向量机（SVM）[4，11，35]。随着深度学习的发展，NLP的先前工作集中在使用词嵌入进行文本分类[20，41，46]。最近，上下文化的词嵌入已经显示出在许多自然语言理解问题上实现最先进结果的希望[14，47，61]。我们用其中三种技术进行了实验，并比较了它们在选择退出提取方面的性能。NLP技术在过去已经应用于隐私策略[64，66]。例如，Wilson et al.[62]创建了带有注释的隐私政策的IATA-115语料库最近的工作集中在将神经模型应用于该数据集[23，31，34，62]。但是，在自动检测隐私政策中提供的退出选择方面所做的工作相对较少。Mysore Sathyendra等人[43]使用逻辑回归来检测网络隐私政策中描述用户可以选择退出的数据实践的声明。我们将这项工作扩展到在干草堆中找到选择：从隐私政策文本中自动提取选择退出声明WWW–图1：隐私政策数据管道。检查一个更大的语料库。此外，Mysore Sathyendra等人。[43]仅分析隐私政策的文本以识别选择退出操作的描述，我们还利用隐私政策页面的HTML结构来分割政策。这让我们defre cur s i v e _to k e n i z e（dom_subtree）：为L i在dom_subtree：去除L i从dom_subtreerec_curs i v e_to k e n i z e（l i）为p在dom_subtree：去除p从dom_subtree r e c ur s i v e_to k e n i z e（p）为d i v在dom_subtree：去除d i v从dom_subtree rec u rs i v e_to k e n i z e（d i v）n l t k_s e n t_to k e n i z e（dom_subtree.t e x t）清单1：从DOM树中获取文本段将我们的问题限制在检测可用于选择退出数据实践，而不必考虑策略中的所有文本。我们研究了来自策略文本、超链接URL和超链接锚文本的特征如何帮助模型确定哪些超链接是选择退出的。我们的结果比Mysore Sathyendra等人[43]报告的结果有显著改进，使构建有用的浏览器扩展成为可能3数据管道在本节中，我们描述了我们的数据管道，从抓取网页到输入到我们的ML分类器（见图1）。我们使用Mercury Parser API[ 48 ]下载包含隐私政策的网页，该API会呈现页面并删除侧边栏，广告和其他不属于页面主要内容的元素。然后，我们使用Beautiful Soup构建页面剩余内容的文档对象模型（DOM）树然后，我们遍历DOM树并从策略中提取文本段3.1隐私政策我们试图使用Alexa Top Sites API [2]从2018年秋季美国Alexa列表上的前500个网站下载隐私政策我们的系统使用Selenium [56] 和 Geckodriver [42] 下载了这些网站 Geck-odriver呈现网页，使我们能够获得在初始HTTP请求后动态加载的内容。然后，我们的代码会组装一个链接页面列表并下载它们。使用逻辑回归（LR）对每个网页的HTML内容进行分类，以确定它是否包含使用Zimmeck等人的分类器的隐私政策[65]. 之后，我们手动检查了所有页面，并删除了LR分类器错误标记的任何没有隐私政策的页面。这给我们留下了236个包含隐私政策的页面的唯一URL列表3.2提取策略文本许多隐私政策页面包含无关内容，如导航栏和广告。我们使用Mercury Parser API获取每个策略页面的过滤子集此子集还包含在对页面的初始HTTP请求之后加载的内容。我们使用BeautifulSoup [ 51 ]和lxml解析器[ 5 ]基于页面内容构建了一个DOM树大多数网页违反I f你希望到opt出来外来资产基于测试的ad v e r t is i n g，c l i c k 这里清单2：带有锚文本“here”的超链接[53]。HTML标准 [12]。幸运的是，BeautifulSoup 对许多无效的HTML文档有效。我们检索到的隐私政策并不总是以完整的句子撰写。相反，这些页面中的一些使用列表或不带任何标点符号的换行符来分割文本行这使得文本分割的过程变得简单地在从页面提取的原始文本BeautifulSoup上运行NLTK考虑一个网页，以单词 “confidence” 结束一行 Beauti-fulSoup 将提取“confidenceYou”作为原始文本，NLTK不会拆分它。同样的问题也会发生在一个列表中，其中一个项目以“信心”这个词结束更复杂的是，有些页面将列表、段落和内容划分元素嵌套在一起。为了解决这个问题，我们在每一个有换行符的地方插入一个空格字符。我们使用一个递归函数遍历DOM树，并将文本分割成块，然后通过NLTK的句子分词器运行这些块（请参见清单1）。我们将使用此函数找到的标记称为段。请注意，不跨越多个列表项、段落或分割元素的完整句子将是一个段。未以完整句子书写的页面将具有不对应于完整句子的至少一个片段。许多网站都包含超链接，这些超链接使用页面的部分文本作为锚点。单词“here”是清单2示例中的锚点。我们存储了出现在隐私政策页面上的超链接的URL和锚文本。我们还跟踪了出现超链接的政策部分因为NLTKWWWKumar和Iyengar等人3.3来注释数据表1：消融试验结果我们现在有一个（段文本，超链接URL，超链接锚文本）每个隐私政策页面上的每个超链接的元组我们发现，在3,213个超链接中，有521个链接到11个常见的第三方服务。信息网页privacyshield.gov占了这521个常见第三方服务链接中的80个。到privacyshield.gov的链接不是选择退出链接。然而，剩下的441个链接是选择退出的。DAA和NAI选择退出服务占这441个常见的第三方选择退出链接中的259个。我们将所有80个privacyshield.gov链接标记为非选择退出链接，将所有441个常见选择退出服务链接标记为选择退出链接。其余2，692个超链接对应的元组被手动注释。第4节和第5节中报告的分类器性能结果仅基于2，692个手动注释的超链接获得。我们手动标记元组，指示它们是否构成一个选择退出超链接。这一决定主要基于政策如何描述链接，以及当政策文本不够清晰无法做出标签决定时对目标页面的检查。根据迭代开发的编码手册，所有2，692个元组然后随机抽样50个标记元组的子集，并由两个独立标记更多的注释者评价者间可靠性足够高（Fleiss 'κ=. 70）。为了完成这项任务，我们使用Flask微型Web框架构建了一个注释工具[52]。该工具通过浏览器的渲染引擎运行正在被注释的网页在单个策略或多个不同策略中逐字重复多次的片段被过滤掉，仅保留每个片段的一个实例有些部分包含多个超链接。我们选择了一个单一的超链接去与每个部分。我们将未被选中的超链接视为纯文本。这在我们的语料库中留下了2，016个元组，其中297个是选择退出的。4识别选择退出超链接我们随机分配策略，并分别提取片段，无论是训练，验证或测试集。训练集由1，416个片段组成，验证集由258个片段组成，测试集由339个片段组成。每个元素包含一个元组（段文本、超链接URL、超链接锚文本）。清单2中的示例的所有三个元组元素都包含一些信息，这些信息可能有助于表明这个分段描述了一个选择退出选项。我们尝试了从所有三个元组元素中提取的特征。这些特征包括以词袋和双字母组、情态动词和关键短语以及主题建模的形式从片段文本中此外，我们尝试了基于超链接URL和锚文本的词袋。我们使用逻辑回归模型进行实验我们进行了消融测试，以评估各个特征集的重要性结果示于表1中。我们注意到，当我们删除我们的单词袋和二元组特征集时，召回率显着下降。然后，我们只使用删除的功能集精度召回F10.90 0.86 0.88单词和双字母组0.910.760.83情态动词/关键短语0.860.820.84主题0.900.860.88超链接URL0.870.940.91超链接锚文本0.880.860.87表2：仅使用单个特征集训练和评估的模型的结果。确认测试使用的功能集精度召回F1F1单词和双字母组0.870.880.870.79情态动词/关键短语0.580.840.69-主题建模0.250.920.40-超链接URL0.780.270.41-超链接锚文本0.560.45 0.5-伯特0.830.98 0.9-fastText0.900.760.82-单一功能集（见表2）。仅使用我们的词袋和二元组特征集进行训练和评估的模型几乎与我们在消融测试期间评估这表明其他功能对此任务没有显着帮助我们使用BERT [14]和fastText [28]在我们的语料库上进一步训练和评估分类器。BERT是一个Trans- former [61]模型的编码器，它使用上下文化的词嵌入来实现许多NLP任务的最新结果FastText是一个用于文本分类和单词表示的库FastText模型需要比神经网络更少的计算BERT和FastText只对原始文本进行操作因此，我们只能在没有URL的片段上训练BERT和FastText模型，并且我们不能突出显示锚文本到模型。我们对这些分类器的评价见表2。BERT模型的性能类似于我们使用单词和二元组的分类器的性能。FastText模型的表现并不好。我们决定使用逻辑回归模型进行最终测试，该模型仅包括来自片段的单词和二元组的特征。我们之所以选择这个模型而不是BERT，是因为LR的推理计算强度低于神经网络; LR比神经网络更容易解释决策; LR模型比BERT具有更高的精度。我们在表2中的测试集上测试了这个模型。测试集和验证集上的模型性能相似，这表明该分类器在新数据上可能具有相似的性能。在干草堆中找到选择：从隐私政策文本中自动提取选择退出声明WWW表3：按类别注释划分的语料库类别火车Val测试定向广告（AD）18576133通信（CM）1396181饼干（CK）904544分析（AN）452838与第三方共享（SH）502933别人492979表4：类别分类的结果图2：在采样数据上训练的分类器的比较Logistic回归BERT类别Val F1测试F1 Val F1随机和基于熵的数据采样4.1探索主动学习主动学习是一种半监督机器学习方法，其中注释器将标记模型具有最高不确定性的项目。我们想看看主动学习是否会减少需要标记的元组数量，以构建一个选择退出检测分类器。首先，我们做了一个基线实验我们从600个元组的种子开始，这些元组是从我们的训练集中随机选择的。接下来，我们用这个种子训练了一个逻辑回归分类器，并在我们的验证集上对其进行了评估然后，我们通过在训练集中随机选择剩余的816个元组中的4个来扩大样本的大小。然后，我们用样本中的604个元组训练了一个新的分类器。重复这个过程，每次随机选择4个训练元组添加到我们的样本中。向样本添加元组表示标记额外的数据片段，然后将其添加到训练集。然后，我们进行了一个类似的实验，我们根据熵扩展了我们的样本，而不是随机选择元素[25]。当分类器对预测不确定时，熵是高的。因此，将具有最高熵的元组添加到训练集可以比添加具有较低熵的元组更多地提高分类器我们从基线开始重复实验，只是我们选择了熵最高的元素，而不是随机选择。使用以下公式计算熵：H= −P正log2（P正）−P负log 2（P负）图2显示了这些实验的结果大多数基于熵选择的样本训练的分类器比随机选择的相同大小的样本训练的分类器表现更好我们认为，选择数据标记的基础上熵是一种有效的方法来收集在这个领域的训练数据。5分类选择退出超链接除了检测选择退出超链接之外，我们还希望确定这些选择退出选择涉及的数据实践类型。我们在第4节中描述的选择退出检测器用于帮助实现这一点。我们首先在我们的第一个语料库中注释了297个选择退出元组，其中最多有两类选择退出涉及的数据实践我们的一些训练示例有两类选择退出。这些类别见表3。然后，我们从Alexa前2,000名美国用户中下载并过滤了388个额外的策略网站. 我们通过我们的选择退出检测器运行了这388个策略。这为我们提供了751个额外的选择退出超链接，我们也用类别标签进行了注释。表3提供了这一语料库的细目如果我们在这些策略中标记了所有的超链接，我们将不得不标记6.5倍的超链接，以获得相同数量的包含选择退出链接的元组。我们承认，在这个过程中，我们可能错过了一些选择退出的超链接，因为我们的整体分类器的性能并不完美。我们建立了一个逻辑回归分类器来自动确定退出的类别。特征由TF-IDF矢量化器生成，该矢量化器包含单词、二元组和三元组。此外，我们使用BERT构建了一个分类器。这两种分类器的结果见表4。它们的性能大致相似，F1值通常在0.70和0.85之间，第三方共享选择退出的值较低。由于BERT模型和逻辑回归模型表现同样出色，我们选择逻辑回归模型进行测试集评估，因为与BERT相比，它在评估类方面更快。这些分类器的性能可能会提高，如果一个人有机会获得一个更大的语料库的注释选择退出。值得记住的是，这些结果是针对选择退出链接的，这些链接不符合许多网站用于实现选择退出选择的11个易于识别的第三方服务当制定简单的规则来自动检测这些选择退出并将这些规则与我们的分类器相结合时，我们实际上能够实现0.90，精度为0.93。在我们的注释语料库中，11个容易识别的第三方选择退出服务占3，251个超链接中的441个，占超链接的14%。因此，在确定我们的混合方法的性能时，该方法将这11个容易识别的选择退出的检测与我们的机器学习技术相结合，我们考虑了17%的测试集。定向广告0.750.790.73通信0.830.850.86Cookies0.740.700.75分析0.750.620.68与第三方共享0.620.630.64别人0.550.510.62WWWKumar和Iyengar等人表5：在美国，排名，更受欢迎的网站也提供更多的选择退出他们的用户美国Alexa排名#政策退出数量（标准化）比1-200194669.003.43200-10007021,751.452.49>10007,8489,639.531.22表6：当查看全球排名时，更受欢迎的网站为其用户提供更多的退出选择。全球Alexa排名#政策退出数量（标准化）比1-200121342.22.82200-10004181,016.12.43>10008,21310,707.91.30图3：政策数量与选择退出数量表7：我们观察到基于网站的Alexa排名提到的退出类型的差异。的注释数据，并添加了74个（440个的17%）的11容易识别的选择退出，导致整体精确度为0.93，召回率为0.9，F1得分为0.91。在本文的其余部分，我们建立在这种混合的方法来分析存在的选择退出链接的几千顶，排名网站我们还使用这种混合方法来构建和选择退出的平均百分比评估自动提取退出从隐私政策的文本链接，并将其呈现给用户。6选择退出的分析在本节中，我们使用我们的方法来自动分析显示在The UsablePrivacy Policy Explore网站上的6，885项隐私政策2某些网站链接到多个隐私政策。与此同时，我们有意跳过了23个含有成人内容的网站和少数其他有问题的网站（例如，为我们的解析器或分割器造成困难的网站我们按照第3.2节所述对这些策略进行了分割，并运行了我们的混合方法来识别选择退出。下面我们讨论我们的一些发现。许多隐私政策似乎没有选择退出。我们观察到，在高级别上，大多数分析的隐私策略没有或最多只有一个选择退出超链接，如图3所示。我们继续进行更精细的分析，查看隐私政策中发现的退出数量与相应网站的受欢迎程度（Alexa排名）之间的潜在相关性。根据网站的Alexa排名，每个网站的退出数量。考虑到一些网站有多个隐私政策，所呈现的结果报告了表5和表6中不同网站（第3列）中确定的选择退出的平均总数。然后，我们找到每个研究中心选择退出的平均数量（第4列）。我们发现，选择退出的平均数量随网站的Alexa排名而变化。这是真的，当只看美国。网站（见2https://explore.usableprivacy.org表5）以及基于全球排名的网站（见表6）。具体来说，更受欢迎的网站（即Alexa排名较低的网站）似乎比不太受欢迎的网站（即Alexa排名较高的网站）为用户提供更多的退出选择。无论是从美国排名还是全球排名来看，都是如此。应该指出的是，这些结果是基于对这些网站隐私政策的分析。它总是有可能，一些网站不披露他们的隐私政策中的所有选择退出话虽如此，直觉上人们会期望更多的流行网站为了通常更复杂（例如，更复杂的工作流程、更老练的隐私人员等）。这反过来似乎转化为这些网站也提供了更多的选择退出他们的用户。按类别和网站排名的选择退出分布表7按网站的受欢迎程度和退出类别分列了已确定的退出情况。可以看出，广告选择退出（AD）总体上占所有检测到的选择退出的60%，其次是17% 的 cookie 选择退出（ CK ）、 10% 的通信选择退出（CM）、约7%的第三方共享选择退出（SH）和约6%的分析选择退出（AN）。更受欢迎的网站似乎也有更大的广告选择退出的百分比比不太受欢迎的网站和他们的分析选择退出的百分比似乎也显着低于相应的百分比不太受欢迎的网站。我们承认，这些衡量标准受到网站隐私政策上存在的选择退出超链接的限制。全球Alexa排名AD%CM%CK%AN% SH%1-20069.2011.2511.660.807.08200-100056.7410.0819.167.106.80>100054.0410.0621.048.805.90在干草堆中找到选择：从隐私政策文本中自动提取选择退出声明WWW7浏览器扩展：选择退出简单基于我们自动提取和分类网站通过点击扩展的图标，用户将看到网站隐私政策文本中标识的分类退出链接。该扩展还可以帮助用户跟踪他们已经与哪些退出交互我们试图从Alexa排名前7，000的美国网站下载隐私政策。我们使用了第3节中描述的管道，只是我们没有手动验证所有策略URL是否与策略相对应。所有提取的元组都被输入到第4节中描述的分类器中，以确定哪些对应于退出选择。接下来，通过第5节中描述的分类器运行与选择退出选项相对应的元组，以确定该选项涉及的数据实践的类型这些结果存储在MySQL数据库中，然后通过Django构建的API提供给浏览器扩展。当用户单击扩展的图标时，扩展会向我们的API服务器发出请求。如果服务器已经扫描了网站的隐私政策中的超链接，则服务器会选择退出当前网站的超链接，否则用户可以选择请求稍后分析该网站。因为实时分析需要一到两分钟而且由于成本问题，这似乎是一个合理的妥协，因为它提供了一定程度的用户参与，即使扩展没有结果，它可以很容易地显示给用户。用户的请求稍后会在批处理作业中进行处理，结果将提供给以后访问这些网站的用户。我们的服务器只存储已请求选择退出链接的网站的匿名日志为了保护用户7.1浏览器扩展设计我们描述了选择退出简单的浏览器扩展的主要设计方面和功能。7.1.1选择退出屏幕。用户点击扩展图标时看到的主屏幕是选择退出屏幕。它显示用户当前访问的网站的隐私政策中确定的对于给定的选择退出超链接，浏览器扩展显示图标和标题，其通知用户关于选择退出的类型（例如，目标广告、通信、烹饪、分析或共享）。图标右下角显示的favicon和附加文本，说明选择退出是由第一方（当前网站）还是第三方提供这有助于用户了解选择退出的种类和范围图4显示了扫描Overleaf网页后的退出结果用户已经访问过的选择退出链接以蓝色显示因为用户很可能忘记他们是否已经访问了一些选择退出的选择，该功能可以帮助他们记住并节省他们重新访问他们已经交互的选择退出的麻烦为了进一步帮助用户跟踪他们通过特定退出所采取的操作，该扩展还为用户提供了通过图4：Opt-Out Easy图5：Opt-Out Easy“告诉我们你做了什么”链接。如果用户决定使用此链接，该扩展还可以在他们返回网站时提醒他们所采取的操作。7.1.2最近访问过的网站的退出摘要浏览器扩展提供了第二个屏幕，以帮助用户跟踪他们最近访问过的页面的选择退出。此屏幕由三个选项卡组成：“采取行动”显示用户尚未采取任何行动的退出选项。“Opt-Outs Visited”列出了用户已经访问过但没有选择退出的链接。“Opted-Out”列出了用户访问过的选择退出链接，并表示他们选择退出。这些视图旨在鼓励用户在他们最近访问的网站上采取行动，并帮助他们快速浏览他们已经做出的所有隐私选择。7.1.3信息页面。该扩展还包括一个信息页面（参见图7），向用户解释浏览器扩展和选择退出超链接分析的工作原理。清楚地传达底层功能有助于用户理解扩展的作用，有助于建立对技术的信任，还可以帮助用户理解扩展该扩展可能会错过一些选择退出的链接，并且不会显示隐私政策中未披露的链接）。扩展本身的设计是隐私友好的：它不记录任何可识别的WWWKumar和Iyengar等人图6：Opt-Out Easy允许用户请求我们扫描他们想要的任何网站的隐私政策。图7：Opt-Out Easy服务器端的用户信息我们只在安装了该工具的本地客户端上记录有关用户的信息7.1.4请求页面。我们的系统目前设置为批量分析美国排名前7，000位的Alexa网站中的大多数网站的隐私政策。我们计划最初每月运行一次系统如果用户想查看我们每月分析中未包含的网站的结果，他们可以使用浏览器扩展的在线请求表单，如图6所示。我们计划在一周内处理此类请求，并将其添加到我们每月分析的网站集合中。随着时间的推移，根据可用资源和扩展程序的受欢迎程度，我们可能会增加分析的频率。7.2初始可用性评价我们对Opt-Out Easy进行了初步的可用性评估，以确定扩展在多大程度上帮助用户识别退出，查看有效性，效率和整体用户满意度。7.2.1研究程序和参与者。我们的研究采用了受试者间设计。实验组和对照组的参与者被要求分别在有或没有Opt-Out Easy的情况下完成相同的选择退出任务这个主题间的实验旨在评估扩展在多大程度上帮助用户更快，更成功地选择退出数据实践对所有参与者的后续访谈提供了额外的定性数据，以评估扩展的可用性。我们遵循了机构审查委员会批准的研究方案，我们在下面详细介绍。我们使用社交媒体帖子和物理传单招募潜在参与者填写筛选调查. 然后，我们邀请符合条件的参与者到我们的大学校园参加研究。在获得知情同意后，我们首先向所有参与者解释了对于治疗组，我们提供了扩展程序的其他屏幕截图，并向参与者展示了在Chrome浏览器中访问此扩展程序的位置这些解释确保了所有参与者对我们分配给他们的任务所需的概念和功能有了基本的我们在4个主要网站上创建了5个选择退出任务的列表，涵盖了扩展支持的大多数选择退出类别（见表9），即广告和电子邮件通信选择退出。参与者使用具有研究帐户的实验室计算机来完成这些任务。账户预设为相同的隐私设置，以确保研究的一致性。在向参与者描述每项任务时，我们使用场景提示，而不提及“选择退出”这个特定单词例如，对于《纽约时报》的网站，我们将任务描述为：“你今天刚刚收到《纽约时报》的第10封现在你想停止接收它们。当参与者完成这些任务时，我们记录了计算机屏幕以进行分析。在实验后的访谈中，我们询问了参与者（1）执行任务的容易程度，（2）对实验中使用的4个网站的熟悉程度，（3）以前在网络上选择退出的经验，以及（4）将来选择退出数据实践的意图对于治疗组，我们要求他们对6个关于Opt-Out Easy的可用性陈述（见表8）以及他们对使用扩展的主观意见进行评级。对于对照组，我们随后通过屏幕截图向他们描述了Opt-Out Easy，并询问他们是否愿意在未来尝试退出时使用它。所有访谈均由研究小组录音和转录，以便进行定性分析。我们招募了8名参与者进行这项试点研究。4名参与者为女性（每组2名），7名具有大学学位（治疗组3名在完成所有研究程序后，每位参与者都接受了15美元的礼品卡为他们的时间。7.2.2研究结果。为了衡量该扩展在帮助用户选择退出数据实践方面的有效性，我们分析了屏幕记录，以计算参与者是否成功完成了每个任务以及他们完成任务所花费的时间。请注意，GAP网站上的任务5由于两组中的这些问题，我们将任务5从该分析中排除。此外，如果参与者在任务上花费超过60秒，我们认为任务失败，因为用户在现实生活中不太可能花费那么多时间选择退出治疗组平均成功率为87.5%，对照组同样，治疗组的参与者倾向于在大多数任务中更快地选择退出，如表9所示。这些数据初步证明了Opt-Out Easy在帮助用户选择退出方面是有效的。对于6个关于Opt-Out Easy的可用性陈述，治疗组的参与者对所有陈述进行了正面或中性评级（评级>=0）。平均评分见表8。他们对扩展和在干草堆中找到选择：从隐私政策文本中自动提取选择退出声明WWW表8：治疗组报表平均好评率这个浏览器插件很容易使用。1.00我想在未来使用这个浏览器插件。0.75这个浏览器插件中的文本很容易理解。0.75这个浏览器插件提供的各种类型的退出都很有用。2.00我不需要额外的技术支持就可以使用这个浏览器插件。1.25我想大多数人都会很快学会使用这个浏览器插件1.00-2：非常不同意，-1：略微不同意，0：中立，1：略微同意，2：非常同意扩展中的文本易于理解的评分略低，显示出可用性改进的空间对于询问所有参与者的访谈问题，治疗组中的所有参与者都报告说，使用扩展时，5项任务中至少有4项是容易的，而大多数参与者都表示，表9：各组实验中每个选择退出任务的平均时间和成功率（n=8）。任务是指选择退出任务的类型，其中“广告”是指选择退出广告，“电子邮件”是指选择退出电子邮件通信。控制组认为这些任务中等。4名参与者（3名在治疗组）之前选择退出网站上的数据实践，大多数参与者报告说，他们熟悉时间成功率网站任务控制治疗对照治疗谷歌、亚马逊或两者都有。这两个因素可能他们认为，他们对这些网站的熟悉程度并不影响他们所报告的轻松执行分配的任务。例如，这两个参与者中的一个说：“这表明该扩展可以更好地帮助用户选择退出不熟悉的网站。对于特定群体的访谈问题，我们对所有访谈记录进行了基本的主题分析，并从定性数据中总结了三个重要的主题首先，治疗组的所有参与者都喜欢扩展的某些方面，例如它集中所有退出选择的方式（例如，“I can just do it through [the]tool rather than having to hunt down the privacy practices foreverything”), “It “It broke down exactly what the tracking其次，对照组的参与者对他们在网络上遇到的数据实践的范围以及选

下载后可阅读完整内容，剩余1页未读，立即下载