网站隐私政策中第三方数据收集披露的自动审计方法及其不足

70 浏览量更新于2023-10-15 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法207网站隐私政策中第三方数据收集披露的自动审计方法蒂莫西·利伯特路透社新闻研究所牛津英国牛津public@timlibert.me摘要网络隐私的一个主要规则是“通知和选择”。在此模型中，用户会收到数据收集的通知，并提供控制数据收集的选项。为了检验这种方法的有效性，本研究提出了第一个大规模的审计披露的第三方数据收集的网站隐私政策。分析了100万个网站上的数据流，并对20多万个网站此外，还对25家知名第三方数据收集机构的政策进行了研究，以更深入地了解政策环境的整体情况。此外，还将审核策略，以确定是否遵守“不跟踪”浏览器设置所表示的选择。第三方数据收集非常广泛，但只有不到15%的属性数据流被披露。最有可能被披露的第三方保单难以理解，阅读指定保单及相关第三方保单所需的平均时间只有7%的第一方站点策略提到了“请勿跟踪”信号，并且大多数此类提及是为了指定忽略该信号。在所研究的第三方策略中，没有一个对“请勿跟踪”信号提供无条件的支持研究结果表明，目前的“通知和选择”的实现未能提供通知或保留选择。CCS概念• 安全和隐私→安全和隐私的人类和社会方面;安全和隐私;关键词网络隐私，网络安全，互联网政策，互联网监管ACM参考格式：蒂莫西·利伯特2018.网站隐私政策中审计第三方数据收集披露的自动化方法。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。 ACM ， NewYork ， NY ， USA ， 10 页。https://doi.org/10.1145/3178876.3186087本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其作品1引言尽管许多用户可能没有意识到，网页不是直接从浏览器的地址栏中列出的一方下载的单一对象相反，大多数网页是从用户知道的第一方或从用户可能不知道的第三方下载的媒体元素的集合当页面包含第三方内容时，HTTP“Referer”标头将用户当前访问的页面地址传达给第三方。虽然用户可能乐于看到网页中的第三方内容使用第三方HTTP Referer标头来观察用户的Web浏览的过程通常被称为“Web跟踪”。研究表明，网页经常将用户的浏览历史暴露这些方经常收集关于用户行为的数据，以便可以向他们显示针对他们的兴趣定制的广告。该系统的好处是，用户可以享受了解与他们的生活相关的产品和服务，网站运营商能够最有效地利用有限的屏幕空间，供应商能够直接接触潜在客户。然而，这些商业需求是以个人隐私为代价的，而且监管不力。尽管世界上市值排名前十的公司中有一半进行网络跟踪，但对这种做法的正式监督很少。1其中一个原因是美国缺乏最高级别的数据保护机构。2虽然欧盟国家已经指定了数据保护机构，但研究人员发现，第三方经常无视旨在监督第三方跟踪工具使用的法规，并将应用程序视为“失败”[ 39 ]。数据收集行业声称，由于遵守称为“通知和选择”的“自我监管”框架，因此不需要正式监督。在通知和选择框架下，理论上用户被告知数据收集正在进行，并被给予控制实践的选项（通常称为“选择退出”）。根据行业组织“网络广告倡议”，成员公司遵循一项准则，该准则“要求就基于兴趣的广告进行通知和选择，限制成员可以使用个人和公司网站与适当的归属。WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860871据Statistica统计，Alphabet（谷歌）、微软、亚马逊、Facebook、腾讯都在前十名： https ： statista.com/statistics/263264/top-companies-in-the-world-by-market-value/2虽然美国联邦贸易委员会已参与在线隐私多年来，该机构的主要职责不是数据保护。主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法208该法案规定，会员公司可以将数据用于广告目的，并对会员公司收集、使用和传输用于基于兴趣的广告的数据施加了大量实质性限制”[31]。尽管定向广告现在支持绝大多数在线出版物、社交媒体网站和搜索引擎，但很少有审计来确定自律框架实际上是否得到遵守。 2011年Komanduri等人进行的行业定义的通知和选择指南合规性评估是该主题最值得注意的研究之一[20]。虽然大量的学术文献已经确定了在网站上收集数据的各方以及在线隐私政策性质的缺陷，但实际上没有尝试确定在给定网站上收集数据的各方是否在该网站的政策中披露本研究提出了第一次尝试审计披露的第三方数据流的网站隐私政策和一个新的软件工具，policyxray，提出。policyxray有助于对隐私政策进行大规模审计，并已被用于确定207，000个网站的政策是否准确披露了收集用户数据的第三方。隐私政策也被分析以确定文本是否容易理解，文本将花费多长时间阅读，以及是否尊重“不跟踪”选择机制。网络流量以确定是否使用了传输加密。最后，而不是把第三方作为一个无差别的整体，25个著名的数据收集者的政策和做法进行审查，以揭示不同的做法。第三方数据收集非常广泛，但只有不到15%的属性数据流被披露。最有可能被披露的第三方是那些用户可能知道的消费者服务，那些没有消费者服务的第三方在不到1%的情况下被提及保单难以理解，阅读指定保单及相关第三方保单所需的平均时间只有7%的第一方站点策略提到了“请勿跟踪”信号，并且大多数此类提及是为了指定忽略该信号。在所研究的第三方策略中，没有一个对“请勿跟踪”信号提供无条件的支持调查结果表明，目前的实施通知和选择未能提供通知或尊重选择。2研究问题：通知、选择和安全本研究的首要目的是评估通知和选择政策制度的有效性。然而，对于什么是网络上的充分通知或选择，并没有公认的定义。在美国，这可能部分归因于联邦贸易委员会对该主题的指导“一贯不一致”[ 15 ]。在欧盟，电子隐私指令（有时称为一个潜在的注意指标是行业青睐的“A dChoices”图标当点击时，图标将带用户有关广告负责方的信息然而，在这方面，并非所有第三方都显示广告，因此AdChoices无法完全披露收集数据的所有各方。此外，研究人员发现，“这些图标的目的是向消费者提供信息，逃避参与者，即使这些图标在广告的上下文中显示”[44]。提及与未定义的“第三方”共享数据可能但是，鉴于用户同时受第一方和第三方隐私政策的约束，这种类型的模糊通知无法为用户提供评估其所受的所有政策的方法事实上，不同的当事方有不同的政策，用户必须知道特定数据收集者的姓名，才能进行有意义的选择。因此，出于本研究的目的，仅提及模糊的在没有商定的指导方针的情况下，已经询问了有目的的有限问题，以确定用户接收通知并能够传达选择的程度。为简化评价范围作出了三项首先，代替评估不一致的图标和模态对话，本研究评估人类可读的隐私政策作为通知的车辆。其次，为了建立选择、提及和尊重的基准，对“请勿跟踪”（DNT）浏览器信号进行评估。虽然在线广告行业提倡许多不同的选择形式，从设置“选择退出”Cookie到指导用户禁用第三方Cookie，但3DNT是所有主要浏览器的唯一共同信号，其开发受到美国政府的鼓励。联邦贸易委员会[43]。4最后，关于数据传输的安全性，测量了安全套接字层（SSL）传输加密的使用。基于上述范围界定决策，研究问题关于通知的问题如下：谁是在网站上收集用户数据的第三方，他们是否拥有用户可能已经知道的消费者服务？如果用户从给定的网站阅读隐私政策，他们会了解接收他们数据的特定第三方吗？了解网站隐私政策有多耗时和困难了解第三方隐私政策有多耗时和困难有关选择的问题如下：网站隐私政策是否提及并尊重“请勿跟踪”信号？3用户可以“选择退出”跟踪的方式存在显著的可变性，并且选择退出一种服务可能意味着选择加入另一种服务例如，Criteo是许多需要设置退出Cookie的服务之一，并在其策略中声明：“如果您的浏览器设置阻止使用…一般来说，上述平台提供的选择相反，Oracle指示用户关闭第三方cookie以选择退出跟踪，这将产生以下效果禁用Criteo选择退出：“Oracle不会统一处理来自浏览器的不跟踪信号。但是，您可以通过在浏览器中阻止第三方Cookie，来阻止Oracle使用浏览器上的Cookie收集兴趣段。”因此，Criteo和Oracle的策略在技术层面上根本不兼容。但是，如果Criteo和Oracle都将“不跟踪”解释值得注意的是，F.T. C他还说：“我们还需要做更多的工作2012年的“不跟踪”，2018年仍未完成。[43]·····主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法209第三方隐私政策是否提及并尊重“请勿跟踪”信号？有关安全性的问题如下：• 强制加密连接的网站占多大比例• 加密的第三方请求的百分比是多少3方法虽然上述研究问题的范围相对有限，但回答它们是一项重要的任务，并且已经为这项研究开发了新的方法第一项任务是确定在给定网站上收集数据的第三方以及数据传输是否安全。对于此任务，webxray软件平台用于监视通过加载给定网页而生成的第三方网络流量，并将此类流量归因于接收数据的实体。第二，必须识别、提取和审计网站隐私政策为此，我们开发了一个新的webxray模块，名为policyxray虽然Cranor等人之前已经自动分析了金融网站策略[10]，但policyxray是第一个能够审计网站隐私策略中特定第三方数据流披露的工具，代表了隐私策略分析自动化的一步最后，必须使用手动过程选择第三方数据收集器的相关策略这些步骤如下所述3.1webxraywebxray是一个软件平台，用于在加载给定网站时测量数据泄漏给第三方的情况。WebXray利用广泛的手工管理的库，该库将第三方域的所有权归属于控制它们的服务和公司实体 webxray以前曾用于学术研究[17，24，25，35]，webxray属性库已用于增强其他平台（如OpenWPM[12，38]）中的发现。要使用webxray，必须首先生成一个网页列表，然后将其加载到Web浏览器中。在页面加载期间，HTTP元素请求和接收事件被监视。为了确定隐私泄露，通过比较页面的域（例如，与第三方请求相比较）来识别第三方请求。“eXample.com”）发送到请求的域（例如，子域被忽略，使得对诸如“images.example.com”的域的请求不存在纯自动化的机制来消除站点特定子域和国家特定子域之间的歧义（例如，域名）。“example.co.uk”），因此Mozilla公共后缀列表用于此任务。5一旦识别出第三方域名，webxray就会在内部域名所有权数据库中搜索它们webxray数据库是多年侦探工作的产物，因为whois等自动化工具无法揭示匿名注册域名的所有者确定域所有权的过程6.本项目修改了webxray属性数据库，以揭示将服务与母公司联系起来的所有权层次结构例如，webxray能够确定5有关更多详细信息，请参见https://publicsuffix.org6例如，只有在找到晦涩的开发人员文档后才能确定一个域的所有者域名“convertro.com”由Convertro.com拥有，Convertro.com是Aol的子公司，Aol是Oath的子公司，Oath又由美国电信巨头Verizon拥有。webxray 目前支持 Google Chrome 浏览器和 PhantomJSheadless浏览器。Chrome的好处是与许多用户使用的浏览器相同，适合小容量的页面。由于不平凡的资源需求和不稳定性，当许多实例并行运行时，Chrome不适合大量页面。7在本研究中，使用了无头浏览器PhantomJS。在一个合适的鲁棒机器上，64个PhantomJS的并行实例可以很容易地运行。位于美国学术机构的计算机用于进行测量。在大学IP块上使用计算机比使用云托管提供商（如Amazon WebServices）产生更好的措施，因为来自云主机的IP地址经常被阻止，因为它们可能被用于网站抓取和点击欺诈。这项研究的一个主要优点是云服务不用于测量任务。八个3.2政策X射线PolicyXray是用于WebXray的新开发的模块，其提取隐私策略并审计它们的内容，以便公开在给定页面上收集数据的特定第三方它是第一个旨在审计网站隐私政策中观察到的第三方跟踪的工具，代表了本研究的最重要贡献PolicyXray依赖于对WebXray软件的修改，其便于收集隐私策略链接。当webxray加载一个页面时，它会提取该页面上的所有链接。评估每个链接的文本，以查看它是否包含子字符串“隐私策略”。第一次这样的提及被记录为策略链接和搜索停止。如果不存在匹配，则搜索以下字符串以供输入：“privacy”、“termsofservice”、“termsofus”。鉴于策略链接通常在页面的前面找到，链接相对于页面布局以当policyxray运行时，它会尝试加载与给定站点的隐私策略相对应的URL。例如，policyxray尝试从页面中提取策略文本，以便可以独立于其他页面元素（如侧边栏或页脚）进行评估。这是必要的，因为Facebook和Twitter等社交媒体公司经常在页脚链接的文本中提到，但可能不会出现在政策中图1举例说明了策略文本与页面文本的不同从网页中提取策略内容是一个困难的问题，在网站编码风格的变化。为了克服这个问题，使用了Readability.jsJavaScript库。Readability.js是Mozilla维护的一个开源项目，它提供了一种自动化的方法，通过删除页眉和页脚等样板部分来为了利用Readabil-ity.js，policyxray使用Chrome或PhantomJS加载页面，将Readability脚本注入页面，执行它，并从文本中剥离任何剩余的HTML元素。7即使在无头模式下运行Chrome也是如此8例如，Google Scholar网页很容易从大学IP访问，但从云服务IP地址加载相同的页面会导致阻止。·主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法210报头边栏政策文本页脚图1：页脚块经常包括社会媒体公司的名称。这样的提及可能会产生一个错误的肯定，即该公司在政策中被提及;因此policyxray只提取页面的政策文本。可读性使用“链接密度”来衡量一个给定的Readability.js库的早期版本是由Arc 90 Labs开发的; 2010年的研究发现，Readability的准确率为95.90%[37]。可读性正在积极开发中，Firefox和Safari都将其用于为了验证所提取的策略文本实际上是隐私策略，进行基本的健全性检查以验证页面标题或文本包含字符串“privacy”或“cookie”。此外，对收获文本的随机样本的人工的样本仅包含策略文本（95%置信度，+/-5%区间）。policyxray的主要目的是确定webxray在给定页面上收集数据的各方是否在该页面的隐私政策中披露。Todoso，在策略文本中搜索每个域所有者的名称如所公开的。如果未找到给定的所有者，policyxray将递归搜索提及的任何代理组织。因此，如果webxray在页面上找到“con-vertro.com”，policyxray将搜索字符串“Con v ert r o”、“A ol”、“Oath”和“Verizon”。在服务的名称可能存在变化的情况下该流程允许采用有目的的包容性方法进行审计披露，并旨在提供尽可能多的机会以供观察。99“Inform”公司为了确定政策中是否提到和保留了“不跟踪”（DNT）标准，在政策文本中搜索字符串“不跟踪”。这个步骤很容易自动化，但是确定字符串是否参考DNT标准，以及选择信号是否被遵守，是一项困难的任务。对于该研究，手动评估具有关于“不跟踪”的匹配的策略的随机样本，以确定匹配是否是对DNT标准的参考，并且如果是，则是否清楚地尊重用户选择。最后，对策略进行评估，以确定它们的阅读难度以及阅读它们所需的时间关于阅读难度，使用了完善的Flesch阅读轻松度指标这个指标是衡量阅读英语文本难度的一种手段关于阅读保单所需的时间，本研究采用了McDonald和Cranor的方法，他们“假设平均阅读率为每分钟250个单词”[28]。3.3第三方隐私政策的选择第三方可能在给定网站上收集数据的主要原因有三个首先，该方可以是内容分发网络（CDN）。在这种情况下，数据收集可能被视为偶然的，并且在很大程度上超出了通知和选择的范围。其次，该方可以是用于分布式拒绝服务（DDoS）缓解的服务，并且数据收集也可以被视为偶然的。在最后一种情况下，第三方可能正在收集用户数据以用于受众跟踪、在线广告、数据代理或需要处理和存储与特定用户的行为相关的数据10一旦webxray生成了在所研究的网站人群中最常见的第三方的排名报告，则将CDN和DDoS缓解服务排除在进一步考虑之外。对于其余各方，手动选择最突出的隐私策略。此过程中的考虑因素首先是选择最适用于第三方数据收集的政策，该政策是用英语编写的，如果有多个国家的政策，则美国。策略用于反映用于研究的机器的位置。一旦选择了策略，就可以隔离策略文本，识别Do Not Track子句（如果存在），并评估可读性。3.4限制虽然这些方法在规模上表现良好，但它们并非没有限制。首先，因为PhantomJS被用作浏览器，所以对Flash元素的请求可能会被错过，因此收集数据的给定公司将不会被识别。先前的研究已经观察到PhantomJS可能无法成功加载某些页面[12]，但用户代理随机化大大减少了这个问题。同样地，由于页面的快速摄取，用于收集的IP地址可能因看起来是“机器人”而被列入黑名单，并且页面和元素将不会加载。其次，由于实时广告竞价的性质，依赖广告的网站可能会在每个页面加载上将用户暴露给不同的方因此，对于有广告的网站，一次加载页面将产生可能收集的各方数量的不足独立于被披露的公司而频繁出现。包括“Inform” vastly skews10“自然人”一词在此也可适用。主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法211站点上的用户数据。但是，由于webxray表1：第三方流行率、SSL使用和第一方披露†表示公司拥有消费者服务对于参与方，跟踪器的长尾的可变性可能不具有对与披露有关的总体调查结果产生巨大影响尽管如此，重要的是要指出，正在搜索的当事人的数量少于在场当事人的总数第三，虽然Readability.js被主流浏览器使用，并且已经在之前的研究中进行了测试，但它并不完美，并且可能无法提取策略的部分内容。如果这些部分只包含对给定第三方的提及，则将产生假阴性。相反，如果包含无关的非策略文本，并且该文本包含给定第三方的提及，则可能产生误报。但是，如上所述，收集的策略样本未检测到此类问题。最后，由于在线广告市场的所有权变化速度很快，一些当事人可能有新的母公司或子公司，这些公司或子公司尚未反映在webxray数据库中。虽然上述限制可能会影响调查结果，但本研究仍然是第一次尝试执行大规模审计网站隐私政策中第三方数据流披露的任务4研究成果2017年10月，一台位于美国学术机构的计算机被用来扫描Alexa公司使用webxray软件平台识别的100万个热门网站在这些页面中，成功加载了938，093个页面，并提取了248，029个页面policyxray用于提取对应于207，000个站点的184，897个唯一策略策略的数量低于站点的数量，因为由单个实体拥有的站点通常共享策略。最常见的三分之一-接收用户数据的各方25被选择用于它们与通知和选择的研究的相关性，并且它们的隐私策略被提取用于分析。调查结果揭示了流行网站跟踪的一般状态，收集用户数据的第三方的性质，第三方数据流的披露率，隐私政策的复杂性和长度，尊重“不跟踪”（DNT）标准，以及流行网站和第三方数据收集者使用的安全实践。总体而言，调查结果表明，第三方数据收集的披露情况较差，政策难以阅读且耗时，DNT很少得到尊重，安全实践也不理想。以下各节将详细讨论这些调查结果4.1Web隐私的现状之前的工作调查了2015年和2016年 Alexa前一百万个网站的跟踪状态[12，24]。因此，简要概述网络跟踪的当前状态是有用的，以便有助于历史记录。在成功加载的938，093个页面中，91.27%的页面会发起下载第三方页面元素的请求，从而可能使用户面临跨站点跟踪。发起第三方请求的页面使用户在每次页面加载时平均暴露于10.89个唯一域。前10，000名的第三方请求数量最低的10，000个站点是20个，而最低的10，000个站点是10个（详见图3）。70.60%的页面加载会导致设置第三方cookie，而使用第三方cookie的页面平均每页有11.24个不同的cookie86.84%的网页包含从第三方域加载的JavaScript4.225家知名第三方数据收集商如上所述，webxray使用域所有权数据库，该数据库提供分层方式来跟踪由第三方在web上收集的数据的所有权。表1显示了在Alexa排名前100万的网站上发现的25个最突出的数据收集器之所以选择这些方，是因为它们主要活跃于用户数据的处理和存储，而不是内容托管或DDoS缓解。同样，所有选择的各方都设置了第三方cookie，可用于跨站点跟踪。如果一家公司的几乎所有数据都追溯到子公司，则选择子公司而不是母公司谷歌（Alphabet的子公司）和Oath（Verizon的子公司）就是这种情况表1显示了给定第三方可以跟踪的站点的百分比值得注意的是，对于所有选择的公司，跟踪的网站百分比是一个综合指标。例如，如果Aol和Yahoo位于同一站点，则公司跟踪%% SSL 披露百分比谷歌†82.8180.3538.29Facebook†33.3791.6117.50Twitter†12.2690.4310.74AppNexus11.9759.980.44Oracle11.2141.513.72Adobe†10.1470.485.77誓言†9.6757.644.42The Trade Desk7.3856.490.12Acxiom7.1034.210.26Rubicon计划6.6871.620.12OpenX5.7852.500.29Lotame5.7129.820.29IPONWEB5.6466.110.07卡萨莱传媒5.0563.740.05Criteo4.9362.262.75Neustar4.7840.050.04PubMatic4.6154.270.19媒体数学4.6056.230.04微软†4.5772.2712.56comScore4.5753.421.74尼尔森在线4.0341.410.35AdForm3.9650.710.88New Relic3.9497.180.60Quantcast3.7146.011.46火箭燃料3.6559.830.10主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法212网站被计算一次，每一个美国在线，雅虎和誓言，而不是两次誓言。这些综合指标提供了对各种公司影响范围的深入了解例如，谷歌追踪超过82%的表2：第三方隐私政策特征†表示DNT提及‡表示DNT部分受尊重Facebook超过33%，Twitter超过12%。表1还说明了第三方数据收集器的长尾分布。排名第五的甲骨文公司跟踪了11.21%的网站，只是谷歌的一小部分。同样，排名第25位的公司Rocketfuel的收益率为3.65%，仅为甲骨文的一小部分。回到对通知的评估，可以假定如果用户与公司具有预先存在的消费者关系，则他们可能已经熟悉数据收集实践。例如，Twitter12因此，从通知和选择的角度来看，社交媒体、搜索和电子邮件等消费者服务在理论上可能提供了独立于网站政策的数据收集通知。在接受调查的25家公司中，只有6家提供消费者服务。因此，对于大多数第三方数据收集者来说，由于与服务的先前交互，用户几乎没有机会了解数据收集实践。同样值得注意的是，仅仅因为一家公司拥有消费者服务，这确实意味着所有可能被跟踪的用户都是该服务的用户例如，不使用Twitter的人，也没有理由阅读Twitter4.3公司在隐私政策中的披露本研究的关键是评估网站隐私政策是否提供了在给定网站上收集数据的第三方的通知如方法部分所述，webxray用于确定收集用户数据的第三方一个给定的站点。对于207，000个网站，policyxray用于验证这些公司是否在网站的隐私政策中被提及。对向已知第三方的数据传输的总共1，807，491个实例进行了审计。据发现，只有14.80%的数据传输到确定的第三方被披露。因此，阅读网站隐私政策的用户不太可能被告知收集其数据的各方。虽然总体披露率较低，但各缔约方的披露率并不一致。如表1所示，38.29%的案件披露了向谷歌的转移虽然超过60%的数据传输到谷歌没有披露，但很明显，用户很有可能通过网站政策或谷歌自己的政策了解到数据传输。对于消费者服务公司，Oath集团的披露率最低，为4.42%。同样，由于美国在线和雅虎是Oath的子公司，用户可能会通过消费者政策得到通知。对于所有提供消费者服务的公司，平均披露率为14.88%。在被调查的25家知名第三方中，非消费者服务的信息披露率明显较低。对于大多数用户可能不知道的19项服务，平均泄露率为低于1%。简单地说，如果用户与第三方没有预先存在的消费者关系，则他们几乎没有机会通过阅读隐私政策来了解这些方。4.4政策的可读性除了提到收集用户数据的各方之外，网站的隐私政策可能会详细说明与数据存储，保留和使用相关的许多其他问题。然而，为了使该信息有用，它必须被大多数用户理解。虽然给定文本的可理解程度取决于许多因素，从给定用户的文化程度到对数据保护法规细节的熟悉程度FRE分数范围为0-100，分数越低表明文本阅读更具挑战性鉴于个人很难同意他们无法理解的合同，美国佛罗里达州规定，保险单的书写方式必须“在Flesch阅读轻松测试中获得1311有趣的是，Twitter从2014年5月的 18%下降，这是一个如果社交网络的相关性下降，则值得探索[24]。12https://twitter.com/en/privacy13佛罗里达州法规第627.4145节-保险单中的可读语言。（Fla. Stat. §627.4145）公司字数阅读缓解谷歌277339.67Facebook270148.94Twitter379935.1AppNexus390143.22甲骨文†484429.18Adobe170029.08誓言†246135.61交易台†573139.06Acxiom88126.61Rubicon计划72037.84OpenX†‡334535.31Lotame†‡315029.48IPONWEB94729.48卡萨莱传媒130125.90克里泰奥†328738.25Neustar590331.31PubMatic†436018.42媒体数学479439.16微软†2536740.89comScore†87335.27尼尔森在线156642.41AdForm213426.85New Relic415043.06Quantcast292440.79火箭燃料344535.10平均388235.48主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法213字数易读性（缩放x30）.=图2：在Alexa中排名较高的网站往往有更长的策略（蓝色），但Flesch Reading Ease（红色）显示的变化要小得多。两千一千五百1， 0000 20 40 60 80 100Alexa排名平均每10，000Alexa排名较高的网站往往具有较长的策略，而大多数网站往往明显较短（见图2）。高排名网站的政策较长的一个可能原因可能是，它们是由创建详细的自定义政策的律师团队编写的。相比之下，排名较低的网站可能没有生成复杂策略所需的资源然而，在查看大量网站时，阅读平均网站政策的时间要求可能比早期工作估计的要然而，情况可能并非如此。迄今为止的研究结果表明，访问特定网站的用户受到许多政策的约束：网站的政策如表2所示，第三方隐私政策的平均长度为3，882个单词，阅读时间为15.5分钟，几乎是网站隐私政策的三倍。由于单个站点可能会将用户暴露给串联的多个策略，因此可以计算读取给定站点的所有适用策略所需的总时间。考虑到读取适用站点策略的总分钟数是第一方策略的字数（WC_f_p）和所有第三方策略的字数（WC_tp）的总和除以250，可以导出以下公式对网站隐私政策的分析显示，他们的平均FRE得分为39.83。14因此，如果一个普通的网站隐私t分钟WCf p+WCTP250如果保险单是佛罗里达州的保险单，它不会通过基本的法律要求。当注意到表2中详细列出的25个主要数据收集者的隐私政策时，发现平均可读性得分为35.48，低于网站政策。同样，如果这些政策是在佛罗里达州的保险，而不是在线隐私，他们将是无效的。各种第三方政策之间存在显著差异 Facebook的政策可读性最强，得分为48.94; PubMatic的得分最低，为18.42，这使得它比哈佛法律评论的文章更难阅读。4.5读取策略所需的时间2008年，McDonald和Cranor提出了一个有趣的问题：“如果网站用户每年只浏览一次他们访问的每个网站的隐私政策，他们的时间有什么价值？“[28]第10段。通过分析“75个最受欢迎网站的字数”，他们确定阅读隐私政策的“国家机会成本”将达到7810亿美元。本研究更新了McDonald和Cranor在207，000个站点的策略中，每个策略的平均字数为1，404。使用“平均每分钟250个单词的阅读速率”，平均网站策略将需要5.6分钟来阅读[ 28 ]。这低于McDonald和Cranor在2008年发现的平均10分钟。这是因为，政策14这个难度水平相对于给定站点的Alexa排名几乎没有变化（见图2）。应用此公式显示，阅读给定站点的所有适用策略所需的总时间平均为84.7分钟此计算不考虑用户可能不需要在他们查看的每个站点上重新阅读第三方策略，并且仅适用于遇到全部策略集的第一个站点如前所述，用户从一开始就知道第三方策略的可能性很低，并且任何用户都不太可能有能力找到相关策略，更不用说阅读它们的时间因此，断言并不是用户实际上花费超过一个小时阅读策略，而是该发现强调了当考虑全部范围的策略时，通知和选择制度从根本上是站不住脚4.6尊重用户选择如以上发现已经清楚地表明的，用户通过读取站点的隐私政策而接收到第三方接收其数据的通知的可能性是可显著降低的。然而，用户可以表达他们的选择以不需要用户通知的方式来控制数据收集是可能的。“不跟踪”（DNT）机制完成了这一任务，并且是用户向接收HTTP请求的各方传达其不被跟踪的愿望的手段。DNT是所有主要Web浏览器中可用的设置，用户可以轻松启用。美国联邦贸易委员会一直高度支持该标准，并鼓励其发展[43]。根据技术规范，DNT提供了一种“允许用户表达他们对跟踪的偏好的方法，包括选择退出跟踪部分或全部时间”[27]。DNT可能被视为一种礼貌的要求，并且没有技术机制来强制数据收集者遵守主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法214相反，数据收集者必须承诺尊重其策略文档中所表达的选择信号这项研究是第一次大规模地研究DNT对网站和第三方数据收集器的在分析的网站策略中，7%包含字符串“不跟踪”。策略样本的手动分析确定字符串是否引用DNT，如果是，则确定是否遵守DNT。发现15.73%的提及不是关于DNT（例如，“我们不跟踪用户”是一个常见短语，本身与DNT无关）。64.80%的政策提到DNT，但明确不兑现。例如，一项代表性政策指出，“我们不会因为从您的浏览器接收到任何'不跟踪'请求而禁用网站上可能处于活动状态的跟踪技术”。15阿肯色州一家政府网站的政策规定：“虽然美国联邦贸易委员会有授权，但我们的网站目前不支持D N T代码。“1619.46%的具有字符串“不跟踪”的政策包含尊重用户的DNT偏好的明确承诺。在以下声明中可以找到一个这样的承诺：“我们尊重不跟踪信号，不跟踪，植物饼干，或使用广告时，不要T机架（D N T）的机器是在适当的位置。“然而，重要的是要重申，这些承诺是自愿的，难以审计。考虑到单个网站可能不具有在站点之间“跟踪”用户的能力，DNT的语言可能不完全适用。然而，对于在网络上跟踪用户的第三方，DNT具有特别的显著性。此外，虽然小型网站运营商可能不了解DNT标准，但主要的第三方数据收集者对其非常了解，并聘请了具有数据保护法规专业知识的律师。尽管有这样的认识，但25个数据收集者中只有9个提到DNT标准在他们的隐私政策。与第一方披露一样，这些提及中的大多数是指定忽略DNT。只有OpenX和Lotame两个第三方为D N T提供了合格的支持。 Lotame的政策报告体现了DNT的精神：“如果Lotame从Internet Explorer以外的任何浏览器收到'不跟踪'信号，Lotame将实施退出。”4.7安全实践除了通知和选择之外，在线广告的指导方针通常还包括确保数据安全的规定。美国联邦贸易委员会2009年的在线广告指导方针声称“任何收集和/或存储消费者数据用于行为广告的公司都应该为该数据提供合理的同样，由行业贸易组织互联网广告局撰写的“在线行为广告自律原则”规定：“实体应保持适当的物理、电子和行政保护措施，以保护收集和用于在线行为广告目的的数据”[4]。15http://www.cmaworld.com/privacy/16 http://www.arkansas.gov/policies/privacy-policy图3：排名较高的网站更频繁地强制SSL（蓝色），但也会发起更多的第三方请求（红色）。5040302010电话：020 - 406080100Alexa排名平均每10，000在Web上的第三方数据传输环境中，保护用户数据涉及两个主要技术因素：存储加密和传输加密。存储加密适用于数据到达目的地后的保护方式，并防止未经授权的各方在接收和处理数据后读取数据传输加密是指在通过Internet传输数据时对数据进行加密的过程，并防止网络攻击者读取数据。在没有独立审计机构的情况下，无法验证收集用户数据的第三方是否采用了足够的存储加密。目前，没有这样的机构提供公开的安全实践报告。但是，可以通过检查加载页面时生成的网络流量来确定是否正在使用传输加密，以便确定是否使用安全套接字层（SSL）连接进行连接。虽然传输加密的采用一直在增加，但仍然存在大量未加密的流量，这使用户数据面临被拦截的风险在检查的所有页面中，35.14%的用户在通过HTTP请求请求后重定向到SSL安全的HTTPS页面如图3所示，排名较高的网站更频繁地强制SSL连接在页面内容方面，所有元素请求中有52.25%但是，第一方和第三方请求之间的加密存在显著差异：第一方在35.52%的情况下进行了加密，而第三方为66.82%。上述调查结果表明，第三方可能有更高级的数据安全实践。然而，如表1所示，在25个受检查的第三方数据收集器的加密实践中存在巨大的差异Facebook、Twitter和New Relic都对超过90%的请求进行了加密。相比之下，Oracle 、 Acxiom 、 Lotame 、 Neustar 、 Nielsen Online 和Quantcast加密的请求不到所有请求的一半这种广泛的可变性强调了自我监管如何在数据收集者之间产生截然不同的实践，并建议应采用和执行明确的标准强制SSL重定向（%）Ave.第三方请求主题：Web上的安全和隐私WWW 201

下载后可阅读完整内容，剩余1页未读，立即下载