大规模浏览器指纹识别的有效性分析

160 浏览量更新于2023-10-16 收藏 12.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3090躲藏在人群中：大规模浏览器指纹识别的有效性分析0Alejandro Gómez-Boix UnivRennes，Inria，CNRS，IRISARennes，Francealejandro.gomez-boix@inria.fr0Pierre Laperdrix UnivRennes，Inria，CNRS，IRISARennes，Francepierre.laperdrix@inria.fr0Benoit Baudry KTH RoyalInstitute of TechnologyStockholm，Swedenbaudry@kth.se0摘要0浏览器指纹识别是一种无状态技术，通过浏览器API收集有关设备的各种数据。过去的研究已经证明，现代设备呈现出如此多样性，以至于指纹可以被用来识别和跟踪用户的在线活动。通过这项工作，我们希望评估当分析数百万个指纹几个月后，浏览器指纹识别是否仍然能够唯一识别大量用户。我们从法国前15个热门网站收集了2,067,942个浏览器指纹。对这个新数据集的分析为不断增长的浏览器指纹识别领域提供了新的视角。关键的见解是我们数据集中唯一指纹的百分比要比过去报告的要低得多：只有33.6％的指纹是唯一的，而以前的研究中超过80％的指纹是唯一的。我们表明非唯一指纹往往是脆弱的。如果指纹的某些特征发生变化，很有可能指纹将变得唯一。我们还证实，当前的Web技术发展对用户的隐私有很大的益处，因为插件的删除大大降低了唯一桌面机器的比率。0关键词0浏览器指纹识别；隐私；软件多样性0ACM参考格式：Alejandro Gómez-Boix，Pierre Laperdrix和BenoitBaudry。2018。躲藏在人群中：大规模浏览器指纹识别的有效性分析。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，纽约，美国，10页。https://doi.org/10.1145/3178876.318609701 引言0网络浏览器与服务器共享设备特定信息，以改善在线用户体验。当网络浏览器向服务器请求网页时，通过了解平台或屏幕分辨率，服务器可以调整其响应以充分利用每个设备的功能。2010年，通过Panopticlick网站收集的数据，Eckersley表明这些信息如此多样化和稳定，以至于可以用来构建所谓的浏览器指纹，以跟踪用户在线活动[15]。通过收集HTTP头、JavaScript和已安装插件的信息，他可以0本文发表在Creative Commons Attribution 4.0 International (CC BY4.0)许可下。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂© 2018IW3C2（国际万维网会议委员会），根据Creative Commons CC BY 4.0许可发布。ACMISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860970能够唯一识别大多数浏览器。根据收集到的数据，Eckersley不仅展示了世界各地存在着令人难以置信的设备多样性，而且他还强调这种多样性可以作为网络上的一种识别机制。自此研究以来，研究人员已经寻找了新的方法来收集更多的信息[13, 14, 18, 24-26, 32, 34,36]，测量这些技术在互联网上的采用情况[10, 11, 16,29]，提出防御机制[12, 17, 19-21,28]，并跟踪设备长时间[37]。2016年，Laperdrix等人在AmIUnique网站上进行的一项研究[22]证实了Eckersley的发现。作者们注意到随着新的API（如Canvas）的添加和浏览器插件的逐渐删除，最具歧视性的属性发生了变化。他们还证明了指纹识别移动设备是可能的，但成功率较低。使用指纹识别跟踪用户是现实存在的。如果设备与其他设备相比有微小的差异，它可以在不同的网站上被识别并跟踪。虽然Panopticlick和AmIUnique证明了追踪是可能的，但在查看两个数据集时会出现一个问题：它们的偏见。首先，这两个网站都致力于指纹识别，访问它们的人对在线追踪的主题感兴趣。这限制了他们研究的范围。然后，从2017年7月AmIUnique网站的一般统计页面来看，我们可以清楚地看到一个偏见，因为57％的访问者使用Windows，15％使用Linux，13％使用Mac，5％使用Android，4％使用iOS。根据2017年7月StatCounter的最新统计数据显示，Android在操作系统市场份额中占主导地位，约为40％，其次是Windows占36％，iOS占13％，Mac占5％，Linux不到1％[6]。然后，人们可以思考这种差异对浏览器指纹识别的有效性产生的影响。在本文中，我们将研究追踪是否真的可以扩展到面向更广泛受众的网站。通过收集来自法国前15个热门网站的2,067,942个指纹，我们调查浏览器指纹识别技术在识别用户方面的有效性，收集了文献中报告的相同属性。我们的前两个研究问题与此问题有关：RQ1.我们的数据中的指纹有多大程度上是唯一可识别的？RQ2.如果某个值发生变化，非唯一指纹是否会变得唯一？其他问题与数据集的特征和Web技术的可能影响有关：RQ3.收集指纹的环境是否会影响所获得的结果？0Track: Security and Privacy on the Web WWW 2018, 2018年4月23日至27日，法国里昂3100RQ 4.Web技术的发展是否限制了浏览器指纹的有效性？通过分析收集到的指纹，我们发现实际情况要复杂得多。以前的研究报告中，独特指纹的比例超过80%，而我们得到了一个令人惊讶的数字：33.6%的独特指纹。这种差距可以通过目标受众来解释，因为我们的研究涉及全球人口的指纹收集，并不一定偏向于关注在线隐私的用户。当我们看到来自移动设备的251,166个指纹时，这种差异更加明显。其中18.5%是独特的，这与Laperdrix等人观察到的81%形成了直接矛盾[22]。这些结果展示了浏览器指纹和当前Web技术发展的另一个方面。在这里，我们通过不同的视角对浏览器指纹领域进行了扩展，扩展了Eckersley[15]和Laperdrix等人[22]的分析。我们的主要贡献包括：•我们通过分析由17个不同属性组成的2,067,942个指纹，探索了浏览器指纹的当前状态。我们还首次进行了JavaScript字体探测的大规模研究，并测量了其在现实生活中的有效性。•我们展示了通过收集这些属性并针对更广泛的受众，浏览器指纹并不像文献中报道的那样有效。以前的研究报告中，独特指纹的比例超过80%，而我们得到了33.6%。•我们将我们的数据集与Panopticlick和AmIUnique的数据集进行了比较，并详细解释了可以观察到的众多差异。•我们对浏览器指纹的未来和这些结果对该领域和未来应用该技术的意义进行了讨论。本文的结构如下。第2节介绍了我们的新数据集以及来自Panopticlick和AmIUnique的数据集。第3节通过提供详细的统计数据来分析我们数据中浏览器指纹的多样性，并比较了三个数据集，以帮助解释差异。第4节讨论了我们的结果对该领域的影响，并模拟了可能的技术发展，以了解该技术的未来应用。最后，第5节总结了本文。02 数据集0本节介绍了下一节比较的基础，即三个不同数据集。首先，我们简要描述了两个大规模浏览器指纹统计数据集。然后，我们描述了本研究收集的数据以及组成2,067,942个收集指纹的属性。02.1 以前的研究02.1.1 Panopticlick. 2010年，PeterEckersley推出了Panopticlick网站，旨在通过在浏览器中运行的脚本收集设备特定信息[15]。该脚本收集到的0对于10个不同的Web浏览器特性及其执行平台的值进行了收集。这些特性来自三个不同的来源：HTTP协议、JavaScript和FlashAPI。Eckersley在2010年1月27日至2月15日期间收集了470,161个指纹。Panopticlick获得的数据“代表了足够关注隐私的互联网用户群体”[15]，因此在这个意义上，数据是相当有偏见的。在Eckersley进行的研究中，字体列表（通过FlashAPI收集）和插件列表（通过JavaScript收集）是最具区分度的属性。02.1.2 AmIUnique.为了对Web浏览器指纹进行深入分析，AmIUnique网站于2014年11月上线。收集到的指纹由17个特征组成（其中包括Eckersley提出的特征[15]）。这些指纹包括最新的技术，如HTML5画布元素和WebGLAPI。Laperdrix等人在2014年11月至2015年2月期间分析了收集到的118,934个指纹[22]。作者们通过Panopticlick验证了Eckersley的研究结果，并首次对从移动设备收集到的指纹进行了广泛分析。在该网站上收集到的数据偏向于关注隐私和数字足迹的用户。02.2我们的数据0我们在法国排名前15位的一个网站上部署了一个脚本，该网站是根据Alexa流量排名确定的，包括一个天气预报页面和一个政治新闻页面。我们的脚本在2016年12月7日至2017年6月7日期间收集了六个月的指纹。为了符合欧洲指令2002/58/CE和2009/136/CE以及法国数据保护机构（CNIL）的要求，只有同意使用cookie和指纹技术的访问者才被收集。当用户首次连接到这两个页面之一时，我们在其浏览器中设置了一个为期6个月的cookie。这使我们能够识别返回的访问者。只要用户没有删除cookie，我们就不会存储来自同一用户的重复指纹。与其他两个详细研究相比，用于收集我们数据的网站涵盖了广泛的主题，而且并非专门用于浏览器指纹识别。根据霍桑效应[23]，如果个体意识到自己正在接受研究，就会发生一种反应，即个体会根据自己被观察的意识来修改自己行为的某个方面。在我们的案例中，这意味着收集的指纹更具代表性，因为用户没有被引诱去玩弄他们的浏览器以改变其配置并产生不同的指纹。02.2.1收集的数据。为了与Laperdrix等人在2016年进行的研究进行比较，我们收集了相同的属性。完整的属性列表在表2的“属性”列中给出。然而，为了反映最近的技术趋势，我们对脚本进行了以下修改：0字体列表。字体通常通过Flash插件收集。只需几行代码，就可以访问用户系统上安装的所有字体列表。然而，由于安全和稳定性原因，插件在现代浏览器中已被弃用。0跟踪：2018年4月23日至27日，法国里昂举行的Web上的安全与隐私WWW 2018。3110图1：Tinos字体（上）和Times NewRoman字体（下）之间的区别。0HTML5环境的丰富特性[33]，Flash有望在2020年终止，因为Adobe宣布了其解决方案的寿命终结[4]。像Chrome、Firefox、Edge和Safari这样的主要网络浏览器已经阻止Flash内容或删除了对其的支持。这意味着指纹识别脚本必须使用其他机制来访问字体列表。Nikiforakis等人揭示了通过JavaScript探测字体的可能性[29]。脚本可以要求在一个div元素中使用特定字体呈现字符串。如果设备上存在该字体，浏览器将使用它。否则，浏览器将使用所谓的备用字体。通过测量div元素的尺寸，可以知道是否使用了所需的字体，或者备用字体代替了它。这两种收集方法之间最大的区别在于，通过JavaScript收集字体必须逐个检查，而Flash可以一次性获取所有安装的字体。这意味着测试大量字体会耗费时间，并可能延迟网页的加载。因此，我们选择测试66种不同的字体，其中包括一些最流行的“网络安全字体”，这些字体在大多数操作系统中都有，以及其他一些不太常见的字体。附录A中报告了我们在脚本中测试的完整字体列表。在将我们的脚本部署到生产环境之前，我们确定了JavaScript字体探测操作的一个限制。我们发现有些字体的尺寸与备用字体的尺寸完全相同。图1说明了这个问题。在这个例子中，两种被测试的字体在度量上是可比较的，宽度和高度完全相同。然而，它们并不相同，可以从一些字母的形状中看出来（尤其是“e”、“a”和“w”）。这意味着如果在安装了Tinos字体的系统上询问Times NewRoman（或反之亦然），这里的字体探测将报告错误的结果。为了解决这个问题，我们测量了一个div元素相对于三种不同的字体系列的尺寸，即三种不同的备用字体。Web浏览器可以使用不同的字体系列，其中最流行的是serif、sans-serif、monospace、cursive和fantasy。我们选择了前三种，并对每种字体进行了三次测试，共进行了66 *3 =198次不同的测试。这样，我们避免了报告错误的负面结果，因为这三种备用字体具有不同的尺寸。0画布。CanvasAPI允许在浏览器中以脚本方式渲染2D形状和文本。由Mowery等人[25]发现，由Acar等人[10]进行研究，然后由Laperdrix等人[22]大规模收集，画布指纹可以通过渲染一张特定图片来以像素精度区分设备。为了测试这项技术的极限，我们采用了Laperdrix等人[22]进行的画布测试，并通过结合不同性质的新元素使其更加复杂。首先，脚本要求浏览器渲染以下两个字符串：“Yxskaftbud, gevår WC-zonmö IQ-hjälp”和“Gud hjälpe Zorns mö qvickt få byxa”。它们包含了字母表中的大多数字母，并在其中添加了特殊字符。对于第一个字符串，我们通过请求一个带有虚假名称的字体来强制浏览器使用其回退字体。根据操作系统和设备上安装的字体，回退字体可能因用户而异。对于第二行，浏览器被要求使用在许多操作系统中常见的Arial字体。然后，我们要求浏览器提供带有符号和表情符号的附加字符串。所有字符串，加上一个矩形，都以特定的旋转方式绘制。第二组元素使用了四个数学函数进行渲染：正弦函数、余弦函数和两个线性函数。这些函数在特定的区间上绘制，并使用JavaScriptMath库的PI值作为参数。第三组元素是绘制一组椭圆。这些图形以不同的颜色和不同的透明度绘制。由于不同浏览器的不透明度滤镜不同，这会导致它们之间的差异。其中一个椭圆重叠在画布元素上，并填充有一个透明的径向渐变。图2显示了根据我们脚本的指令渲染的画布示例。0Cookies。由于我们只收集了接受使用cookies的用户的指纹，所有指纹在此属性上的值都完全相同。0图2：根据画布指纹测试指令渲染的图片示例。0表1：操作系统市场份额分布。02.2.2描述性统计。我们区分两种不同类型的指纹：属于移动设备的指纹和属于台式机和笔记本电脑的指纹（我们将台式机和笔记本电脑称为个人计算机）。为了防止从同一用户收集到多个相同的指纹，我们在用户设备上存储一个有效期为六个月的唯一ID的cookie。我们收集了2,067,942个指纹，其中1,816,764个属于个人计算机（数据的87.9%），其余的251,190个指纹属于移动设备（数据的12.1%）。0Nov’14-Jul’17 [22] Jul’17 [6]0操作系统我们的数据 AmIUnique StatCounter0Windows 93.5% 63.7% 84%0MacOS 5.5% 14.9% 11%0Linux 0.9% 16.9% 1.8%0Android 72% 55.6% 70%0iOS 18.8% 42.3% 22%0Windows Phone 7.6% < 1% 1%0表1报告了我们数据集和AmIUnique网站数据中操作系统的分布情况。根据2017年7月的StatCounter统计数据也是如此。0Track: Security and Privacy on the Web WWW 2018, April 23-27, 2018, Lyon, France020406080100%3120为了给出它们与全球人口的接近程度，我们添加了一些数据。首先，通过比较我们新收集的数据和AmIUnique的数据，我们可以看到在分布方面存在显著差异。值得注意的是，我们可以看到AmIUnique吸引了明显偏向某一人口群体的偏见，因为Linux桌面机器的比例要高得多，远高于StatCounter的报告。然后，如果我们将我们的数据与StatCounter的数据进行比较，我们可以看到我们提供了更接近全球人口的代表，因为两个分布的百分比接近。表2总结了我们数据集的基本描述统计数据。'不同值'列提供了我们观察到的每个属性的不同值的数量，而'唯一值'列提供了在我们的数据集中只出现一次的值的数量。例如，使用本地/会话存储属性没有唯一值，因为它被限制为“是”和“否”。此外，在我们的数据中，所有用户都接受了使用cookies，因此所有指纹在此属性上都是“是”。其他属性可以有很多不同的值。例如，我们观察到列表中有6618个唯一值。事实上，我们还知道此属性的不同值的上限。我们总共进行了66 *3次测试，每个测试可以取值为“true”或“false”。这导致了2^66* 3种可能的组合，即使在实践中，其中许多组合也不会出现。03 分析和比较0在第2节中，我们描述了我们的脚本收集的数据。在本节中，我们首先分析了我们的数据集中浏览器指纹的多样性。然后，我们分析了构成指纹的每个属性的识别信息水平。最后，我们将我们的数据集与Eckersley在2010年[15]和Laperdrix等人在2016年[22]提供的两个可用的指纹统计数据集进行比较。03.1 浏览器指纹多样性0我们的数据收集规模比以前的研究要大得多，面向的受众也更广泛，这导致了RQ1.我们的数据中指纹的唯一识别性有多高？这个问题旨在确定收集数据中浏览器指纹的多样性。使用表2中的属性，我们成功地在数据集中唯一识别了33.6%的指纹。在个人电脑上，35.7%的指纹是唯一的，而在移动设备上，这个数字较低，为18.5%。在个人电脑上，威胁比其他研究报告中所述的要小。在移动设备上，数字要小得多，但威胁来自其他地方：集成跟踪应用的封闭平台。图3表示匿名集的分布。集合表示具有所有收集属性相同值的指纹组。如果一个指纹在一个大小为1的集合中，这意味着这个指纹是唯一的，可以被识别。在移动设备上，属于大于50大小集合的指纹的百分比约为59%，而在个人电脑上，这个百分比约为8%。这意味着在移动设备上共享相同指纹的设备数量大于在个人电脑上。这可以解释为这些设备的软件和硬件环境比起台式机更加受限制。0台式机和笔记本机。用户购买非常特定的智能手机型号，这些型号被许多人共享。最大的移动设备集包含13,241个指纹，而个人电脑集包含1,394个指纹。0所有设备台式机移动设备02-10051-1000501-10000>1000 完整指纹0图3：移动设备和台式机/笔记本机的匿名集大小比较。0我们的数据中浏览器指纹的唯一识别成功率较低，表明在商业网站上收集超过两百万个浏览器指纹，一个指纹是唯一的，因此可以被用于追踪的可能性非常低。指纹唯一的可能性比以前为研究目的收集的数据集（Panopticlick和AmIUnique）要低三倍。03.1.1唯一指纹。移动设备上有46,459个唯一指纹，个人电脑上有647,741个唯一指纹。指纹之所以唯一，是由于以下原因之一： •它具有一个属性，该属性的值在整个数据集中只出现一次。 •其所有属性的组合在整个数据集中是唯一的。在移动设备上，73%的指纹是唯一的，因为它们包含唯一的值，而对于个人电脑来说，这个百分比约为35%。虽然移动设备的指纹往往是由于其唯一的值而唯一，但是笔记本/台式机的指纹往往具有如此多样化的值组合，以至于它们创建了唯一的指纹。最显著的属性是移动设备上的画布和个人电脑上的插件。具有唯一画布值的指纹占移动设备上唯一指纹的62%，而具有唯一插件组合的指纹占个人电脑上唯一指纹的30%。03.1.2调查浏览器指纹的变化。设备在其生命周期内会展示不同的指纹。这是因为Web技术不断发展，因此Web浏览器组件不断更新。从操作系统到浏览器及其组件，一次更新就可以改变展示的浏览器指纹。例如，新的浏览器版本通过用户代理的变化直接反映出来。插件更新通过插件列表的变化可见。当Web浏览器自然演化时，变化会自动发生，无需用户干预，这会影响所有用户。Web技术的自然演化不是指纹演化的唯一原因。通常有一些参数是用户选择的，例如使用cookies、存在“不追踪”头或激活特定插件。用户可以随时更改这些值。此外，一些属性（如时区或字体）间接受环境变化的影响，例如到不同时区旅行或添加字体（字体可以有意添加，也可以作为在设备上安装新软件的副作用）。这引发了RQ2：如果某个值发生变化，非唯一指纹是否会变得唯一？具体而言，如果只有一个值发生变化，非唯一指纹是否会变得唯一？让我们以一个非唯一指纹的用户为例。在Windows 10上运行Chrome55，浏览器显示以下内容语言头的值：fr-FR,fr;q=0.8,en-US;q=0.6,en;q=0.4由于某种原因，用户决定添加西班牙语。然后，浏览器显示以下内容语言头的值：fr-FR,fr;q=0.8,en-US;q=0.6,en;q=0.4,es;q=0.2通过更改语言设置，指纹是否变得唯一？为了回答这类问题并研究非唯一指纹在演化面前的韧性，我们进行了一项实验。我们研究了用户选择对其指纹唯一性的影响。有一组属性的值无法更改，例如与运行浏览器的硬件和软件环境相关的属性。Platform属性与操作系统相关联，而WebGLVendor和WebGLRenderer揭示了有关GPU的信息。像User-agent、HTTP头列表或内容编码这样的属性超出了用户的控制范围，因为它们与HTTP协议相关。然而，Cookies enabled、Do NotTrack、使用本地/会话存储仅限于“是”和“否”，因此它们提供的信息不太具有区分性。这使得内容语言、插件列表、可用字体和时区成为我们分析的范围。0跟踪：Web上的安全和隐私 WWW 2018年4月23日至27日，法国里昂020406080100%020406080100%3130表2：数据的浏览器测量结果。0属性0数据集移动设备个人电脑0不同的唯一的不同的唯一的不同的唯一的0值值值值值值0用户代理 19,775 8,702 10,949 5,424 8,826 3,2780内容编码 30 8 19 5 25 40内容语言 2,739 1,313 961 529 2,128 9580插件列表 288,740 196,898 81 33 288,715 196,8820启用Cookies 1 0 1 0 1 00使用本地/会话存储 2 0 2 0 2 00时区 60 16 39 1 58 180屏幕分辨率和颜色深度 2,971 1,015 434 159 2675 8970可用字体 17,372 6,618 94 36 17,326 6,6030HTTP头列表 610 229 158 78 491 1640平台 32 5 21 2 26 30不追踪 3 0 3 0 3 00画布 78,037 65,787 30,884 28,768 47,492 37,1940WebGL供应商 27 1 20 2 26 30WebGL渲染器 3,691 657 95 10 3,656 6610使用广告拦截器 2 0 2 0 2 00用户的选择是用户选择的，例如使用cookies、存在“不追踪”头或激活特定插件。用户可以随时更改这些值。此外，一些属性（如时区或字体）间接受环境变化的影响，例如到不同时区旅行或添加字体（字体可以有意添加，也可以作为在设备上安装新软件的副作用）。这引发了RQ2：如果某个值发生变化，非唯一指纹是否会变得唯一？具体而言，如果只有一个值发生变化，非唯一指纹是否会变得唯一？让我们以一个非唯一指纹的用户为例。在Windows 10上运行Chrome55，浏览器显示以下内容语言头的值：fr-FR,fr;q=0.8,en-US;q=0.6,en;q=0.4由于某种原因，用户决定添加西班牙语。然后，浏览器显示以下内容语言头的值：fr-FR,fr;q=0.8,en-US;q=0.6,en;q=0.4,es;q=0.2通过更改语言设置，指纹是否变得唯一？为了回答这类问题并研究非唯一指纹在演化面前的韧性，我们进行了一项实验。我们研究了用户选择对其指纹唯一性的影响。有一组属性的值无法更改，例如与运行浏览器的硬件和软件环境相关的属性。Platform属性与操作系统相关联，而WebGLVendor和WebGLRenderer揭示了有关GPU的信息。像User-agent、HTTP头列表或内容编码这样的属性超出了用户的控制范围，因为它们与HTTP协议相关。然而，Cookiesenabled、Do NotTrack、使用本地/会话存储仅限于“是”和“否”，因此它们提供的信息不太具有区分性。这使得内容语言、插件列表、可用字体和时区成为我们分析的范围。0时区0插件列表0内容语言0可用字体01 2−50 >50 移动设备0（a）0时区0插件列表0内容语言0可用字体0台式机0（b）图4：在移动设备（a）和个人电脑（b）上随机更改值得到的大于50个指纹的匿名集。0为了实验，我们选择了包含50个以上指纹的集合。新值是从具有相同操作系统和Web浏览器（包括版本）的非唯一指纹中随机选择的。这样做是为了确保新值与在实际环境中找到的指纹一致。这样，我们避免选择不符合指纹环境特征的值。例如，两个浏览器可以具有相同的语言配置，但是根据Web浏览器，编码是不同的。示例：Windows8.1，Chrome，fr-FR，fr;q=0.8，en-US;q=0.6，en;q=0.4Windows8.1，Firefox，fr-FR，fr;q=0.8，en-US;q=0.5，en;q=0.30跟踪：Web上的安全与隐私WWW 2018，2018年4月23日至27日，法国里昂3140两个浏览器运行在相同的操作系统上，并具有相同的语言配置：法语/法国[fr-FR]，法语[fr]，英语/美国[en-US]和英语[en]。但是，根据Web浏览器，最终的语言标头是不同的。0结果。实验重复进行了十次并取平均值。图4表示在移动设备和台式机/笔记本电脑上随机更改内容语言、插件列表、可用字体和时区的值所得到的匿名集分布。首先，我们可以明显地注意到设备之间存在重要差异。对于台式机/笔记本电脑，超过85%的指纹变成了唯一的指纹。这是因为个人电脑上的值组合往往如此多样化，以至于它们构成了唯一的指纹。在移动设备上，当改变可用字体和插件列表时，超过80%的指纹仍然属于大集合。这些结果是由于移动设备上这些属性的缺乏多样性所解释的。对于内容语言和时区，结果非常不同：超过60%的指纹变成了唯一的指纹。这可以解释为这些属性的缺乏多样性。由于大多数用户共享相同的时区和语言，对这两个属性的单一更改会极大地增加指纹变成唯一的可能性。通过观察实验结果，我们可以得出结论，如果指纹的一个特征发生变化，这个指纹变得唯一的可能性非常大。最终，台式机/笔记本电脑的指纹比移动设备的指纹更加脆弱。03.2 属性比较0数学处理。我们使用熵来量化指纹中的识别信息水平。熵越高，指纹越独特和可识别。设 H 为熵，X 为离散随机变量，可能取值为x1；...；xn，P(X) 为概率质量函数。熵遵循以下方程：0H(X) = -0n0i = 0 P(xi) log2 P(xi) (1)0我们使用香农熵，其中 b =2，结果以比特表示。一比特的熵会使事件发生的概率减半。为了比较三个不同大小的数据集，我们应用了归一化的香农熵：0H(X) HM (2)0‘熵’显示了熵的比特数，‘标准化’显示了标准化的香农熵。表3的最后两行显示了最坏的情况，即熵达到最大值（即所有收集到的值都是唯一的）和指纹的总数。在收集到的数据中，最具有区别性的属性是“插件列表”、“画布”、“用户代理”和“可用字体”。由于移动设备和个人计算机的软件和硬件架构的差异，我们分别计算了熵值。通过比较移动设备和个人计算机之间的熵值，我们观察到三个属性的差异是显著的。最大的差异是“插件列表”，标准化熵的差异为0.485。这可以解释为移动设备上插件的缺乏，因为移动设备上的Web浏览器充分利用了HTML5和JavaScript提供的功能。对于移动设备来说，插件列表是最具有区分性的属性，而对于个人计算机来说几乎是无关紧要的。我们可以在表2中观察到，在251,166个移动设备上收集的指纹中，插件列表只有81个不同的值。第二个显著差异是“可用字体”，差异为0.214。在移动设备上安装字体比在个人计算机上受到更多限制。即使我们通过JavaScript测试了一组非常有限的字体，与通过Flash收集的字体相比，我们仍然可以看到个人计算机上的多样性明显更多。最后一个显著差异是“用户代理”，差异为0.182。在移动设备上，用户代理具有最高的熵值。这是因为手机制造商在用户代理中直接包含了手机型号，甚至有时还包含了固件版本，正如Laperdrix等人所揭示的[22]。属性“使用广告拦截器”和“使用本地/会话存储”具有非常低的熵值，因为它们的值只能是“是”或“否”。我们还测试了将画布渲染压缩为JPEG格式的影响。值得注意的是，JPEG压缩直接来自CanvasAPI，并且不是在收集之后应用的。由于有损压缩，JPEG图像的熵比通常用于画布指纹测试的PNG图像低（从0.407到0.391）。在Eckersley[15]的研究中，对浏览器指纹的分析是在不区分移动设备和桌面设备指纹的情况下进行的。后来，一些研究人员在桌面机器[10,13]或移动设备[35,38]上进行了有关浏览器跟踪机制的研究，但没有同时涉及两者。2016年，Laperdrix等人[22]对移动设备上的浏览器指纹进行了首次广泛的研究，他们证明了两种设备都具有不同的区分属性。如果不区分移动设备和个人计算机进行浏览器指纹的分析，得到的结果将不能代表这两种设备。在我们的数据中，12.1%的指纹属于移动设备，因此移动设备指纹只占整个数据的一小部分。如果我们看一下表3，像“插件列表”或“可用字体”这样的属性的熵值很大程度上受到包含大多数指纹的组的影响，而在我们的情况中，这个组是个人计算机的组。对于未来的工作，强烈建议区分移动设备0跟踪：Web上的安全与隐私WWW 2018年4月23日至27日，法国里昂3150表3：来自Panopticlick，AmIUnique和我们数据的所有属性的香农熵。0属性0Panopticlick AmIUnique数据集移动设备台式机/笔记本电脑0熵规范化熵规范化熵规范化熵规范化熵规范化0平台 - - 2.310 0.137 1.200 0.057 2.274 0.127 0.489 0.0240不跟踪 - - 0.944 0.056 1.919 0.091 1.102 0.061 1.922 0.0920时区 3.040 0.161 3.338 0.198 0.164 0.008 0.551 0.031 0.096 0.0050插件列表 15.400 0.817 11.060 0.656 9.485 0.452 0.206 0.011 10.281 0.4940使用本地/会话存储 - - 0.405 0.024 0.043 0.002 0.056 0.003 0.042 0.0020使用广告拦截器 - - 0.995 0.059 0.045 0.002 0.067 0.004 0.042 0.0020WebGL供应商 - - 2.141 0.127 2.282 0.109 2.423 0.135 1.820 0.0880WebGL渲染器 - - 3.406 0.202 5.541 0.264 4.172 0.233 5.278 0.2540可用字体 13.900 0.738 8.379 0.497 6.904 0.329 2.192 0.122 6.967 0.3350画布 - - 8.278 0.491 8.546 0.407 7.930 0.442 8.043 0.3870接受头 - - 1.383 0.082 0.729 0.035 0.111 0.006 0.776 0.0370内容编码 - - 1.534 0.091 0.382 0.018 1.168 0.065 0.153 0.0070内容语言 - - 5.918 0.351 2.716 0.129 2.291 0.128 2.559 0.1230用户代理 10.000 0.531 9.779 0.580 7.150 0.341 8.740 0.487 6.323 0.3040屏幕分辨率 4.830 0.256 4.889 0.290 4.847 0.231 3.603 0.201 4.437 0.2130HTTP头列表 - - 4.198 0.249 1.783 0.085 1.941 0.108 1.521 0.0730启用Cookie 0.353 0.019 0.253 0.015 0.000 0.000 0.000 0.000 0.000 0.0000H M (最坏情况) 18.843 16.860 20.980 17.938 20.7930指纹数量 470,161 118,934 2,067,942 251,166 1,816,7760为了获得更准确的结果，使用了个人电脑（笔记本电脑和台式机）。03.3 与Panopticlick和AmIunique的比较0在Panopticlick收集的数据中，Eckersley观察到83%的访问者具有可以立即识别的指纹。对于安装了Flash或Java的设备，这个数字达到了94%。在AmIUnique网站上，Laperdrix和他的同事观察到他们数据集中89.4%的指纹是唯一的。由于浏览器指纹的唯一性百分比很高，浏览器指纹技术在网络上被证明是一种有效的无状态跟踪技术。然而，通过我们的研究，我们在指纹识别领域提供了额外的理解层面。与其他两项研究的80%+唯一指纹相比，我们的研究表明，浏览器指纹可能在非常大的规模上不起作用，并且目标受众在其有效性中起着重要作用。03.3.1数据大小比较。在分析唯一指纹的百分比时，影响结果的一个重要因素是收集到的指纹数量。正如Eckersley在[15]中所讨论的，任何指纹在样本大小为N的情况下是唯一的概率是1/N。很明显，我们数据集中的唯一指纹的概率要比AmIUnique数据集中的唯一指纹的概率低得多。为了进行更公平的比较，我们采取了一些与AmIUnique数据集中指纹数量相同的样本，然后计算了唯一指纹的百分比。我们与AmIUnique数据进行比较，因为其指纹数量比Panopticlick收集的指纹数量小四倍。由于我们的数据是在六个月的时间内收集的，我们将数据分成了六个部分，每个部分包含一个月的数据。我们保持了与AmIUnique数据相同的移动设备和台式机比例，所以我们每个月随机选择了105,829个台式机/笔记本电脑指纹和13,105个移动设备指纹。结果进行了平均。0平均而言，个人电脑的唯一性比例为56％，而移动设备的唯一性比例为29％。这些百分比表明，唯一指纹的低比例受到收集指纹数量的影响。即便如此，与Laperdrix等人[22]的结果相比，我们在样本上得到的结果与之显著不同。这些结果表明，使用指纹进行跟踪是可能的，但也很困难。03.3.2比较熵值。只考虑六个属性，可以与Panopticlick进行比较。我们观察到，对于所有属性，我们的数据集和Panopticlick的熵值存在显著差异，除了屏幕分辨率。屏幕分辨率的熵值在三个数据集中几乎没有变化。关于时区和启用的Cookie，熵值下降是由于我们数据集的特点引起的。正如我们在第2节中解释的那样，我们只收集了接受Cookie的用户的指纹，而且他们大多数人居住在同一地理区域。内容

下载后可阅读完整内容，剩余1页未读，立即下载