没有合适的资源?快使用搜索试试~ 我知道了~
Web测量研究的可复制性与可复制性标准
533→网络测量研究的可复制性和可复制性网络安全研究所KASTEL安全研究实验室卡尔斯鲁厄理工KASTEL安全研究实验室卡尔斯鲁厄理工摘要MatteoGroße-KampmannAWARE 7GmbH波鸿鲁尔大学托尔斯滕·霍尔茨CISPA亥姆霍兹信息安全中心1引言TobiasUrbanInstitute for InternetSecurity secunet SecurityNetworks AG诺伯特·波尔曼互联网安全Web测量研究可以揭示尚未完全理解的现象,因此对于分析现代Web如何工作至关重要。 这通常需要构建新的和调整现有的爬行设置,这导致了针对不同(但相关)方面的各种各样的分析工具。 如果这些努力没有得到充分的记录,测量的可重复性和可复制性可能会受到影响,这两个属性对可持续研究至关重要。在本文中,我们调查了117最近的研究论文,以获得基于Web的测量研究的最佳实践,并指定在实践中需要满足的标准。当将这些标准应用于被调查的论文时,我们发现实验设置和其他对复制和复制结果至关重要的方面往往缺失。我们强调了这一发现的重要性,通过对450万个页面进行大规模的Web测量研究,使用24种不同的测量设置来证明各个标准的影响 我们的实验表明,实验设置中的微小差异直接影响整体结果,必须准确和仔细地记录。CCS概念• 一般和参考测量;实证研究;设计;·安全和隐私;关键词Web测量、再现性、可复制性、安全性、隐私性ACM参考格式:Nurullah Demir ,Matteo Große-Kampmann , Tobias Urban , ChristianWress-negger,Thorsten Holz,and Norbert Pohlmann.2022年网络测量研究的可复制性和可复制性 在ACM Web Conference 2022(WWW'22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,纽约州纽约市,美国,12页。https://doi.org/10.1145/3485447.3512214两位作者都对本研究做出了同等的贡献。允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上必须尊重作者以外的其他人拥有的本作品组件的版权。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022版权归所有者/作者所有。授权给ACM的出版权。ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3512214随着Web已经发展成为我们日常生活的重要组成部分,所使用的Web应用程序的复杂性急剧增加。这种发展伴随着不受欢迎的做法,例如用户跟踪[19,32,56],指纹[21,47],甚至是完全的恶意活动,例如XSS攻击[61]。网络测量研究是理解、识别和量化这些威胁的重要工具,它们使我们能够大规模地探索孤立的现象。 由于现代网络是高度动态和不断变化的,这是一个固有的困难任务。为了在数千个网站上进行研究,研究人员可以部分依赖于OpenWPM等爬行框架,但更多的时候,他们必须扩展现有的工作或自行构建新的爬行器,以适应Web上的新发展。然而,这一趋势提出了一个问题,即使用不同框架收集数据的不同计量研究是否具有可比性,以及在多大程度上可以复制或重复实验。特别是,在基于Web的测量领域,确保可复制性需要付出巨大的努力来描述、记录和公开交流实验设置和实现的细节。然而,如果社区不能验证和重新制定得出的结论,整个科学过程就有变得不可靠的风险-不幸的是,过去在不同的研究学科中已经观察到了这一点[17,31,44,53]。在这项工作中,我们系统化这些影响,提供最佳实践和标准,帮助设计研究,并进行大规模的网络测量研究,突出这些细微差异的影响特别是,我们调查了过去六年中在顶级安全和隐私场所发表的117篇研究论文。基于这项调查,我们因素的Web测量的共同的基本原则,并建立进行此类实验的共同准则。我们定义的标准,帮助设计的实验设置是可重复的和可复制的。通过将这些标准应用于分析的论文,我们发现实验设置的文档经常被忽视,并且不符合社区对Web测量研究的期望(见第4节)。 在一项大规模的研究中,450万页,8,800多个网站,24个浏览器配置文件,我们表明实验设置的微小变化会改变结果,以至于研究的交叉可比性不可行(见第4节)。例如,我们发现页面上识别的跟踪器可以根据所使用的浏览器配置变化25%。总之,我们做出了以下贡献:WWWDemir和Große-Kampmann等人534Web测量指南 我们强调了设计Web测量的挑战,并提供了指导方针,帮助建立实验,有效地解决这些问题。流行率研究。我们对2016-2021年的117篇安全和隐私论文进行了调查,这些论文进行了Web测量,202120202019201820172016UsenixTheWebConfS PPETSNDSSIMCCCS0 5 10 15 20 25 30 3540分析的论文事实证明,我们所描述的挑战影响了其中的大多数影响分析。 增加未来的可比性和以前的Web测量,我们进行实验,利用24个测量设置和比较测量的差异,出现从利用框架。2设计Web测量研究快速变化的,可变的内容和总的趋势,以ward提供更多的内容在线使网络的测量研究具有挑战性的主题。作为示例,假设一个人使用不同的浏览器实例在同一时间访问同一网站加载的内容(例如,广告或其它动态内容)可能不同,并且因此,测量研究的总体结果可能不同(例如,当识别嵌入式跟踪器或分析显示的广告时)。 这个简单的例子说明了重复的实验可能会显示出(稍微)不同的结果,在不受控制的环境中进行这样的实验充满了障碍,使重复性受到威胁。然而,学术工作的基石是审查结论和结果的可能性。因此,我们采用了计算机协会[9]的定义:a)可重复性(“相同的团队,相同的实验设置”),b)可重复性(“不同的团队,相同的实验设置”)和c)可重复性(“不同的团队,不同的我们特别强调已发表研究的可重复性(见第3节)和可复制性(见第4节),并将可重复性放在一边,因为根据定义,它只能由首先进行实验的团队因此,可重复性和可复制性对我们的分析至关重要,因为这些使我们能够验证和比较现有工作的结果2.1文献调查透明度是产生可重复和可复制实验的重要因素。 为了了解当前安全和隐私社区中最先进的Web测量技术,我们根据该社区顶级会议上的出版物进行了广泛的文献调查:IEEE S& P,ACMCCS,USENIX Security,NDSS,PETS以及ACM TheWebConf和ACM IMC的“安全,隐私和信任”主题。我们在过去六年(20162.1.1论文选择标准当然,并不是所有在被调查地点的论文都进行网络测量或依赖于这样一项研究收集的数据。因此,我们首先根据以下特征来确定感兴趣的论文:(1)有问题的论文分析了网站上存在的一种现象(例如, 嵌入的第三方或所使用的库)或专注于与网站的通信(例如,HTTP头),以及(2)有问题的论文分析了不止一个网站。该定义使我们能够专注于一方面研究类似研究对象的作品(即,网站及其通信),另一方面,需要扩大其图1:每年和地点进行安全或隐私Web测量的调查论文数量实验结果 在第一步中,我们分析了来自上述场所的4,407篇论文,并通过略读标题,摘要和方法来确定是否将其纳入我们的调查。从整个语料库中,我们认为117篇(2.7%)论文进行了深入分析。图1详细说明了每年调查的论文数量和地点。在这些论文中,71篇(61.5%)仅关注安全挑战,35篇(29.9%)关注隐私问题,11篇(8.5%)两者兼而有之。对我们调查的总体概述表明,Web测量研究是安全和隐私社区分析不同现象并推动该领域向前发展的重要工具。因此,有必要调查我们的社区如何进行研究,获得最佳实践,并分析现有研究在多大程度上可以重现实验结果。2.2挑战和最佳做法在下文中,我们将介绍设计模式和最佳实践,这些设计模式和最佳实践有助于规划Web测量研究,以便将来的研究可以设计为可重复的。我们根据调查的文献和我们自己在这一研究领域的经验创建这些指南对于所有调查的论文,我们分析了每个实验的记录设置,抽象的一般设计选择,并制定最佳实践,旨在提供一个概述的方面,需要考虑在实践中设计Web测量。重要的是要强调,我们的指导方针并不是要指责或批评以前的工作,而是要强调可能影响研究结果的陷阱和挑战2.2.1设计最佳实践的方法为了获得最佳实践,我们分析了论文中不同的实验设计选择,并比较了作品的结果这使我们能够识别在不同作品中共享的可概括和共同的方面。例如,如果一个作品访问子页面,而另一个作品只访问目标页面,但都发现了不同级别的跟踪活动,我们创建了一个最佳实践,研究人员应该考虑这种行为。此外,我们使用这些最佳实践来推导测量研究应遵循的标准,以确保所进行实验的重现性。2.2.2建立数据集自然,每个Web测量研究都必须在实验期间确定要分析的网站和页面。 对于这一步,可以区分三种不同的方法,它们都有优点和缺点。P1谨慎地选择网站和页面。随着Web的不断增长,并且由无数的网站和更多的页面组成,在一个单一的实验中测量所有这些网站是不可行的。一种普遍接受的集中实验的方法是使用所谓的“顶级列表”,对流行的网站进行排名(例如,Alexa[5],Tranco[38]或其他[7,40])。然而,这些列表只包括着陆页(或eStart +1),出版年份···网络测量研究的可复制性和可复制性WWW535用于实验。虽然乍一看,这似乎是合理的,但最近的研究表明,子网站(例如,https://www.ewww.example.comxample.com/news)显示出与相应的着陆页显著不同的结果[7,55],并且网站的排名也可能影响结果[62]。因此,我们主张命名来源(例如,顶部列表),详细说明它们是如何被挑选的,并列出所有被分析的页面(例如,在附录中与突出强调的实现可重复性的挑战类似,有必要指出使用哪些标准来选择或删除给定网站中的条目使用用户点击流数据。另一种方法是使用从真实用户那里观察到的点击流或直接分析他们的流量。虽然这种方法更现实,但它们更难收集。然而,明确需要了解现象对个体用户的影响的研究需要采取这一步骤[11,22,46]。如果如果使用安全CSP),则人工选择的站点可以适合该目的。P3利用现有资源。使用以前收集的公共数据集(例如, HTTPArchive [27]),是唯一允许再现结果的选项,提供高重复性,并能够比较属性。然而,人们必然会分析数据已经以所需粒度存在的现象[18],而情况往往并非如此。从这组最佳实践中,我们得出了测量研究应该满足的四个标准(C1-C4)(参见表1中的“数据集”组)。虽然标准C1-C3(“被分析地点的文档”)与命名的实践直接相关,但标准C4旨在强调一些现象需要随着时间的推移进行分析,以了解其规模。在调查论文中,C4通常没有提到,我们在第4节中详细分析了其影响。2.2.3实验设计无论如何,Web测量研究都依赖于爬虫,选择、构建和定制这样一个爬虫是准备每项研究的重要步骤,因此需要谨慎地设计和实现它,以确保实验的稳定性、可重复性和可比性。构建爬行器我们现在讨论使用人工浏览数据(即, 不使用用户生成的或公共数据)。我们回顾了设计此类研究时应考虑的基本步骤:P4选择技术。以前的工作依赖于不同的测量设置,从cURL[15]这样的简单工具到OpenWPM [21,43]这样的可以同时生成多个浏览器的复杂测量框架。 正如先前的工作所示,使用哪种工具的决定会影响结果[4]。P5爬虫的定制当然,每项研究都使用(略微)不同的测量设置。在定制爬虫时,不可避免地要详细说明所采取的步骤,并讨论可能的工件和方法的限制。虽然有必要,但每个定制步骤都可能影响结果(例如,不同的用户代理),因此需要记录[39]。我们将在第4节中更详细地讨论这些影响。P6避免爬虫检测。 爬虫和其他机器人使向上接近。37%的流量在Web上 [29],它已被证明,这显着影响爬行研究[30,41,60]。因此,一些服务提供商定义了行为准则,以限制爬行流量,或尝试检测并完全阻止它们[33]。如果网站呈现不同的内容或根本没有内容,这些防御机制可能会对测量研究因此,提交人选择回避,如果是这样,如何以及在多大程度上实施了回避技术,需要进行透明的讨论。然而,它是普遍接受的(和十个必要的),以规避机器人检测机制[21,55,56]。P7模仿用户交互。现代网站不再是静态的HTML页面,而是根据用户的操作加载不同内容集的交互式应用程序。 资源通常只加载一次,用户可见(称为“懒惰加载”),以提高网站的加载速度和搜索引擎优化的目的[ 25 ]。 这意味着不与页面交互的爬虫(例如,滚动)将错过关键资源[34,55,56,63]。因此,需要记录交互机制,并讨论缺乏用户交互的基于爬行设置的这四个方面,我们推导出标准C5、C6、C7、C8和C10。 我们将定制步骤(P5)分成两个标准(C6和&C7),以考虑爬虫是否被修改的差异(例如,功能被改变)或扩展(例如,使用浏览器扩展)。此外,我们还添加了一个标准,敦促作者将爬虫公开(C9)。由于C5和C11的影响在以前的工作中还没有充分讨论,我们在第4节中分析它们。实验环境在选择要访问的站点并构建爬虫之后,必须精心制作实验环境。在下文中,我们描述了可能影响爬虫的基本环境因素,从而影响实验P8爬行的地理位置每个实验的一个关键因素是进行测量研究的位置。根据位置(例如,根据抓取机器的IP地址),网站可能会提供不同的内容[28]。例如,这可能建立在伪装、立法(例如,GDPR或CCPA [16,55,56,62]),甚至审查[12,45]。必须考虑到这些影响(例如,通过使用VPN设置)和解决它们的动作需要详细公开P9定义页面访问策略。 对于页面访问策略,我们区分了无状态和有状态爬取。无状态爬虫(即,浏览器)在每次页面访问之间完全重置,这样每次访问都会创建一个新的HTTP会话,以更新浏览器的内部资源。相反,一些(例如,只有cookie jar)或所有这些信息都被保存在有状态的抓取中,就像“真正的因此,作者需要记录浏览器配置文件的哪些部分是有状态维护的,哪些部分是重置的,以及何时重置[21,63]。这种区别对实验的结果有严重的影响:在有状态实验中,访问页面的顺序可能会影响结果,并且它会解释HTTP会话特定的现象,例如选择加入cookie跟踪。无状态爬取反过来允许研究与会话无关的属性。请注意,此实践不考虑在测量发生之前填充的通过预先填充饼干罐),我们在第11页中对此进行了说明P10设置浏览器配置。浏览器的配置对于基于Web的测量起着重要的作用。取决于浏览器(例如,版本)抓取的实体可能会WWWDemir和Große-Kampmann等人536不同. 为了使实验具有可比性和重现性,必须共享可能影响研究结果的基本配置细节这样的设计选择包括已安装的扩展、使用的阻止列表、登录策略、使用的浏览器版本、cookie jar的内容等。P11描述缺点和局限性。当然,一个Web例如,关于覆盖率或现实性,测量永远不可能是完整的实验设计考虑了这些“自然”边界,但每个设计选择可能会施加某些约束和限制。为了让研究界充分认识和评估实验的结果,不可避免地要讨论其设计的局限性[49,51]。从这些实践中,每个都可以映射到单个标准(C11、C12、C13和C17)。我们增加了一个额外的标准(C15),要求公开结果,因为这特别有助于复制或重现实验。此外,我们设立了两个标准来帮助评估论文的发现:第一,要求进行伦理讨论(C18),第二,敦促提供测量结果的总体概述(C16)。2.3设计和评价标准基于上一节中描述的最佳实践,我们得出了18个标准,以确保研究的重现性在第一步中,两名专家,都具有广泛的专业和学术背景的安全和隐私在网络上,作为sessed一个相同的,随机选择的子集的调查文件(n=25),以测试的适用性标准。该 探索 性评 价 显示 出非 常高 的评 价者 间可 靠 性( Cohenkappa:κ = 0. 94),这表明设计的标准可以明确适用。 在少数情况下,专家们意见不一致,但这是因为最初对一项标准的提法含糊不清,后来作了相应的调整。在第二步中,该标准已被应用到我们的语料库中的表1列出了所有18项标准,并对每项标准进行了简要3评估生殖能力在本节中,我们分析了调查论文以及我们介绍的标准,以了解以前作品的复制 判断是否(完全)满足标准并不总是二元的。例如,一篇文章可能会说爬虫是被检测的,但忽略了如何检测。我们使用以下四个类别来区分是否以及如何满足标准:N/A:该标准不适用于分析的论文,因为它不影响所使用的方法。例如,Le Pochat et al.[38]抓取四个顶级列表,并以复杂的方式组合结果 在这种情况下,“模拟用户交互”(C10)或“地理位置”(C12)标准不适用。省略:论文没有说明为满足标准而采取的行动,但复制工作或可能影响工作结果是必要的。未记录:如果一篇论文指出作者采取了行动来满足标准,但没有具体说明如何。例如,作者声明满意:这是一个理想的情况下,一个文件满足一个标准,并详细说明了已采取的措施,这样做这些类别使我们能够区分满足标准的程度,并使我们能够对再现性进行细粒度请注意,这些类别并不意味着表明论文中采取的行动是否合理或完整,以满足标准。相反,他们的目标是了解是否以及在何种程度上可以重建实验装置3.1调查结果我们分析了我们调查中的所有117篇论文(见第2.1节)。在所有类别和论文中,只有33例(1.6%)病例的标准根本不适用于分析的论文(类别N/A)。大多数论文(115篇(98.3%))满足标准C16(“一般结果/成功概述”)。关于所有标准和论文,超过五分之二的标准得到满足(882(41.9%)),在1,055(50%)的所有情况下, 论文 省略 了关于 标准 的任何 信息 ,在136(6.5%)的情况下,标准适用于论文,但论文不包括对其的描述(类别未记录)。3.1.1数据集我们只发现了12篇论文(10.5%)符合与数据集相关的所有四个标准然而,64.1%的论文陈述了他们使用的数据集四篇(3.4%)论文没有说明他们分析了哪些网站。此外,绝大多数(72.6%)没有提供所有分析页面的完整列表。关于实验的再现性,这些结果是至关重要的,因为大多数实验对于已分析的网站和页面 使用Tranco列表的论文[38]都提供了访问网站的列表,这表明旨在提供最佳实践的作品对我们的社区产生了积极的影响。另一个结果是,63.3%的分析论文在多次测量运行中没有进行测量。仅进行一次测量可能无法提供对普遍性的深入了解,正如Agarwal等人的实验。表示[2,3]。3.1.2实验设计这一类别中的五个标准中的三个(C7,C8和C9)被至少一半的分析论文省略虽然大多数文章都提到了爬虫,但许多文章都没有说明配置是否被更改或是否使用了扩展这一结果令人担忧,因为记录爬行技术的调整是理解和重建实验设置的重要组成部分。大多数论文从网站上抓取数据,但没有说明它们如何逃避机器人检测或使爬虫程序公开,这引发了透明度和道德问题。我们的分析表明,在提交给顶级测量、安全和隐私会议的论文中,大约有三分之一这一结果再次对实验的重现性产生了严重影响,因为这些设计选择可能对结果产生重大影响[4,34]。 标准C10,C12和C13被平均69.5%的分析论文省略。对于C10和C13,省略可能是由于最近系统地表明这些因素起着重要作用[55]。超过三分之二(71.8%)的论文省略了C12,这些论文没有说明扫描的地理位置。在我们第4节的分析中,我们表明这会显著影响结果的整体可靠性和再现性网络测量研究的可复制性和可复制性WWW537表1:设计网络测量研究的标准ID标准描述C1State分析了国家使用的数据集,排名榜或用户点击流,包括版本。C2状态分析页面提供.csv或与所有分析页面相当的格式(即,不同的URL)。C3状态站点或页面选择讨论分析站点的选择过程。C4执行多次测量讨论在连续测量运行中分析哪些页面(如果适用)。C5名称抓取技术。描述所使用的爬取技术(例如,OpenWPM)。C6状态调整到爬行技术。说明使用和/或(略微)调整了哪些技术功能。C7描述爬行技术的扩展。描述开发了哪些新功能来执行(如果有)。C8状态机器人检测规避方法讨论了在必要时采取哪些方法来检测不到爬虫程序C9 Used Crawler是公开可用的在公共位置提供Crawler。C10模拟用户交互描述如何实现用户交互(如果适用)。C11描述爬行策略描述使用的爬行策略(例如,无国籍与有状态的)。C12记录爬网C13状态浏览器调整讨论浏览器的属性(例如,用户代理、版本、使用的扩展)。C14描述数据处理流水线详细描述了数据处理的步骤C15使结果公开提供作者提供(原始)测量结果。C16提供结果/成功概述在更高层次上描述测量过程的结果C17限制 讨论实验的限制。C18伦理讨论讨论实验的伦理含义(例如,利用漏洞)。的实验。然而,76.1%的分析论文描述了他们的数据处理管道,这样就可以清楚地了解如何处理抓取的数据进行分析。然而,大约17.1%的描述管道的论文没有提供爬行技术的细节,使得分析的可重复性变得不可能。结合实验设计(C8 + C10 +C11 + C12)的标准,对试卷的真实性进行分析。除了C11(被41%的作品省略),超过一半的这些标准被论文省略3.1.3评价我们没有观察到一篇评价不适用的论文然而,我们发现超过一半(64.1%)的分析论文省略了伦理讨论。这在发现和检测漏洞方面是有问题的大规模衡量这些问题的研究应该包括伦理部分.约有21.3%的论文遗漏了局限性和伦理学部分,这是一种值得商榷的研究实践。 在开放科学方面,只有24%的分析论文公开了他们的结果。3.1.4场馆比较为了了解基于场馆的差异,我们交叉比较了来自分析场馆的论文和9个基本标准。对于这种分析,我们只考虑必须满足的标准,以允许重复实验。 这些标准是:C1-C3,C5-C7,C11和C12。我们没有看到一种趋势,即任何场所出版的作品描述的方法论方法比其他场所更好或更差唯一的例外是ACMIMC。 标准被遗漏9次(18.7%)。 其他会议的平均遗漏率为56.8%,标准差为46.7%。超过一半的论文,除了IMC和PETS,忽略了爬行的地理位置USENIX Security是唯一一个超过一半的论文省略了六个标准的会议这会议是利用人工制品评估的唯一会议。不幸的是,只有一篇被分析的论文收到了这样一批,因此,我们还不能概括有用性。特别是爬行标准(C5-虽然违反标准的绝对数量和比例一般是可比的,我们的结论是,任何Web测量研究出版可以同样受益于我们在论文中PETS研讨会是我们语料库中唯一没有一篇论文对其工作进行伦理审查的会议 这至少是一个令人不安的发现,因为隐私和道德是交织在一起的,在进行隐私测量时必须考虑在内。自我反思这项工作的重点是网络测量研究的可重复性和可重复性,并强调需要适当的文件和提供所需的补充材料。然而,与类似的作品[8,52,57]一致,我们选择不发布分类过程的原始结果我们并不想把错误归咎于个别作品,我们自己的报纸也不例外,而是想提高人们对我们社区中普遍存在的潜在问题的认识。4案例研究在本节中,我们将继续展示大规模研究中记录不充分的实验设置的影响,以及四个典型的案例研究,重点是C4,C5,C10和C12。选择前三个是因为文献目前没有提供足够的证据来证明它们的影响,而C12用于验证我们的框架能够重现以前的结果。数据集实验设计实验环境 构 建 Crawler评价WWWDemir和Große-Kampmann等人5384.1Web测量方法为了显示测量设置中看似微小的变化对实验可重复性的影响,我们使用25种不同的设置进行了Web测量研究。 更具体地说,我们比较了四种浏览器(Firefox、Firefox headless、Chrome和Chromeheadless- C5)、三个地区(欧洲、亚洲和北美- C12)以及两种类型的网站交互(“无"和”无“)的结果。17.515.012.510.07.55.02.50.0FirefoxChrome美国JP欧盟相互作用非相互作用GUI无头扫描配置文件“简单互动”- C10)单独。总体而言,我们交叉比较了24种不同的设置。此外,我们进行了一项重复研究,每天测量相同的网站和页面- C4。我们研究的数据语料库由排名前10k的Tranco [38]网站组成,如果可能,我们收集每个网站的前25个子页面(由JavaScript引擎识别我们设计了一个管道来协调所有配置文件的页面访问 我们的测量设置由虚拟机(VM)组成,由一个“指挥官”实例编排,以组织并行页面访问。例如,一个虚拟机使用来自美国的Chrome与用户交互进行测量,而另一个虚拟机则对欧盟进行相同的测量。我们的框架的详细描述可以在附录C中找到。指挥官负责跨VM并行启动每个站点的测量。每个VM使用定义的配置文件并行启动10个浏览器(每个站点一个) 一旦页面的分析完成,同一个浏览器实例将移动到同一个站点的下一个页面。因此,页面的后续访问将不会在所有VM之间同步在着陆页层面,我们实验中的时间差异平均只有17秒。然而,在子页面水平上的时间差为3分钟(SD:7分钟)。当访问一个页面时,每个浏览器都会记录所有的HTTP请求和响应,并将它们存储在中央数据库中。 我们等待页面加载完成或超时30秒,关闭浏览器,然后转到下一页。4.2测量的可重复性我们强调基于四个示例的个人标准的影响(2)页面使用内容安全策略4.2.1方法为了比较24个配置文件的结果,我们使用Jaccard索引。对于每个页面,我们有一组观察到的跟踪器和CSP(即,24套)。 Jaccard指数用于衡量集合的相似性。 索引通过将交集的大小除以所有集合的并集的大小来计算相似性。根据设计,索引的范围从0到1,其中1表示集合相等,0表示它们没有共同的元素这使我们能够比较和量化所有配置文件中页面级别上观察到的跟踪器的差异。 Jaccard指数用于比较两个集合的相似性。 因为我们比较多个集合,所以我们计算所有集合之间的成对相似度,并使用算术平均值来说明给定页面的相似度。我们分析了跟踪器的存在对隐私相关研究的影响更具体地说,我们分析访问页面时哪些跟踪请求是可观察的 为了识别它们,我们使用跟踪过滤器列表EasyList(自2021年7月5日起)[20]),我们在本工作的补充数据中提供了该列表(见A节)。如果观察到的URL出现在列表中,我们将其视为跟踪请求。此外,我们使用这些URL的eXtreme +1部分来识别域名方面的跟踪器图2:按配置文件观察的跟踪请求和跟踪器为了更好地了解不同的测量设置对安全研究的影响,我们分析了内容安全策略(CSP)的存在。CSP有助于缓解Web上的特定攻击媒介(例如,XSS攻击)。它们通过HTTP头来实现,HTTP头包含不同的指令,这些指令定义了可以从中加载内容的我们通过检查使用的CSP指令和指令中的所有属性来分析CSP中的差异。我们省略所有可变属性(例如,随机数),因为它们通过设计而改变此外,我们比较了指令的语义效果(即,命令被忽略)。4.2.2我们的整个网站语料库由10k个不同的网站组成,我们在这些网站上发现了182,586个子页面,包括着陆页。在所有配置文件中,我们在8,883个网站上访问了450万个页面。不能被抓取的站点并不意味着由人类访问(例如,链路短路器、内容递送网络或广告网络)。生成的数据库大小约为1.1TB,是公开可用的(参见A节)。平均而言,每份简介的访问量为 179 404 页 ( 标 准 差 : 6 947; 最 大 : 186 972; 最 小 : 158691)。在我们的分析中,我们只考虑在24个配置文件中观察到至少17次成功抓取的页面。因此,大约70%的配置文件必须访问页面,以便我们考虑它。此外,这保证了每个类别中至少有一个配置文件成功爬取了页面。 178,452(92%)的分析页面属于这一类别。请注意,134,120(75%)的页面被所有配置文件成功抓取。图2提供了观察到的轨道数量的概述按配置文件为每个页面设置请求和跟踪器(eXtreme +1)一般来说,我们看到Firefox配置文件比Chrome配置文件被跟踪得更多此外,美国的配置文件比其他地区的配置文件被跟踪得更多最后,用户交互似乎在跟踪方面有很大的影响,而在无头模式下运行浏览器只会有很小的区别。关于我们的结果的更多细节在以下部分中呈现。4.2.3不同浏览器的影响(C5)首先,我们研究了我们分析的四种浏览器的影响(即,Firefox、Firefox headless、Chrome和Chrome headless)对跟踪的影响。 关于HTTP请求,我们看到基于Chrome的配置文件比基于Firefox的配置文件平均多2%(SD:18.5%)的HTTP请求。此外,我们看到每第10个(SD:1.5,min:7,max:12)HTTP请求是一个跟踪请求。我们观察到,对于Chrome,每10个HTTP请求是一个跟踪请求,而对于Firefox,每9个HTTP请求是一个跟踪请求。总体而言,我们发现所有Firefox配置文件的跟踪请求比Chrome配置文件多在12个Chrome配置文件中,只有4个可以检测到比相应的Firefox配置文件更多然而,平均而言,我们为Firefox配置文件识别了3.9(SD:8.6)个不同的跟踪器(eXtreme +1),为Firefox配置文件识别了3.9(SD:8.1,最小值:0,最大值:68)个不同的跟踪请求数不同的跟踪器跟踪请求不同的跟踪器网络测量研究的可复制性和可复制性WWW539≥≤Chrome配置文件。因此,不同跟踪域的数量保持相似,而两个浏览器之间的请求量不同。我们转向浏览器在无头或原生(“GUI”)模式下使用时的效果我们只在六个Chrome无头配置文件中的两个中观察到更多的跟踪器(每页10%)。总体而言,无头Chrome配置文件仅包含3%的跟踪器。当我们在headless模式下运行Firefox时,我们注意到201510500.00.10.20.30.40.50.60.70.80.91.0版Jaccard指数几乎颠倒了结果。 对于六分之四的Firefox Headless专业文件,我们可以检测到比原生Firefox配置文件多5%的跟踪器。在所有这些配置文件中,当我们在无头模式下运行浏览器时,我们看到跟踪器数量的边际差异这与以前的工作相反,这些工作表明了这一特征的重要性[4]。然而,在一些配置文件中,我们观察到了实质性的差异,这表明实验的结果并不完全由所使用的浏览器模式决定。此外,设计选择的不同组合会相互影响结果,这突出表明需要适当的文档。在所有页面中,浏览器Chrome和Firefox的观察到的不同跟踪器的平均Jaccard相似性为0.59(SD:0.32,最小值:0,最大值:1)。总的来说,我们发现Firefox无头配置文件的跟踪器只增加了1%然而,我们发现在识别的跟踪器方面有很大的差异。在所有页面中,无头和非无头配置文件中观察到的不同跟踪器的平均Jaccard相似性为0.53(SD:0.48,最小值:0,最大值:1)。总的来说,观察到的跟踪器的相似性具有中等的Jaccard相似性,但具有显著的标准差。虽然我们观察到19%的页面具有完美的相似性(1),但我们发现11%的页面没有相似性(0)(另见3)。如果我们只看无头浏览器和非无头浏览器,我们发现35%的页面完全相似,34%的页面没有相似性,那么这种效果就会被放大。因此,在最坏的情况下,仅改变浏览器(或显示模式)的研究可能会发现不同的结果,这取决于分析的页面。图3(黑条)中给出了每个页面的计算Jaccard值的分布大多数页面(34.1%)总是发布一组非常相似的跟踪器,无论哪个配置文件访问了页面(相似度0. (八)。值得注意的是,我们确定了这样的平均1.9页不同的跟踪器这些页面只包含很少的跟踪器,但这些跟踪器通常独立于所使用配置文件。在45.5%的分析页面上,我们发现中等相似度-larity(0. 3 sim。< 0。8)在观察的跟踪器中。在这些页面上,我们平均观察到5.2个追踪器。最后,20.4%的分析页面显示几乎没有相似性(<0。3)在观察的跟踪器中在这些页面上,我们平均观察到4.0个跟踪器。因此,包括更多跟踪器的页面还包括不同的跟踪器集合基于所使用的配置文件。 在下面的部分中,我们将更详细地讨论其他标准对相似性的影响。我们的研究结果表明,在基于Firefox的测量中观察到的跟踪请求的数量高于基于Chrome然而,我们没有发现在无头模式下运行浏览器会影响观察到的跟踪器数量的统计学显著影响。然而,我们发现一个统计上显著的差异(p值<0. 001)在识别不同的跟踪器方面我们现在描述我们对CSP的安全分析总的来说,我们在17,596页(10%)上确定了CSP与跟踪分析相比,我们发现CSP具有非常高的相似性我们发现,16.355页(93%)已识别的CSP标头在语义上图3:按配置文件划分的页面级别跟踪器的相似性一模一样因此,总的来说,我们得到的Jaccard相似度大致为。97. 然而,在提供不同CSP的页面上(1.063),平均Jaccard相似性为0.68(SD:0.25)。此外,我们没有发现任何配置文件对这一现象产生重大影响这个结果是可以预期的,因为我们的一些功能在访问网站时无法检测到(例如, 用户交互),因此不会影响结果。 由于我们的配置文件对服务的CPS的影响很小,我们在另一节中放弃了CSP分析,因为我们发现了类似的结果。 未来的工作可以分析不同浏览器配置文件对更多可变安全功能的影响。4.2.4模拟用户交互的影响(C10)关于模拟用户交互,我们的分析表明,页面上的交互导致HTTP流量急剧增加(平均增加20%),而跟踪请求的数量增加了35%。因此,跟踪请求的数量与所有观察到的请求的数量对于具有交互作用的配置文件,我们观察到平均每页7.2(SD:8.8)个不同的跟踪器(eMarkets +1),其他配置文件为6.7(SD:8.3)。因此,这些高水平的数字已经表明,选择模拟用户交互会影响研究结果。当分别分析Chrome和Firefox时,我们看到统计显著性(p值<0)。001)差异。这再次表明,单一标准的效果不能直接归因,而是它们共同影响结果。对于Chrome,我们发现在执行交互时平均增加了6%(SD:10%,min:-9%,max:14%)的HTTP请求,令人惊讶的是,Firefox配置文件平均增加了36%(SD:6%,min:29%,max:43%)在这些请求中,我们看到Chrome的5.6%是跟踪请求。对于Firefox,我们看到73%(SD:21%,min:43%,max:92%)的请求用于跟踪用户。这种差异可能是我们的测量框架的一个工件,应该在未来的工作中进行更详细的分析。在所有页面中,观察到的不同的平均Jaccard相似性具有交互作用和无交互作用的曲线的追踪器为0.67(SD:0.28 min:0,max:1)。这些结果符合观察到的跟踪器的数量(eqs +1)不会因用户交互而大量增加的观察结果如果跟踪器的数量保持相似,则可以预期每个页面的跟踪器集合保持相似。几乎一半的页面(47%)显示出超过0的高相似性。8(另见图3),这也表明了这一趋势。然而,对于所有页面的三分之一(33%),我们发现相似度为0。5或更少。这表明,虽然对于不可忽略的页数来说,总体相似性相当大,但结果差异很大。4.2.5不同地点的影响(C12)在本节中,我们想分析实验的区域效应平均而言,我们看到来自美国的配置文件在不同的方面被跟踪得最多独特的配置文件位置(C12)交互(C10)浏览器(C5)相对页数WWWDemir和Große-Kampmann等人54080000750007000065000600002 4 6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功