提升Web测量研究的可复制性：现状与标准

PDF格式 | 659KB | 更新于2025-01-16 | 116 浏览量 | 举报

网络测量研究在探索现代Web系统的运行机制及未被充分理解的现象中扮演着关键角色。然而，这类研究的成功依赖于可重复性和可复制性，这是保证研究质量和科学透明度的基础。本文的标题《Web测量研究的可复制性和可复制性标准》由KASTEL安全研究实验室的学者们撰写，他们关注的是网络测量研究中实际操作中的挑战。研究者们对117篇近期的网络测量研究论文进行了深入调查，目的是识别和确立最佳实践，以确保实验设置和结果的复现性。他们发现，尽管Web测量研究对于理解网络安全和隐私至关重要，但实际操作中往往缺乏对实验设置的详细记录，这直接影响到研究的可复制性。比如，爬虫设置的不同细微变化可能导致显著的结果偏差。为了证明这一点，研究人员进行了大规模的Web测量研究，共涉及450万个页面，使用了24种不同的测量设置。他们的实验证实，即使是最小的实验细节变化也可能对最终结果产生重大影响，因此强调了准确记录实验设置的必要性。文章提出了可复制性和可复制性标准，涵盖了实验设计、数据收集方法、软件和硬件配置等多方面，旨在帮助研究人员提高研究质量，促进整个行业的知识共享。这些标准包括但不限于： 1. **详尽的实验记录**：确保所有必要的步骤、工具和技术参数被清晰记录，以便他人能够重现实验。 2. **代码和数据的公开**：提供用于执行测量的源代码和原始数据，以方便同行审查和复现。 3. **爬虫透明度**：明确爬虫的行为和限制，防止意外的数据偏差。 4. **隐私和安全考虑**：在研究过程中尊重用户隐私，遵循相关的法律法规和道德规范。 5. **标准化方法**：推荐使用统一的方法论和工具，减少主观性影响。文章最后指出，为了保障学术诚信和研究的可持续性，这些标准应在学术出版物中得到遵循。同时，论文作者也强调了在教育和培训中加强关于可复制性和可重复性原则的推广，以提升整个研究领域的严谨性。通过这个研究，研究者们呼吁学术界对网络测量研究的可复制性给予更多重视，以推动整个领域的发展。

网络测量研究的可复制性和可复制性

WWW

535

用于实验。虽然乍一看，这似乎是合理的，但最近的研究表

明，子网站（例如，https

：

//www.ewww.example.comxample.com/news）显示出与相应的

着陆页显著不同的结果

，

55]

，并且网站的排名也可能影响

结果

[62]

。因此，我们主张命名来源（例如，顶部列表），详

细说明它们是如何被挑选的，并列出所有被分析的页面（例

如，在附录中与突出强调的实现可重复性的挑战类似，有必

要指出使用哪些标准来选择或删除给定网站中的条目使用用

户点击流数据。另一种方法是使用

从真实用户那里观察到的点击流

或直接分析他们的流量。虽然这种方法更现实，但它们更难收

集。然而，明确需要了解现象对个体用户的影响的研究需要采取

这一步骤

[11

，

46]

。

如果如果使用安全CSP），则人工选

择的站点可以适合该目的。

P3利用现有资源。使用以前收集的公共

数据集（例如， HTTPArchive [27]），是唯一允许

再现结果的

选项，提供高重复性，并能够比较属性。然而，人们必然会分析

数据已经以所需粒度存在的现象[18]，而情况往往并非如此。

从这组最佳实践中，我们得出了测量研究应该满足的四个标

准（

-C4

）（参见表

中的

“

数据集

”

组）。虽然标准

-C3

（

“

被分析

地点的文档”）与命名的实践直接相关，但标准C4旨在强调一些现象需

要随着时间的推移进行分析，以了解其规模。在调查论文中，C4通常

没有提到，我们在第4节中详细分析了其影响。

2.2.3

实验设计

无论如何，

Web

测量研究都依赖于爬虫，选择、

构建和定制这样

一个爬虫是准备每项研究的重要步骤，因此需

要谨慎地设计和实现它，以确保实验的稳定性、可重复性和

可比性。

构建爬行器

我们现在讨论使用人工浏览数据（即，不使用

用户生成的或公共数据）。我们回顾了设计此类研究时应考虑的

基本步骤

：

P4选择技术。以前的工作依赖于不同的测量设置，从cURL

[15]

这样的简单工具

到

OpenWPM

[21

，

43]

这样的可以同时生成

多个浏览器的复杂测量框架。正如先前的工作所示，使用哪种工

具

的决定会影响结果[4]。

P5爬虫的定制当然，每项研究都使用

（略微）不同的测量设置。

在定制爬虫时，

不可避免地要详细说明所采取的步骤，并讨论

可能的工件和方法的限制。虽然有必要，但每个定制步骤都

可能影响结果（例如，不同的用户代理），因此需要记录

[39]。我们将在第4节中更详细地讨论这些影响。

P6避免爬虫检测。爬虫和其他机器人使

向上接近。37%的流量在Web上 [29]，它已被证明，这显着

影响爬行研究[30，41，60]。因此

，一些服务提供商定义了行

为准则，以限制

爬行流量，或尝试检测并完全阻止它们

[33]

。如果网站呈现不

同的内容或根本没有内容，

这些防御机制可能会对

测量研究因

此，提交人

选择回避，如果是这样，如何以及在多大程度上实施了

回避技术，需要进行透明的讨论。然而，它是普遍接受的（和十个

必要的），以规避机器人检测机制

[21

，

56]

。

P7模仿用户

交互。现代网站不再是静态的

HTML

页面，而是根据用户的操作

加载不同内容集的交互式应用程序

。资源通常

只加载一次，用户

可见（称为“懒惰加载”），以提高网站的加载速度和搜索引擎

优化的目的[ 25 ]。这意味着不

与页面交互的爬虫（例如，滚

动）将错过关键资源

[34

，

63]

。

因此，需要记录交互

机制，并讨论缺乏用户交互的

基于爬行设置的这四个方面，我们推导出标准

、

C7、C8和C10。我们将定制步骤（P5）分成两个标准（C6和

&C7），以考虑爬虫是否被修改的差异

（例如，功能被改变）

或扩展（例如，使用浏览器扩展）。此外，我们还添加了一个标

准，敦促作者将爬虫公开（

）。由于

C5和C11的影响在以前的

工作中还没有充分讨论，我们在第4节中分析它们。

实验环境

在选择要访问的站点并

构建爬虫之后，必须精心制

作实验环境。在下文中，我们描述了可能影响爬虫的基本环境因

素，从而影响实验

P8爬行的地理位置每个实验的一个关键因素是进行测量研究的

位置。根据位置（例如，根据抓取机器的IP地址），网站可

能会提供不同的内容[28]。例如，这可能建立在伪装、立法

（例如，GDPR或CCPA [16，55，56，62]），甚至审查[12，

45]

。必须考虑到这些影响（例如，通过使用

VPN

设置）和解

决它们的动作需要详细公开

P9定义页面访问策略。对于页面访问策略，

我们区分了

无状态

和

有状态

爬取。无状态

爬虫（即，浏览器）

在每次页面访问之间完全重置，

这样每次访问都会创建一个新

的

HTTP

会话，以更新浏览器的内部资源。相反，一些（例如，

只有

cookie jar

）或所有这些信息都被保存在有状态的抓取

中，就像

“

真正的因此，作者需要记录浏览器配置文件的哪些

部分是有状态维护的，哪些部分是重置的，以及何时重置

[21，63]。这种区别对实验的结果有严重的影响：在有状态

实验中，访问页面的顺序可能会影响结果，并且它会解释

HTTP会话特定的现象，例如选择加入cookie跟踪。无状态爬

取反过来允许研究与会话无关的属性。请注意，此实践

不

考

虑在测量发生之前填充的通过预先填充饼干罐），我们在第

页中对此进行了说明

P10设置浏览器配置。浏览器

的配置对于基于

Web

的测量起着重要

的作用。取决

于浏览器（例如，版本）抓取的实体可能会

剩余11页未读，继续阅读

cpongm

粉丝: 6

提升Web测量研究的可复制性：现状与标准

similarity-texter: 测量文本相似性的Web应用

NIST开发的测量不确定性评估工具

Ruler-crx插件：Web开发者的页面测量利器

similarity-texter:Web应用程序，用于测量和报告两个输入文件和_或文本之间的词汇相似性

web_developer

web-performance

Web程序员必备工具

WebCAD SDK 11.0

web 教程 基本介绍

Web测试实战：登录功能与关键测试点解析

最新资源

web 教程基本介绍