探索Mozilla开源上标数据挖掘库的深度

需积分: 5 20 浏览量更新于2024-11-16 收藏 5.13MB ZIP 举报

资源摘要信息:"overscripted:Mozilla上标数据挖掘挑战的存储库" 1. 概述：Mozilla上标数据挖掘挑战的存储库 -Mozilla的系统研究小组（SRG）收集了2017年11月的网络爬虫数据集，并已将其公开，以便于数据科学家和研究者分析用户访问网页后的JavaScript执行事件以及其他第一方和第三方事件。 2. 数据集目标 -此数据集的主要目标是使研究社区能够探索和理解网页上触发的一系列不可见或不明显的事件。这些事件可能包括JavaScript代码执行、第三方服务的调用等。 3. 数据集内容和特点 -数据集包含用户在访问网页时触发的各类事件信息。 -数据集是由Mozilla的安全工程团队开发和维护的。 4. 分析工具和格式要求 -分析工作需要在Python环境下进行，并且使用Jupyter Notebook（.ipynb文件）格式记录。 -分析报告应当详细记录分析过程，并在指定的存储库结构下组织文件和文件夹。 -文件和文件夹的命名格式应遵循"yyyy_mm_username__short-title"。 5. 存储库组织 -存储库的名称为"overscripted-master"，所有提交的分析代码和报告都应该按照该存储库的结构进行提交。 6. 提交分析 -社区成员可以通过提交分析来参与挑战，提交的分析应以*.ipynb文件或存放在/analyses/文件夹中的文件夹形式。 -提交的分析应当能够运行，并且应当记录任何必要的额外安装步骤。 7. 已发现的初步见解 -从数据集中已经发现的一些初步见解被说明在此处，表明已经有研究人员使用这些数据进行了分析，并且得到了一些有趣的发现。 8. 技术背景和能力要求 -了解如何使用Jupyter Notebook进行数据分析。 -熟悉Python编程语言，包括数据处理和分析的常用库。 -具备网络数据爬取和网页内容分析的相关知识。 9. 可能的分析方向 -分析用户行为模式。 -识别和分析页面加载时触发的第三方事件。 -评估网页上JavaScript执行的性能影响。 -挖掘可能存在的隐私泄露或安全漏洞。 10. 社区参与和贡献 -该存储库旨在鼓励开放研究和合作，社区成员可以通过提交自己的分析来贡献他们的见解和研究成果。 -通过参与，研究者不仅可以帮助改进数据集的分析方法，也可能为改善网络浏览的安全性和性能做出贡献。 11. 注意事项 -提交的分析和报告必须具有良好的文档记录，以便其他研究者能够理解和复现研究结果。 -对于任何特别的环境配置和依赖，需要在文档中进行明确记录。总结：该存储库为研究人员提供了一个宝贵的资源，让他们能够深入挖掘网络数据，并且通过公开合作的方式，共同推动相关领域的研究和发展。通过使用Jupyter Notebook进行数据分析，研究者可以探索网页上发生的多种事件，揭示其背后的逻辑和影响，并为提升网络环境的安全性和性能做出贡献。

收起资源包目录

overscripted:Mozilla上标数据挖掘挑战的存储库（64个子文件）

requirements.txt 232B

README.md 504B

README.md 8KB

Process All Data.ipynb 36KB

Tracking Report Template.md 3KB

test_urls.csv 2KB

issue_34_setup_and_dask_tips.ipynb 95KB

compare_condensed_with_full.py 2KB

config.ini 486B

generate_url_list_spark.py 2KB

extract_hashes_from_full_dataset.py 2KB

.gitignore 74B

config.ini 364B

Font Fingerprinting Heuristics.ipynb 23KB

symbol_dict.json 127KB

WebRTC Fingerprinting Heuristics.ipynb 23KB

config.ini 795B

symbol_counts.json 68KB

js_status.csv 12.96MB

README_depricated.md 25KB

README.md 942B

hello_world.md 23KB

master_sym_list.json 127KB

Ad Blocker Report.md 918B

hello_world.ipynb 43KB

issue_36.ipynb 37KB

single_js_get.py 545B

window.name Report.md 1KB

README.md 1002B

README.md 739B

raw_data_schema.template 4KB

async_js_get.py 3KB

LICENSE 16KB

README.md 5KB

Tracking Method Sources.md 4KB

process_APIs.py 3KB

explore_downloads.ipynb 376KB

new_async_tree_explorer.py 14KB

README.md 2KB

explore_url_lists.ipynb 24KB

Process All Data.md 28KB

Sample Review.ipynb 8KB

requirements.txt 129B

environment.yaml 241B

hello_mozfest.ipynb 160KB

2018_09_biskit1_mordax__canvas_fingerprinting.ipynb 66KB

master.txt 18KB

README.md 263B

schema.md 9KB

Tracking Methods.md 2KB

test_generate_url_list_spark.py 2KB

2018_12_willoughr__fingerprinting_prevalence.txt 21KB

Canvas Fingerprinting Heuristics.ipynb 16KB

extended_symbol_counts.json 4KB

Evercookies Report.md 2KB

requirements.txt 114B

README.md 1KB

RelevantSymbolCounter.py 10KB

symbol_counts.csv 10KB

async_tree_explorer.py 12KB

Audio Fingerprinting Heuristics.ipynb 12KB

single_tree_explorer.py 11KB

config.ini 538B

CODE_OF_CONDUCT.md 691B

共 64 条

EngleSEN

粉丝: 50
资源: 4502

探索Mozilla开源上标数据挖掘库的深度

Spark入门：Mozilla遥测数据分析模板教程

探索隐私视角：Mozilla调查数据可视化项目分析

下载PyPI官方Python库：mozilla-django-oidc-1.2.4

Ubuntuzilla: Mozilla Software Installer:Mozilla软件版本的APT存储库-开源

mpvd:Mozilla产品漏洞数据集

代码审查：Mozilla存储库的自动静态分析和整理机器人

nixpkgs-mozilla:Mozilla相关的nixpkgs（扩展了nixosnixpkgs存储库）

payments:Mozilla付款的所有事物的根存储库

buildhub：已弃用：Mozilla Build元数据服务

ember-metrics-graphics:Mozilla 的 metricsgraphics.js 库周围的 ember-cli 包装器

最新资源