中国银行外汇市场爬虫实战：Python3实现三层抓取

需积分: 0 176 浏览量更新于2024-08-04 收藏 693KB DOCX 举报

在本次作业中，学生金泽文使用Python3进行了Web信息爬虫实践，目标是爬取中国银行外汇市场的信息。作业要求爬取的网站具有三层结构，即一级目录、二级目录和三级目录，但实际操作中并未深入到更深的层级。作业中涉及的主要技术和方法包括： 1. **获取HTML**：学生使用Python的`urllib.request`模块来直接获取目标网站的HTML内容，这涉及到网络请求的基本操作。他们特别注意了URL的处理，将非主域名部分替换为合法的文件名格式，如将'/'替换为'__',并且处理特殊字符如'..'和'/'。 2. **HTML解析与链接提取**：使用了`html.parser`库中的`HTMLParser`模块以及自定义的`ZevinParser`类，解析HTML文档，提取出所有的超链接（`<a>`标签），并存储在一个集合中，以避免重复。 3. **URL重命名与重构**：对于页面中的不同URL结构（如`#`和`../../`），通过`urlparse()`、`rename_open()`和`rename()`函数进行处理，确保得到的是完整的有效URL。这一步是确保爬取深度的关键，但在这个实践中只实现了3层。 4. **爬取流程**：学生创建了一个名为www.bankofchina.com/的本地目录来存放爬取的结果。通过运行`crawler_by_zevin.py`脚本来执行爬取。整个过程耗时4小时，尽管时间较长，但这是初次尝试，没有参考教程，因此具有一定的挑战性和成就感。 5. **爬取结果分析**：爬取总共得到261个项目，其中包括一个PDF文件，数据量约为8MB。结果显示目录结构清晰，内容完整。然而，作业未涉及更深层次的爬取效率优化和内存管理，这可能是未来改进的方向。 6. **源代码**：提供的附录代码展示了主要的爬虫逻辑，包括一个名为`unfinished`的集合用于跟踪未完成的链接，以及使用`present_url`和`domain`变量来构建新的URL。这个作业涵盖了Web爬虫的基础概念，如网络请求、HTML解析、URL处理和基本的文件存储，同时也让学生体验到了实际项目中的编码和调试过程。虽然速度上比预期的快，但初学者能够独立完成这样的项目，显示了良好的学习能力和实践能力。

HW1.2-爬虫实践 | [选取日期]

i. 通过 html.parser 的 HTMLParser 模块，以及自己增加的解析

规则 ZevinParser，解析 html 流，分离出超链接，并存入集合

中。（为了避免重复，所以使用集合。）

ii. 针对 html 中不同的 url 结构，比如‘#’，‘../../’等，依次根

据目前的 url 进行修改，修改为完整的 url。为了这一部分

rename，我设计了 ulrparse(),rename_open(),rename()函数

c) 依次递归，得到 3 层 html。

3. 爬取过程

a) 创建 www.bankofchina.com/ 目录（已创建）

剩余13页未读，继续阅读

石悦

粉丝: 20
资源: 285

中国银行外汇市场爬虫实战：Python3实现三层抓取

ICLR 2021 HW-NAS-Bench: NAS-Bench-201 API 与 HW-NAS-Bench API 介绍

GitHub Classroom自动化作业 hw5-cgibson6279 详解

HW6-2图片集压缩包

HW5-PB15111604金泽文1

HW1.1-PB15111604金泽文1

HW3-PB15111604金泽文1

HW2-PB15111604金泽文1

HW4-PB15111604金泽文(updated)1

Hw3-BEW1.2

Javaqa1.2：hw1.2

最新资源