中国银行外汇市场爬虫实战:Python3实现三层抓取

需积分: 0 1 下载量 176 浏览量 更新于2024-08-04 收藏 693KB DOCX 举报
在本次作业中,学生金泽文使用Python3进行了Web信息爬虫实践,目标是爬取中国银行外汇市场的信息。作业要求爬取的网站具有三层结构,即一级目录、二级目录和三级目录,但实际操作中并未深入到更深的层级。作业中涉及的主要技术和方法包括: 1. **获取HTML**: 学生使用Python的`urllib.request`模块来直接获取目标网站的HTML内容,这涉及到网络请求的基本操作。他们特别注意了URL的处理,将非主域名部分替换为合法的文件名格式,如将'/'替换为'__',并且处理特殊字符如'..'和'/'。 2. **HTML解析与链接提取**: 使用了`html.parser`库中的`HTMLParser`模块以及自定义的`ZevinParser`类,解析HTML文档,提取出所有的超链接(`<a>`标签),并存储在一个集合中,以避免重复。 3. **URL重命名与重构**: 对于页面中的不同URL结构(如`#`和`../../`),通过`urlparse()`、`rename_open()`和`rename()`函数进行处理,确保得到的是完整的有效URL。这一步是确保爬取深度的关键,但在这个实践中只实现了3层。 4. **爬取流程**: 学生创建了一个名为www.bankofchina.com/的本地目录来存放爬取的结果。通过运行`crawler_by_zevin.py`脚本来执行爬取。整个过程耗时4小时,尽管时间较长,但这是初次尝试,没有参考教程,因此具有一定的挑战性和成就感。 5. **爬取结果分析**: 爬取总共得到261个项目,其中包括一个PDF文件,数据量约为8MB。结果显示目录结构清晰,内容完整。然而,作业未涉及更深层次的爬取效率优化和内存管理,这可能是未来改进的方向。 6. **源代码**: 提供的附录代码展示了主要的爬虫逻辑,包括一个名为`unfinished`的集合用于跟踪未完成的链接,以及使用`present_url`和`domain`变量来构建新的URL。 这个作业涵盖了Web爬虫的基础概念,如网络请求、HTML解析、URL处理和基本的文件存储,同时也让学生体验到了实际项目中的编码和调试过程。虽然速度上比预期的快,但初学者能够独立完成这样的项目,显示了良好的学习能力和实践能力。