中国银行外汇市场爬虫实战:Python3实现三层抓取
需积分: 0 176 浏览量
更新于2024-08-04
收藏 693KB DOCX 举报
在本次作业中,学生金泽文使用Python3进行了Web信息爬虫实践,目标是爬取中国银行外汇市场的信息。作业要求爬取的网站具有三层结构,即一级目录、二级目录和三级目录,但实际操作中并未深入到更深的层级。作业中涉及的主要技术和方法包括:
1. **获取HTML**:
学生使用Python的`urllib.request`模块来直接获取目标网站的HTML内容,这涉及到网络请求的基本操作。他们特别注意了URL的处理,将非主域名部分替换为合法的文件名格式,如将'/'替换为'__',并且处理特殊字符如'..'和'/'。
2. **HTML解析与链接提取**:
使用了`html.parser`库中的`HTMLParser`模块以及自定义的`ZevinParser`类,解析HTML文档,提取出所有的超链接(`<a>`标签),并存储在一个集合中,以避免重复。
3. **URL重命名与重构**:
对于页面中的不同URL结构(如`#`和`../../`),通过`urlparse()`、`rename_open()`和`rename()`函数进行处理,确保得到的是完整的有效URL。这一步是确保爬取深度的关键,但在这个实践中只实现了3层。
4. **爬取流程**:
学生创建了一个名为www.bankofchina.com/的本地目录来存放爬取的结果。通过运行`crawler_by_zevin.py`脚本来执行爬取。整个过程耗时4小时,尽管时间较长,但这是初次尝试,没有参考教程,因此具有一定的挑战性和成就感。
5. **爬取结果分析**:
爬取总共得到261个项目,其中包括一个PDF文件,数据量约为8MB。结果显示目录结构清晰,内容完整。然而,作业未涉及更深层次的爬取效率优化和内存管理,这可能是未来改进的方向。
6. **源代码**:
提供的附录代码展示了主要的爬虫逻辑,包括一个名为`unfinished`的集合用于跟踪未完成的链接,以及使用`present_url`和`domain`变量来构建新的URL。
这个作业涵盖了Web爬虫的基础概念,如网络请求、HTML解析、URL处理和基本的文件存储,同时也让学生体验到了实际项目中的编码和调试过程。虽然速度上比预期的快,但初学者能够独立完成这样的项目,显示了良好的学习能力和实践能力。
222 浏览量
点击了解资源详情
点击了解资源详情
2022-08-08 上传
2022-08-08 上传
2022-08-08 上传
2022-08-08 上传
2022-08-08 上传
2021-02-18 上传
石悦
- 粉丝: 20
- 资源: 285
最新资源
- Apress.Pro.LINQ.Language.Integrated.Query.in.C#2008
- 阵列感应测井资料处理方法研究.pdf
- vb操作填空题答案看看就会
- 使用 ADOBE FLEX 3 开发 Adobe AIR 1.1 应用程序.pdf
- MFC教程课件,荣希学
- C++入门经典(3rd) .pdf
- JAVA基础。入门单词
- 数据结构课程设计 关于二叉树
- IDC机房方案,共四部分。
- cisco 4500 serial
- TCP-IP详解卷1 5.pdf
- TCP-IP详解 卷14.pdf
- EJB3.0实例教程
- OFDM-Based Broadband Wireless Networks:Design and Optimization
- C#实用书籍C# 语言规范
- 《TCP-IP详解卷1》