Python3爬虫入门教程(上)

5 浏览量更新于2024-08-30 收藏 592KB PDF 举报

"零基础自学用Python3开发网络爬虫(上)" 本文将引导初学者入门Python3网络爬虫的开发。作者在文中分享了他决定学习Python爬虫的原因，并阐述了为何选择Python作为爬虫开发语言，以及在Python2和Python3之间的选择。此外，还给出了一个简单的爬虫伪代码，涉及数据结构的使用。首先，Python被选为开发爬虫的语言是因为其在编程社区中的普及度高，且拥有丰富的第三方库支持。相比C++在网络开发中的应用较少，以及Java在Android开发前景的不确定性，Python以其易读性、强大的库支持（如requests和BeautifulSoup）以及对程序员友好性脱颖而出。随着计算机性能的提升，语言的执行效率不再是首要考虑因素，程序员的开发效率变得更为重要。在Python的版本选择上，作者倾向于使用Python3，尽管它相较于Python2有较大的改动，但考虑到Python3的更新特性以及未来的发展趋势，作者认为选择Python3具有更高的潜在回报。即使Python3不如Python2普及，Python语言的整体发展也会受到影响，因此选择哪个版本的风险相对均衡。接下来，作者通过一个简单的伪代码展示了爬虫的基本工作原理，涉及到的数据结构包括队列（queue）和集合（set）。队列用于实现广度优先搜索（BFS），将待爬取的网页URL存入队列中，按照先进先出（FIFO）的原则处理。集合则用于存储已访问过的URL，避免重复爬取同一页面，确保爬虫的效率。在实际的爬虫开发中，还需要了解HTTP协议、网页解析（HTML或XML）、反爬虫策略、数据存储（如CSV或数据库）等相关知识。Python的requests库可以方便地发送HTTP请求，BeautifulSoup库可以帮助解析HTML文档，而pandas库则能帮助我们将抓取的数据整理成结构化的DataFrame，便于分析和存储。在学习过程中，初学者应逐步掌握这些基础知识，并通过实践项目来巩固理论知识。同时，注意遵守网站的robots.txt规则，尊重版权，合法合规地进行爬虫开发。随着技术的深入，还可以学习更高级的爬虫技巧，如多线程、分布式爬虫以及更复杂的网页解析技术。

零基础自学用零基础自学用Python3开发网络爬虫开发网络爬虫(上上)

由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想既然都本科

就出来工作还是按照自己爱好来点技能吧, 于是我就不去了. 一个人在宿舍没有点计划好的事情做就会很容易虚度, 正好这个学

期主打网络与数据库开发, 那就先学学Python开发爬虫吧. 我失散多年的好朋友Jay Loong突然说他会爬虫了, 我感到真棒, 我也

要学 :D 因为一个星期有两节Cisco课, 所以本系列博文也就一周两更.

选择一门语言

爬虫可以用各种语言写, C++, Java都可以, 为什么要Python? 首先用C++搞网络开发的例子不多(可能是我见得太少), 然后由于

Oracle收购了Sun, Java目前虽然在Android开发上很重要, 但是如果Google官司进展不顺利, 那么很有可能用Go语言替代掉

Java来做Android开发. 在这计算机速度高速增长的年代里, 选语言都要看他爹的业绩, 真是稍不注意就落后于时代. 随着计算机

速度的高速发展, 某种语言开发的软件运行的时间复杂度的常数系数已经不像以前那么重要, 我们可以越来越偏爱为程序员打造

的而不是为计算机打造的语言. 比如Ruby这种传说中的纯种而又飘逸的的OOP语言, 或者Python这种稍严谨而流行库又非常多

的语言, 都大大弱化了针对计算机运行速度而打造的特性, 强化了为程序员容易思考而打造的特性. 所以我选择Python.

选择Python版本

有2和3两个版本, 3比较新, 听说改动大. 根据我在知乎上搜集的观点来看, 我还是倾向于使用”在趋势中将会越来越火”的版本, 而

非”目前已经很稳定而且很成熟”的版本. 这是个人喜好, 而且预测不一定准确. 但是如果Python3无法像Python2那么火, 那么整个

Python语言就不可避免的随着时间的推移越来越落后, 因此我想其实选哪个的最坏风险都一样, 但是最好回报却是Python3的

大. 其实两者区别也可以说大也可以说不大, 最终都不是什么大问题. 我选择的是Python 3.

一个简单的伪代码

以下这个简单的伪代码用到了set和queue这两种经典的数据结构, 集与队列. 集的作用是记录那些已经访问过的页面, 队列的作

用是进行广度优先搜索.

queue Q

set S

StartPoint = "http://jecvay.com"

Q.push(StartPoint) # 经典的BFS开头

S.insert(StartPoint) # 访问一个页面之前先标记他为已访问

while (Q.empty() == false) # BFS循环体

T = Q.top() # 并且pop

for point in PageUrl(T) # PageUrl(T)是指页面T中所有url的集合, point是这个集合中的一个元素.

if (point not in S)

Q.push(point)

S.insert(point)

这个伪代码不能执行, 我觉得我写的有的不伦不类, 不类Python也不类C++.. 但是我相信看懂是没问题的, 这就是个最简单的

BFS结构. 我是看了知乎里面的那个伪代码之后, 自己用我的风格写了一遍. 你也需要用你的风格写一遍.

这里用到的Set其内部原理是采用了Hash表, 传统的Hash对爬虫来说占用空间太大, 因此有一种叫做Bloom Filter的数据结构更

适合用在这里替代Hash版本的set. 我打算以后再看这个数据结构怎么使用, 现在先跳过, 因为对于零基础的我来说, 这不是重点.

代码实现(一): 用Python抓取指定页面

我使用的编辑器是Idle, 安装好Python3后这个编辑器也安装好了, 小巧轻便, 按一个F5就能运行并显示结果. 代码如下:

#encoding:UTF-8

import urllib.request

url = "http://www.baidu.com"

data = urllib.request.urlopen(url).read()

data = data.decode('UTF-8')

print(data)

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38593644

粉丝: 4
资源: 914

Python3爬虫入门教程(上)

如何自学Python爬虫？零基础入门教程.pdf

0基础自学Python网络爬虫高清视频教程特惠（网盘下载 59G）.zip

零基础Python爬虫学习视频！

Python爬虫入门自学参考书

python爬虫自学路线

python爬虫自学教程推荐

自学python爬虫在哪里可以学

自学Python爬虫需要做什么

python爬虫自学

想要用python完成数据分析，爬虫，构建防火墙，该如何学习Python

最新资源