Python网络爬虫入门与开发者工具指南

版权申诉

5星 · 超过95%的资源 87 浏览量更新于2024-07-19 3 收藏 5.8MB PDF 举报

《Python网络爬虫与数据采集》是一份由雨霓同学在2020年11月19日完成的学习记录，由泠鸢组织，适用于想要了解和学习网络爬虫技术的学员。本课程主要介绍了网络爬虫的基础概念、功能、分类以及基本操作流程。 1. **爬虫基础**： - **爬虫概述**：课程首先定义了爬虫，即通过自动化方式在网络上抓取和处理数据的程序，主要用于获取网页信息。 - **爬虫应用**：讲解了爬虫的功能，包括信息挖掘、数据分析、网站监控等，强调了它在大数据时代的重要性。 - **爬虫分类**：区分了不同类型的爬虫，如通用爬虫、深度爬虫、分布式爬虫等，以及各自的适用场景。 - **爬虫流程**：详细描述了爬虫的工作流程，包括浏览网页、解析HTML、数据提取、存储等步骤。 - **对抗策略**：涉及爬虫与网站反爬策略的互动，介绍了如何处理反爬机制（如设置User-Agent、验证码等）和反反爬（应对反爬虫策略）。 2. **Chrome浏览器开发者工具**： - **工具简介**：作为网络爬虫的重要辅助工具，课程介绍了Chrome浏览器的开发者工具，它能帮助分析网页结构和网络请求。 - **工具使用**：涵盖了如何打开开发者工具、元素面板（查看网页源代码）、网络面板（查看HTTP请求和响应头）的使用方法，有助于理解网页的构成和抓取过程。 - **面板详解**：分别对元素面板（用于查找特定HTML元素）和网络面板（监控网络请求，用于模拟真实用户行为）进行了深入解析。 3. **法律合规**： - **robots协议**：强调了在进行网络爬取时必须遵守的Robots协议，它规定了网站允许或禁止被爬取的内容。 - **合法抓取**：课程提醒学员，合法的网络爬虫应当尊重网站的规则，不侵犯版权，遵守相关法律法规。整体而言，《Python网络爬虫与数据采集》是一门实用的教程，旨在帮助学习者掌握Python爬虫技术，并在实际项目中运用到网络安全、数据抓取和浏览器工具的使用等方面。由于是未完成版本，可能部分内容存在OCR识别错误，但提供了一些学习资源链接，如GitHub、CTAN、Overleaf及Gitee，便于读者自行下载和校对。同时，课程还鼓励参与者加入QQ群进行问题交流和资源分享。

1.5 爬虫与反爬虫 – 5 –

∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼·∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼· ∼·

把 IP 记录进黑名单。

攻:Day 4 小莫看到验证码有些傻脸了，不过也不是没有办法，先去学习了图像识别（关键词

PIL，tesseract），再对验证码进行了二值化，分词，模式训练之后，总之最后识别了小黎的验证码

（关于验证码，验证码的识别，验证码的反识别也是一个恢弘壮丽的斗争史...），之后爬虫又跑了

起来。

守:Day 4 小黎是个不折不挠的好同学，看到验证码被攻破后，和开发同学商量了变化下开发

模式，数据并不再直接渲染，而是由前端同学异步获取，并且通过 JavaScript 的加密库生成动态

的 token，同时加密库再进行混淆（比较重要的步骤的确有网站这样做，参见淘宝和微博的登陆

流程）。

攻:Day 5 Day 5 混淆过的加密库就没有办法了么？当然不是，可以慢慢调试，找到加密原理，

不过小莫不准备用这么耗时耗力的方法，他放弃了基于 HttpClient 的爬虫，选择了内置浏览器引

擎的爬虫 (关键词：PhantomJS，Selenium)，在浏览器引擎运行页面，直接获取了正确的结果，又

一次拿到了对方的数据。

守:Day 5 小黎：.....

1.5.2 常见的反爬与反反爬

守: 通过 User-Agent 来控制访问：

从用户请求的 Headers 反爬虫是最常见的反爬虫策略。由于正常用户访问网站时是通过浏

览器访问的，所以目标网站通常会在收到请求时校验 Headers 中的 User-Agent 字段，如果

不是携带正常的 User-Agent 信息的请求便无法通过请求。



笔记 User Agent 中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识

别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、

浏览器插件等。

破：应对措施：如果遇到了这类反爬虫机制，可以直接在自己写的爬虫中添加 Headers，将

浏览器的 User-Agent 复制到爬虫的 Headers 中

守: 基于行为检测 (限制 IP)

还有一些网站会通过用户的行为来检测网站的访问者是否是爬虫，例如同一 IP 短时间内多

次访问同一页面，或者同一账户短时间内多次进行相同操作。大多数网站都是前一种情况，

对于这种情况有两种策略：

破：应对措施：

1. 可以专门写一个在网上抓取可用代理 ip 的脚本，然后将抓取到的代理 ip 维护到代理

池中供爬虫使用，当然，实际上抓取的 ip 不论是免费的还是付费的，通常的使用效果

都极为一般，如果需要抓取高价值数据的话也可以考虑购买宽带 adsl 拨号的 VPS，如

果 ip 被目标网站被封掉，重新拨号即可。

2. 降低请求频率。例如每个一个时间段请求一次或者请求若干次之后 sleep 一段时间。由

于网站获取到的 ip 是一个区域网的 ip，该 ip 被区域内的所有人共享，因此这个间隔

时间并不需要特别长, 对于第二种情况，可以在每次请求后随机间隔几秒再进行下一

次请求。对于有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请

求来绕过同一账号短时间内不能多次进行相同请求的限制，如果能有多个账户，切换

使用，效果更佳。

守: 通过账号权限反爬 (ookie 限制)

部分网站需要登录才能继续操作，这部分网站虽然并不是为了反爬虫才要求登录操作，但

确实起到了反爬虫，的作用, 可是网页上有一部分内容如: 新浪微博是需要用户登录才能查

1.6 爬虫的合法性与 robots 协议 – 6 –

看更多内容。限制每个每天下载 300 张.

破：应对措施：

因此可以通过注册账号，访问时带 cookie, 模拟登录的方法进行规避。

守: 验证码限制

这是一个相当古老但却不失有效性的反爬虫策略。更早的时候，这种验证码可以通过 OCR

技术进行简单的图像识别破解，但是现在来说，验证码的干扰线，噪点已经多到肉眼都无

法轻易识别的地步。所以目前而言，由于 OCR 技术发展不力，验证码技术反而成为了许多

网站最有效的手段之一。

破：应对措施：

1. 神经网络训练 NLP(图像识别)

2. 人工识别

3. 打码平台

4. 第三方 OCR 库

守: 动态页面的反爬虫 (通过变换网页结构反爬)

一些社交网站常常会更换网页结构，而爬虫大部分情况下都需要通过网页结构来解析需要

的数据，所以这种做法也能起到反爬虫的作用。在网页结构变换后，爬虫往往无法在原本

的网页位置找到原本需要的内容.

破：应对措施：

1. 只爬取一次时，在其网站结构调整之前，将需要的数据全部爬取下来；使用脚本对网

站结构进行监测，结构变化时，发出告警并及时停止爬虫。

2. 逆向分析，抓包

3. selenium 库

1.6 爬虫的合法性与 robots 协议

1.6.1 robots 协议

robots 协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion

Protocol ），当使用一个爬虫爬取一个网站的数据时，需要遵守网站所有者针对所有爬虫所制定的

协议! 简单说就是是一种存放于网站根目录下的 ASCII 编码的文本文件，它通常告诉网络搜索引

擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是

可以被漫游器获取的。

robots . txt 的样例

User - agent : *

Disallow : /

Allow : / public /

这实现了对所有搜索爬虫只允许爬取 public 目录的功能，将上述内容保存成 robots.txt 文件，

放在网站的根目录下，和网站的入口文件（比如 index.php、index.html 和 index.jsp 等）放在一起。

上面的 User-agent 描述了搜索爬虫的名称，这里将其设置为＊则代表该协议对任何爬取爬虫

有效。比如，我们可以设置：User-agent: Baiduspider 。这就代表我们设置的规则对百度爬虫是有

效的。如果有多条 User-agent 记录，则就会有多个爬虫会受到爬取限制，但至少需要指定一条。

Disallow 指定了不允许抓取的目录，比如上例子中设置为／则代表不允许抓取所有页面。Allow

一般和 Disallow 一起使用，一般不会单独使用，用来排除某些限制。现在我们设置为/public ／，

则表示所有页面不允许抓取，但可以抓取 public 目录。

1.6 爬虫的合法性与 robots 协议 – 7 –

禁止所有爬虫访问任何目录的代码如下：

User - agent : *

Disallow : /

允许所有爬虫访问任何目录的代码如下：

User - agent : *

Disallow :

禁止所有爬虫访问网站某些目录的代码如下：

User - agent : *

Disallow : / private /

Disallow : / tmp /

只允许某一个爬虫访问的代码如下：

User - agent : W e bCrawler

Disallow :

User - agent : *

Disallow : /

1.6.2 查看网页的 robots 协议

https://www.baidu.com/robots.txt

v 合法的爬虫

1. 遵守 Robots 协议

Robots 协议也叫 robots.txt（统一小写）是一种存放于网站根目录下的 ASCII 编码的文

本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是

不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。

Robots 协议就是告诉爬虫，哪些信息是可以爬取，哪些信息不能被爬取，严格按照

Robots 协议爬取网站相关信息一般不会出现太大问题。

2. 不能造成对方服务器瘫痪

但不是说只要遵守 Robots 协议的爬虫就没有问题，还涉及到两个因素，第一不能大规

模爬虫导致对方服务器瘫痪，这等于网络攻击。

2019 年 05 月 28 日国家网信办发布的《数据安全管理办法（征求意见稿）》中，拟通

过行政法规的形式，对爬虫的使用进行限制：

网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严

重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止

自动化访问收集时，应当停止。

3. 不能非法获利

恶意利用爬虫技术抓取数据，攫取不正当竞争的优势，甚至是牟取不法利益的，则可

能触犯法律。实践中，非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少，大

多是以不正当竞争为由提请诉讼。

剩余62页未读，继续阅读

好知识传播者

粉丝: 1687

Python网络爬虫入门与开发者工具指南

python大学教程吕云翔课后答案-Python程序设计基础教程.pdf

Python网络数据采集 - 2016.pdf

Python3网络爬虫数据采集.pdf

python爬虫教程pdf下载

python爬虫开发从入门到实战pdf

‌Python3网络爬虫开发实战第二版

微信公众号爬虫pdf

使用Python爬虫抓取居民消费支出

如何系统地从互联网上采集数据，并对其进行有效的处理？请结合实际案例详细说明。

python让繁琐工作自动化第2版pdf

最新资源