Python爬虫入门：原理、流程与实战应用

需积分: 23 54 浏览量更新于2024-07-05 1 收藏 223KB DOCX 举报

"这篇文档是关于Python爬虫的学习笔记，涵盖了爬虫的作用、基本流程、爬虫与反爬策略、爬虫的分类以及HTTP和HTTPS的概念。" 在Python编程领域，爬虫是一种强大的工具，主要用于数据采集、软件测试、抢票、网络安全检查以及Web漏洞扫描。例如，你可以用爬虫抓取微博上的评论，收集招聘网站的招聘信息以进行数据分析和挖掘，或者获取新浪滚动新闻和百度新闻网站的内容。此外，爬虫在软件测试中的自动化测试和网络安全领域也有广泛应用。爬虫的基本工作流程包括四个主要步骤：首先，确定要抓取数据的目标URL；其次，模拟浏览器发送网络请求，这通常涉及到HTTP或HTTPS协议；接着，解析服务器返回的响应，提取所需的数据；最后，将提取到的数据保存到文件或数据库中。例如，如果目标是www.baidu.com，你会先发送请求，然后解析响应，可能使用JSONPath、XPath或正则表达式来提取信息，最后将这些信息存储起来。爬虫可分为多种类型。通用爬虫广泛抓取互联网上的大量信息，如搜索引擎使用的那种；而聚焦爬虫则针对特定目标，如12306的抢票服务或特定网站的数据。此外，还有功能性爬虫，用于实现特定功能，如给明星投票，以及数据增量爬虫，它们关注的是数据的变化，例如更新招聘信息。爬虫在执行过程中可能会遇到网站的反爬机制，这是服务端为了保护数据和防止恶意攻击而设置的。反爬策略可能包括IP限制、验证码、User-Agent检测等。因此，作为爬虫开发者，理解HTTP和HTTPS协议至关重要。HTTP是超文本传输协议，通过端口80进行通信，而HTTPS是在HTTP基础上增加了SSL层，通过端口443提供加密和身份验证，确保通信更加安全，但同时也降低了性能。 Python爬虫是数据获取和分析的重要手段，涉及网络请求、数据解析、存储和应对反爬策略等多个技术环节。掌握好这些知识点，你就可以构建出自己的爬虫系统，有效地从网络上获取并处理数据。



-手动指定解码方式 //设置为 W/

-DUW/U

-+2,-由  库自动进行解码，有可能出现解码方式不正确///乱码

-+,- 库默认的代码编码方式：N://

-第二种：

-+,-' 类型的响应

-++,,-默认 W/ 进行解码

-2D+UN://U,

 模块发送请求

发送带 ! 的请求

我们先写一个获取百度首页的代码

/////

$

%DU!3.BB***'$U

D+%,

++,,

打印响应对应请求的请求头信息

+!,

对比对应 % 的响应内容和代码中的百度首页的源码，有什么不同

查看对应 % 的响应内容的方法：

右键/检查

点击

8*

  勾选

C%

"刷新页面

查看一栏下和浏览器地址栏相同的 % 的

8$

代码中的百度首页的源码非常少，为什么？

需要我们带上请求头信息



回顾爬虫的概念，模拟浏览器，欺骗服务器，获取和浏览器一致的内容

请求头中有很多字段，其中 F/> 字段必不可少，表示客户端的

操作系统以及浏览器的信息

携带请求头发送请求的方法

+%!D!,

! 参数接收字典形式的请求头

请求头字段名作为 ，字段对应的值作为 C%

完成代码实现

从浏览器中复制 F/>，构造 ! 字典；完成下面的代码后，运行代码查看结果

$

%DU!3.BB***'$U

!DYHF/>H.HQX%%B&+_*86&&=

_"=2",>%_'VB

+V56Q4%;,K!$B"&"&(BH1

-F/> 在请求头中带上，模拟浏览器发送请求

D+%!D!,

+,

打印请求头信息

+!,

-打印内容

++,,

-DW/

-如果第一行出现了编码问题加上上面这个

-安装 换源安装

-%%/!3.BB'$B$%

遇到报错 _>8N8;.NC%'9/+.TT%'

T/,

_>8N8;.NC%'9/%%*+.

TT%'T/,

那么删除 7.TT4'T/里 //%%*

写 !$% 类型的时候 * 和 *' 都可以

-视频音频图片一定是 *'

%DU!3.BB***'$BU

!DY

UF/>U.UQX%%B&+_*86&&=_"=2",

>%_'VB+V56Q4%;,K!$B&"&

(BU1

D+%!D!,

+!,

*!+U'!$%UU*UDUW/U,(.

(*++,,



+%++,,,-"

-以二进制方式写入它会自己进行解码

*!+U'!$%UU*'U,(.

(*+,

+!,-!/B&

-加请求头-这里两个端可能不一样

-网页端电脑在使用浏览器

-网页手机端相当于手机浏览器进行访问数据

$

CI%DU!3.BBC'9$B$/

$(!X(BI!"I*$B"&B$/

$(!X($"CI($ID)I!I""U

!DY

 UF/>U.UQX%%B&+_*86&&=_"=2",>%_'VB+V56Q4%

;,K!$B&"&(BU

D+CI%!D!,

-+2,

*!+U王力宏$"UU*'U,(.

(*+,

爬取网易云音乐

$

%D

U!3.BB$&"$B&&"B'&&('&B

)B')B*7%: *47))K$:)B&"BB"'B&B

((&'&$"S!D&&&&&'&""&U

-设置请求头

!DY

 UF/>U.UQX%%B&+_*86&&=_"=2",>%_'VB+V56Q4%

;,K!$B&"(BU

-发起请求获取响应

D+%!D!,

-保存数据

*!+U网易云音乐$UU*'U,(.

(*+,

-点击播放去获取数据存放的地址

-这个响应就会在 * 中显示

-去分析那个是正确的数据

-接口一个 %一个方法路由（后端）

-你提供参数给这个接口接口给你返回数据

剩余63页未读，继续阅读

rogabet-note

粉丝: 54
资源: 4

Python爬虫入门：原理、流程与实战应用

python爬虫学习笔记-scrapy框架(1)

最牛逼的Python爬虫学习笔记

01 Python 爬虫学习笔记

python爬虫学习笔记.zip

python爬虫学习笔记.pdf

Python 爬虫学习笔记之单线程爬虫

Python 爬虫学习笔记之多线程爬虫

Python 爬虫学习笔记之正则表达式

python爬虫学习笔记之Beautifulsoup模块用法详解

最牛逼的Python爬虫学习笔记，学习过程中记录的笔记

最新资源