Python爬虫基础与应对策略

版权申诉

51 浏览量更新于2024-07-18 收藏 919KB PDF 举报

"这份资料是关于Python爬虫的学习总结，主要针对面试中的相关知识点，涵盖了爬虫的基本概念、分类、工作流程以及常见的反爬策略和搜索引擎的简要介绍。" 一、爬虫基础 1. 爬虫定义：爬虫是一种自动化程序，用于抓取互联网上的信息，它能遍历网页并收集所需数据。 2. 爬虫的作用： - 冷启动问题：新网站或应用的数据获取。 - 搜索引擎的基础：爬取网页以构建索引。 - 知识图谱构建：为机器学习提供结构化信息。 - 商品比价和趋势分析：收集和比较不同网站的商品价格，分析市场动态。 3. 爬虫分类： - 通用爬虫：全面抓取互联网上的页面，主要用于搜索引擎。 - 聚焦爬虫：专注于特定主题，只抓取与目标相关的网页信息。 4. robot协议：定义了哪些区域允许爬虫抓取，哪些禁止，保护网站免受无节制的抓取。二、通用爬虫工作流程 1. 抓取网页：从URL队列开始，逐步获取网页内容。 2. 数据存储：保存抓取的网页，同时进行去重处理。 3. 预处理：包括文本提取、中文分词和噪声去除。 4. 设置网站排名：对处理后的信息进行排序，以便用户查询。三、反爬虫策略及应对方法 1. user-agent检测：通过修改或随机更换user-agent来避免识别。 2. IP封锁：使用代理IP进行伪装，避免单一IP频繁请求。 3. 访问频率限制：设置合理的请求间隔以减小频率。 4. 验证码：使用OCR工具（如tesseract）处理简单验证码，复杂验证码可能需人工打码平台。 5. JS数据获取：利用selenium+phantomjs等工具加载执行JS来获取动态内容。四、搜索引擎概述 1. 通用爬虫在搜索引擎中的角色：负责抓取和存储全网页面。 2. URL获取：搜索引擎如何发现新网站，包括网站主动提交、外部链接、DNS服务商合作等途径。总结：这份资料详细介绍了Python爬虫的各个方面，从基础概念到实际应用，再到搜索引擎的工作原理，以及应对反爬策略的技巧，对Python爬虫面试者来说是一份宝贵的参考资料。通过学习，读者可以深入理解爬虫的工作方式，提升爬虫开发和优化的能力。

get post

get是从服务器获取数据 post是向服务器提交数据

get参数拼接在url后面，这样是明文传输，

很不安全。

post的参数放在body体内，相比get比较安全

get提交可以被浏览器缓存 post不会被浏览器缓存

get产生一个TCP数据包（对于GET方式的

请求，浏览器会把http header和data一并

发送出去，服务器响应200（返回数据））

POST产生两个TCP数据包（而对于POST，浏览器

先发送header，服务器响应100 continue，浏览

器再发送data，服务器响应200 （返回数据））

传输大小会受限参数是放在是实体里面，而且参数大小不会受限

④常见的请求头

——————————————————————————————————————————

6.服务器响应

①组成：状态行，响应头，空行，响应正文。

②常见的响应头

四、url：统一资源定位符

scheme：协议(例如：http， http， ftp)

host/ip：服务器的IP地址或者域名

port：服务器的端口(如果是走协议默认端口，缺省端口80)，用来从互联网进入电脑

path：访问资源的路径，就是为了在电脑中找到对应的资源路径

query-string：参数，发送给http服务器的数据

anchor：锚(跳转到网页的指定锚点位置)

User-Agent：客户端请求标识。

Accept：传输文件类型。

Referer ：请求来源。

cookie ：在做登录的时候需要封装这个头。

Content-Type：POST数据类型

Content-Type：text/html;资源文件的类型，还有字符编码

Content-Length：响应长度

Content-Size响应大小

Content-Encoding告诉客户端，服务端发送的资源是采用什么编码的。

Connection：keep-alive这个字段作为回应客户端的Connection：keep-alive，告诉客户端服务器的

tcp连接也是一个长连接，客户端可以继续使用这个tcp连接发送http请求

基本格式：scheme://host[:port#]/path/…/?query-string

协议：//服务器ip地址：端口号/资源路径/?key1=参数1&key2=参数2

剩余17页未读，继续阅读

Yucool01

粉丝: 34
资源: 4600

Python爬虫基础与应对策略

几个常见的Python爬虫面试题.docx_python面试

Python+中文手册.pdf_python中文手册_Python中文手册_python_

[网盘]Python网络爬虫实战胡松涛编著.pdf.2018_03_19

Python爬虫总结教学提纲.pdf

Python爬虫总结 (2).pdf

Python爬虫总结材料.pdf

Python爬虫总结.pdf

2：python网络爬虫权威指南_python网络爬虫权威指南_python爬虫指南_

爬虫及网络编程面试题.pdf

python爬虫修改版.pdf

最新资源