Requests库入门与网络爬虫基础

需积分: 0 77 浏览量更新于2024-08-05 收藏 409KB PDF 举报

"本资源是关于Python网络爬虫的初步介绍，主要讲解了Requests库的使用，包括其主要方法和get方法的详细说明，以及爬取网页的一般代码框架，并提到了异常处理和Response对象的重要属性。" 在Python的网络爬虫开发中，Requests库是一个不可或缺的工具，它为开发者提供了方便快捷的方式来发送HTTP请求。本资源首先概述了Requests库的7个主要方法，包括request(), get(), head(), post(), put(), patch()和delete()，这些方法对应了HTTP协议中的不同请求类型。其中，get()方法是最常用的方法，用于获取HTML网页的内容。通过requests.get(url, params=None, **kwargs)可以发起一个GET请求，url指定要访问的网页地址，params用于传递URL参数，而**kwargs则包含其他控制参数。 Requests库的get()方法返回一个Response对象，该对象包含了服务器的响应信息。Response对象有多个重要属性，例如status_code表示HTTP请求的返回状态，常见的成功状态码是200；text属性提供HTTP响应内容的字符串形式，即网页的实际内容；encoding属性是根据HTTP header猜测的响应内容编码方式，而apparent_encoding则是根据实际内容分析出的编码方式。需要注意的是，如果header中未指定charset，Requests库会默认编码为ISO-8859-1。在进行网络爬虫开发时，了解一个通用的代码框架是必要的。通常，一个基本的爬虫代码会包括发起请求、处理响应和异常处理等步骤。例如，当尝试获取网页时可能会遇到网络连接错误，这时需要捕获requests.ConnectionError这样的异常。此外，对于网页内容的解析，可能需要结合BeautifulSoup或正则表达式等工具来完成。网络爬虫的规模可以从小到大，从简单的单页面抓取到复杂的多层级遍历。在实际应用中，可能会涉及到向搜索引擎如百度提交搜索请求，以及爬取和存储网络图片等问题。对于网络图片的爬取，需要考虑如何正确下载并保存，同时要遵循网站的robots.txt规则和版权法规，确保合法且道德地进行爬取活动。在学习网络爬虫的过程中，除了掌握Requests库的使用，还需要理解HTML基础知识，熟悉HTTP协议，以及了解网络爬虫可能遇到的反爬策略和相应的应对方法。Python的网络爬虫涉及的知识点广泛，包括网络编程、数据解析、存储以及相关的法律法规等，是一个深入且有趣的领域。

第一周：网路爬虫之规则

单元 1：Requests 库入门

1.Requests 库综述

表 1.1 Requests 库的 7 个主要方法

方法

说明

request() 构造一个请求，支撑以下各方法的基础方法

get() 获取 HTML 网页的主要方法，对应于 HTTP 的 GET

head() 获取 HTML 网页头的主要方法，对应于 HTTP 的 HEAD

post() 向 HTML 网页提交 POST 请求的方法，对应于 HTTP 的 POST

put() 向 HTML 网页提交 PUT 请求的方法，对应于 HTTP 的 PUT

patch() 向 HTML 网页提交局部修改请求，对应于 HTTP 的 PATCH

delete() 向 HTML 页面提交删除请求，对应于 HTTP 的 DELETE

2.Requests 库的 get()方法

最简单的获取网址的方式是：

r= requests.get("http://www.yushuai.me")

这之中，requests 是构造了一个向服务器请求资源的 Request 对象，r 是返回一个包含

服务器资源的 Response 对象。get 完全的使用方法是：

requests.get(url,params=None,**kwargs)

其中，url 是拟获取页面的 url 链接；params 是 url 中的额外参数，字典或字节流格式，

可选；**kwargs 是 13 个控制参数。

表 1.2 Response 对象的属性

方法说明

r.status_code HTTP 请求的返回状态。200 表示连接成功，404 表示失败。

r.text HTTP 响应内容的字符串形式，即 url 对应的页面内容

r.encoding

从 HTTP header 中猜测的响应内容编码方式

r.apparent_encoding 从内容中分析出的响应内容编码方式（备用编码方式）

r.content HTTP 响应内容的二进制形式

注意：

r.encoding：如果 header 中不存在 charset，则认为编码为 ISO-8859-1，所以 header 中编

码不一定正确。

r.apparent_encoding：根据网页内容分析出的编码方式。

2.爬取网页的通用代码框架

表 1.3 Requests 库的异常

异常说明

requests.ConnectionError 网络连接错误异常，如 DNS 查询失败、拒绝连接等

requests.HTTPError HTTP 错误异常

requests.URLRequired URL 缺失异常

requests.TooManyRedirects 超过最大重定向次数，产生重定向异常

下载后可阅读完整内容，剩余4页未读，立即下载

Friday永不为奴

粉丝: 20
资源: 317

Requests库入门与网络爬虫基础

第二讲整理1

第一讲基因工程整理.ppt

第三讲整理1

第四讲整理1

1第一讲汽车制动系统设计与匹配[整理].pdf

第一讲软件工程概述(2021整理).docx

(整理）报关资格考试冲刺第一讲.docx

2022高考二轮复习数学 第1讲 新高考新题型 .pdf打包整理.zip

05第十一讲正态分布PDF文档整理.zip

第一个讲了大机以及Z/OS概述，第二个讲了GDG，以及JCL,第三个跟第四个讲了PL/I，第五个讲COBOL，第三部分PL/I.学费180,000.本人精心整理

最新资源

2022高考二轮复习数学第1讲新高考新题型 .pdf打包整理.zip