Python爬虫入门：Requests库详解

108 浏览量更新于2024-08-30 收藏 133KB PDF 举报

"Python爬虫基础入门" 在Python中，网络爬虫是获取并处理网络数据的重要工具，而Requests库则是Python中最常用的HTTP客户端库。它提供了简单易用的API，使得开发者可以方便地发送各种HTTP请求。本篇将详细介绍Requests库的七个主要方法及其在爬虫中的应用。 1. requests.request() `requests.request()` 是所有其他HTTP方法的基础，它允许我们构造一个自定义的HTTP请求，支持GET、POST、PUT等多种HTTP方法。 2. requests.get() `requests.get()` 是最常用的方法，用于获取HTML网页的内容。通过指定URL，我们可以获取网页的HTML源代码。例如： ```python r = requests.get('http://example.com') ``` `requests.get()` 还可以接受参数`params`，用于添加URL查询参数，并可以通过其他关键字参数如`headers`、`cookies`等来定制请求。 3. requests.head() `requests.head()` 方法只获取HTML网页的头部信息，不返回页面内容，常用于验证链接有效性或获取元数据。 4. requests.post() `requests.post()` 用于发送带有数据的请求，通常用于表单提交或者API调用。例如： ```python data = {'key': 'value'} r = requests.post('http://example.com/submit', data=data) ``` 5. requests.put() `requests.put()` 方法用于向服务器上传资源，常用于更新已有资源。 6. requests.patch() `requests.patch()` 方法用于向服务器发送部分更新资源的请求。 7. requests.delete() `requests.delete()` 用于删除指定URL的资源，对应HTTP的DELETE方法。在使用Requests库时，我们经常会遇到Response对象。这个对象包含了服务器的响应信息，例如： - `r.status_code`：HTTP状态码，200表示成功，404表示找不到资源等。 - `r.text`：响应内容的字符串形式，通常是HTML或JSON格式。 - `r.encoding`：响应内容的字符编码，通常从HTTP头中获取。 - `r.apparent_encoding`：根据内容分析出的编码方式，当`r.encoding`无法解码时可用。 - `r.content`：响应内容的二进制形式。在处理网络请求时，可能会遇到各种异常，Requests库为此提供了一些内置异常处理，如： - `requests.ConnectionError`：当网络连接出现问题时抛出，如DNS解析失败或被拒绝连接。 - `requests.HTTPError`：HTTP请求错误，如非200状态码。 - `requests.TooManyRedirects`：重定向次数超过设定值时抛出。 - `requests.ConnectTimeout`：连接超时异常。在编写爬虫时，我们需要正确处理这些异常，确保程序的健壮性。同时，为了更高效和合法地爬取数据，还需要了解和遵守网站的robots.txt规则，以及适当设置请求间隔，防止被服务器封禁。对于HTML内容的解析，可以结合BeautifulSoup或lxml等库进行，便于提取所需信息。 Python的Requests库为网络爬虫提供了强大的功能，无论是简单的网页抓取还是复杂的API交互，都能轻松应对。通过学习和熟练掌握这些基础知识，你就能构建自己的网络爬虫，获取并处理互联网上的各种数据。

data

','html.parser') # 第一个参数为html文本内容，对html标签进行解析

2.Beautiful Soup库理解库理解

Beautiful Soup库,也叫做 beautifulsoup4或bs4, 是解析、变量、维护”标签树“的功能库。只要提供的文件是标签类型，Beautiful Soup库

都可以用来解析。

因为文档和标签树是一一对应的，标签树经过Beautiful Soup，转换为Beautiful Soup类型。故，文档和标签树以及Beautiful Soup是一

一对应关系。

from bs4 import BeautifulSoup

soup = BeautifulSoup('

data

','html.parser')

soup2 = BeautifulSoup(open("D://demo.html",'html.parser')

Beautiful Soup对应一个HTML/XML文档的全部内容。

3.Beautiful Soup库解析器库解析器

解析器解析器使用方法使用方法条件条件

bs的HTML解析器 BeautifulSoup(mk,‘html.parser’) 安装bs4库

lxml的HTML解析器 BeautifulSoup(mk,‘lxml’) pip install lxml

lxml的XML解析器 BeautifulSoup(mk,‘xml’) pip install lxml

html5lib的解析器 BeautifulSoup(mk,‘htlm5lib’)

pip install

html5lib

4.Beautiful Soup类的基本元素类的基本元素

基本元素基本元素说明说明

Tag 标签，最基本的信息组织单元，分别用和表面开头和结尾

Name

标签的名称，

…

的名字是’p’，格式：.name

Attributes 标签的属性，字典形式组织，格式：.attrs

NavigableString 标签内非属性字符串，…中字符串，格式：.string

Comment 标签内字符串的注释部分，一种特殊的Comment类型

import requests

r = requests.get('http://python123.io/ws/demo.html')

demo = r.text # demo为标签文本

'\r\n\r\n

The demo python introduces several python courses.

\r\n

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by

tracking the following courses:\r\nBasic Python and Advanced Python.

\r\n'

# 利用BeautifulSoup 解析成标签树

from bs4 import BeautifulSoup

soup = BeautifulSoup(demo,'html.parser')

soup

>[out]:

The demo python introduces several python courses.

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by

tracking the following courses:

Basic Python and Advanced Python.

剩余11页未读，继续阅读

weixin_38684892

粉丝: 10
资源: 936

Python爬虫入门：Requests库详解

python基础教程head-Python爬虫基础入门，这是我看到最简单易懂的教程.pdf

python爬虫从入门到精通（模块）

"玩转Python爬虫——入门与实践"课程源码

python爬虫基础入门

python爬虫基础入门 — python爬虫requests库使用操作全解

CSDN认证：Python爬虫基础入门与常用工具详解

Python爬虫基础入门与QQ音乐数据抓取

Python爬虫基础入门：使用BeautifulSoup解析HTML页面

Python爬虫基础入门：如何使用Requests库抓取网页数据

python爬虫 python 入门 python100道题

最新资源