Python爬虫入门：详解urllib基础用法

184 浏览量更新于2024-09-01 收藏 81KB PDF 举报

"Python爬虫之urllib基础用法教程，主要介绍了Python内置的HTTP请求库urllib，包括其四个模块：request、error、parse和robotparser。本教程重点关注urllib.request，特别是urlopen()函数的使用，涵盖了GET请求的实现。" 在Python中，`urllib`库是一个强大的工具，用于处理URL相关的任务。这个库是标准库的一部分，无需额外安装即可直接使用。在Python 3.x版本中，`urllib`被拆分为几个子模块，包括`request`、`error`、`parse`和`robotparser`。 `urllib.request`是`urllib`库中最核心的部分，它提供了发送HTTP请求的功能。`urlopen()`是`urllib.request`中的一个关键函数，可以用来模拟浏览器发送请求到服务器并获取响应。 `urlopen()`函数有多个参数，其中最常见的包括： 1. `url`: 必需参数，表示要访问的URL地址。 2. `data`: 如果设置此参数，请求将变为POST请求。通常，`data`是一个字节串或字典，字典会被转化为`application/x-www-form-urlencoded`格式的字节串。 3. `timeout`: 设置请求超时的时间，单位为秒。如果不设置，默认值可能会因平台和环境而异。 4. `context`: 用于SSL/TLS连接的上下文对象，可以用于忽略未认证的CA证书。以GET请求为例，可以这样使用`urlopen()`： ```python import urllib.request url = "http://www.baidu.com" response = urllib.request.urlopen(url=url) print(type(response)) # 类文件对象 html = response.read() # 读取整个响应内容 # html = response.readline() # 读取一行 # html = response.readlines() # 读取多行，返回列表 ``` 在这里，`urlopen(url=url)`会发送一个GET请求到指定的URL，返回一个响应对象`response`。`response`是一个类文件对象，可以像处理文件一样调用`read()`、`readline()`或`readlines()`等方法来获取服务器返回的数据。 `urllib.error`模块则用于处理请求过程中可能出现的异常，例如网络连接问题、超时或HTTP错误码。通过捕获这些异常，我们可以编写更健壮的爬虫代码，确保在出现问题时能够优雅地处理错误。 `urllib.parse`模块提供了解析和构建URL的功能，如拆分URL成各个组成部分，解析查询字符串，以及合并URL等。这对于处理复杂的URL和构建请求参数非常有用。最后，`urllib.robotparser`模块允许解析和理解网站的`robots.txt`文件，该文件定义了搜索引擎爬虫哪些页面可以抓取，哪些禁止抓取。虽然在实际爬虫开发中不常用，但遵守`robots.txt`协议是良好的网络公民行为。 `urllib`库为Python爬虫提供了基础的网络请求功能，是入门Python爬虫必备的工具之一。通过理解和掌握`urllib`，开发者可以开始构建简单的网络爬虫，进一步深入学习则可以结合其他库如`BeautifulSoup`和`requests`，提升爬虫的效率和复杂度。

Python爬虫之爬虫之urllib基础用法教程基础用法教程

主要为大家详细介绍了Python爬虫1.1 urllib基础用法教程，用于对Python爬虫技术进行系列文档讲解,具有一定

的参考价值，感兴趣的小伙伴们可以参考一下

综述综述

本系列文档用于对Python爬虫技术进行简单的教程讲解，巩固自己技术知识的同时，万一一不小心又正好对你有用那就更好

了。

Python 版本是3.7.4

urllib库介绍库介绍

它是 Python 内置的HTTP请求库，也就是说我们不需要额外安装即可使用，它包含四个模块(主要对前三个模块进行学习)：

request : 它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一

样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。

error : 异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。

parse : 用于解析URL，提供了许多URL处理方法，比如拆分、解析、合并等等的方法，以及对参数的拼接等待。

robotparser : 主要是用来识别网站的robots.txt协议文件，然后判断网站的那些数据可以爬，哪些数据不可以爬的，其实

用的比较少。

urllib.request 介绍介绍

urlopen()

1.参数说明(仅写了四个最常用的参数)

url : 爬取目标的URL；

data : 请求参数，如果设置该参数，则请求默认为post请求；没有默认为get请求；

timeout : 用于设置超时时间，单位为秒；

context : 必须是一个ssl.SSLContext类型,用来指定SSL设置,忽略未认证的CA证书;

2.具体用法

GET 请求方式

# 导入urllib库

import urllib.request

# 向指定的url发送请求，并返回服务器响应的类文件对象

url = "http://www.baidu.com"

response = urllib.request.urlopen(url=url)

print(type(response))

# 类文件对象支持文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

html = response.read()

# html = response.readline() # 读取一行

# html = response.readlines() # 读取多行，返回列表

# 打印响应结果（byte类型）

print(html)

# 打印响应结果（utf-8类型）

# 二进制和字符串之间的相互转码使用 encode() 和 decode() 函数

# encode() 和 decode() 可带参数，不写默认utf-8，其他不再特别说明

print(html.decode())

# 打印状态码

# print(response.get_code())

print(response.status)

# 获取响应头

print(response.getheaders())

# 获取响应头Server信息

print(response.getheader('Server'))

# 获取响应结果原因

print(response.reason)

POST 请求方式

# 导入urllib库

import urllib.parse

import urllib.request

# 向指定的url发送请求，并返回

post_url = 'https://fanyi.baidu.com/sug'

# 传入参数

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38656741

粉丝: 4
资源: 913

Python爬虫入门：详解urllib基础用法

Python爬虫基础之Urllib库

零基础Python爬虫从入门到精通-视频教程网盘链接提取码下载 .txt

零基础写python爬虫之urllib2使用指南

python爬虫之urllib3的使用示例

Python爬虫入门：Urllib基础教程

python爬虫教程urllib

python爬虫之urllib库常用方法用法总结大全

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

python爬虫之urllib,伪装,超时设置,异常处理的方法

Python爬虫：urllib、urllib2与Scrapy框架详解

最新资源