Python爬虫入门：urllib库详解与urlopen使用

70 浏览量更新于2024-08-31 收藏 84KB PDF 举报

"Python爬虫之urllib基础用法教程" 在Python中，`urllib`库是一个非常重要的网络请求工具，尤其对于爬虫开发来说不可或缺。本教程将重点讲解`urllib`库中的`request`模块，以及与之相关的异常处理和URL解析功能。首先，`urllib`库包含了四个主要模块：`request`、`error`、`parse`和`robotparser`。`request`模块提供基础的HTTP请求功能，让我们能够模拟浏览器发送GET或POST请求。`error`模块则用于处理可能出现的请求错误，确保程序在遇到问题时能够优雅地进行错误处理。`parse`模块则帮助我们解析和操作URL，而`robotparser`模块用于解读网站的`robots.txt`文件，了解哪些内容可以爬取，哪些不能。在`urllib.request`中，`urlopen()`函数是核心方法，用于发送HTTP请求。以下是一些关键参数： 1. `url`: 必需参数，表示你要访问的网页URL。 2. `data`: 如果设置了这个参数，通常意味着发送POST请求。如果没有设置，默认是GET请求。 3. `timeout`: 设置请求超时的时间，单位为秒。如果不设置，默认可能无限制，也可能根据系统设定有默认值。 4. `context`: 用于指定SSL/TLS连接的上下文，可以用来处理SSL相关的配置，例如忽略未认证的CA证书。以GET请求为例，下面是一个简单的`urlopen()`使用示例： ```python import urllib.request url = "http://www.baidu.com" response = urllib.request.urlopen(url=url) print(type(response)) # 输出：<class 'http.client.HTTPResponse'> html = response.read() # 读取整个响应内容，返回字节串 # html = response.readline() # 读取一行 # html = response.readlines() # 读取所有行，返回一个包含每一行的列表 # 将字节串解码为字符串 html_str = html.decode('utf-8') print(html_str) ``` 在这个例子中，我们向百度首页发送了一个GET请求，然后获取了服务器返回的HTML内容。`response`对象是一个`HTTPResponse`类的实例，提供了类似于文件对象的方法，如`read()`、`readline()`和`readlines()`。需要注意的是，网络请求返回的数据通常是字节串，因此在处理时可能需要进行编码转换，如使用`decode()`方法将字节串转换为字符串。在实际的爬虫项目中，我们还会遇到各种网络问题，如超时、连接错误等。这时，`error`模块就派上用场了，可以使用`try...except`结构来捕获并处理这些异常，确保爬虫程序的健壮性。 `urllib`库为Python爬虫提供了基础且强大的功能，无论是发送HTTP请求，还是处理请求过程中可能出现的问题，它都提供了相应的工具。通过深入理解并熟练运用这些工具，你可以编写出更加高效、稳定的爬虫程序。

Python爬虫之爬虫之urllib基础用法教程基础用法教程

综述综述

本系列文档用于对Python爬虫技术进行简单的教程讲解，巩固自己技术知识的同时，万一一不小心又正好对你有用那就更好

了。

Python 版本是3.7.4

urllib库介绍库介绍

它是 Python 内置的HTTP请求库，也就是说我们不需要额外安装即可使用，它包含四个模块(主要对前三个模块进行学习)：

request : 它是最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只

需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。

error : 异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作保证程序不会意外终止。

parse : 用于解析URL，提供了许多URL处理方法，比如拆分、解析、合并等等的方法，以及对参数的拼接等待。

robotparser : 主要是用来识别网站的robots.txt协议文件，然后判断网站的那些数据可以爬，哪些数据不可以爬的，其实用的

比较少。

urllib.request 介绍介绍

urlopen()

1.参数说明(仅写了四个最常用的参数)

url : 爬取目标的URL；

data : 请求参数，如果设置该参数，则请求默认为post请求；没有默认为get请求；

timeout : 用于设置超时时间，单位为秒；

context : 必须是一个ssl.SSLContext类型,用来指定SSL设置,忽略未认证的CA证书;

2.具体用法

GET 请求方式

# 导入urllib库

import urllib.request

# 向指定的url发送请求，并返回服务器响应的类文件对象

url = "http://www.baidu.com"

response = urllib.request.urlopen(url=url)

print(type(response))

# 类文件对象支持文件对象的操作方法，如read()方法读取文件全部内容，返回字符串

html = response.read()

# html = response.readline() # 读取一行

# html = response.readlines() # 读取多行，返回列表

# 打印响应结果（byte类型）

print(html)

# 打印响应结果（utf-8类型）

# 二进制和字符串之间的相互转码使用 encode() 和 decode() 函数

# encode() 和 decode() 可带参数，不写默认utf-8，其他不再特别说明

print(html.decode())

# 打印状态码

# print(response.get_code())

print(response.status)

# 获取响应头

print(response.getheaders())

# 获取响应头Server信息

print(response.getheader('Server'))

# 获取响应结果原因

print(response.reason)

POST 请求方式

# 导入urllib库

import urllib.parse

import urllib.request

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38722184

粉丝: 5
资源: 899

Python爬虫入门：urllib库详解与urlopen使用

Python爬虫基础之Urllib库

Python 网络爬虫开发 Python爬虫入门基础教程：Python的urllib2 模块解析 共6页.pptx

零基础写python爬虫之urllib2使用指南

python爬虫之urllib3的使用示例

Python爬虫入门：Urllib基础教程

python爬虫教程urllib

python爬虫之urllib库常用方法用法总结大全

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

python爬虫之urllib,伪装,超时设置,异常处理的方法

Python爬虫：urllib、urllib2与Scrapy框架详解

最新资源

Python 网络爬虫开发 Python爬虫入门基础教程：Python的urllib2 模块解析共6页.pptx