Python3.x中urllib模块详解及爬虫应用

111 浏览量更新于2024-08-29 收藏 104KB PDF 举报

"本文主要介绍了Python爬虫开发中urllib模块的详细使用方法与实例，讲解了Python2.x与Python3.x中urllib库的差异，并涵盖了urllib的主要功能，包括网页请求、URL解析、代理和cookie设置、异常处理以及robots.txt解析。" 在Python的网络编程中，urllib模块是一个基础且重要的工具，尤其对于爬虫开发来说，它提供了丰富的功能来处理HTTP请求和URL管理。在Python2.x中，urllib库被分为几个子模块，如urllib2、urllib、urlparse等，而在Python3.x中，这些子模块被整合到urllib.request、urllib.error和urllib.parse中，使得代码结构更加清晰。 1. urllib.request模块 - `urlopen`函数是urllib.request中的核心，用于打开一个URL并返回一个响应对象。在Python3.x中，`urllib.request.urlopen(url, data=None, timeout=None, *, cafile=None, capath=None, cadefault=False, context=None)`，其中`url`是你要访问的网址，`data`是POST数据，`timeout`是超时时间。 2. urllib.parse模块 - 这个模块主要用于URL的解析和构建。例如，你可以使用`urlparse.urljoin(base_url, url)`来合并两个URL，或者使用`urlparse.urlencode(params)`将字典形式的参数编码成URL字符串。 3. 代理和cookie设置 - 在urllib.request中，你可以通过设置OpenerDirector来使用代理。例如，你可以创建一个ProxyHandler实例并添加到opener中，然后使用opener.open(url)进行请求。对于cookie，可以使用http.cookiejar模块（在Python2.x中是cookielib）来管理，创建CookieJar对象，然后将其添加到opener中。 4. urllib.error模块 - 处理网络请求中可能出现的异常，如HTTPError和URLError。这些异常可以被捕获并处理，提供错误处理的能力。 5. robots.txt解析模块 - `urllib.robotparser`可以帮助开发者遵循网站的robots.txt规则，避免对某些页面的抓取。在Python3.x中，使用urllib库进行网络请求变得更加方便，因为所有的功能都集中在了几个主要模块中。例如，如果你需要发送一个POST请求，可以这样写： ```python import urllib.request data = {'key': 'value'} encoded_data = urllib.parse.urlencode(data).encode() request = urllib.request.Request('http://example.com', encoded_data) response = urllib.request.urlopen(request) print(response.read().decode()) ``` 掌握urllib模块的使用对于Python爬虫开发者来说是必不可少的，它能够帮助我们更有效地获取和处理网络上的数据。不过，对于更高级的用例，如处理复杂的HTTP头、自动重定向或模拟登录，requests库可能会更加方便，但理解urllib的基础能让你更好地理解网络请求的本质。

python爬虫开发之爬虫开发之urllib模块详细使用方法与实例全解模块详细使用方法与实例全解

爬虫所需要的功能，基本上在urllib中都能找到，学习这个标准库，可以更加深入的理解后面更加便利的requests库。

首先

在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error

在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse

在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse

在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen

在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode

在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote

在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar

在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request

urllib是Python自带的标准库，无需安装，直接可以用。

urllib模块提供了如下功能：

网页请求(urllib.request)

URL解析(urllib.parse)

代理和cookie设置

异常处理(urllib.error)

robots.txt解析模块(urllib.robotparser)

urllib包中包中urllib.request模块模块

1、、urllib.request.urlopen

urlopen一般常用的有三个参数，它的参数如下：

r = urllib.requeset.urlopen(url,data,timeout)

url：链接格式：协议://主机名:[端口]/路径

data：附加参数必须是字节流编码格式的内容(bytes类型)，可通过bytes()函数转化，如果要传递这个参数，请求

方式就不再是GET方式请求，而是POST方式

timeout: 超时单位为秒

get请求请求

import urllib

r = urllib.urlopen('//www.jb51.net/')

datatLine = r.readline() #读取html页面的第一行

data=file.read() #读取全部

f=open("./1.html","wb") # 网页保存在本地

f.write(data)

f.close()

urlopen返回对象提供方法：

read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样 info()：返回一个

httplib.HTTPMessage对象，表示远程服务器返回的头信息 getcode()：返回Http状态码。如果是http请求，200请求成功完

成;404网址未找到 geturl()：返回请求的url

urllib.quote(url)和urllib.quote_plus(url)，对关键字进行编码可使得urlopen能够识别

POST请求请求

import urllib.request

import urllib.parse

url = 'https://passport.jb51.net/user/signin?'

post = {

'username': 'xxx',

'password': 'xxxx'

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38567873

粉丝: 5
资源: 887

Python3.x中urllib模块详解及爬虫应用

Python爬虫实例-urllib-request-parse等包的学习实例

python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

使用Python的urllib和urllib2模块制作爬虫的实例教程

python爬虫之urllib库常用方法用法总结大全

python爬虫 urllib模块url编码处理详解

Python爬虫基础：urllib模块全面解析与实例

Python3.x urllib模块详解：爬虫基础与实例

Python爬虫实战：urllib+urllib2+cookielib模块解析

Python爬虫入门：urllib库详解与urlopen使用

Python爬虫：urllib、urllib2与Scrapy框架详解

最新资源