Python爬虫基础：urllib模块全面解析与实例

114 浏览量更新于2024-08-30 收藏 98KB PDF 举报

本文档详细介绍了Python爬虫开发中urllib模块的使用方法和实例，对于理解和掌握爬虫基础至关重要。urllib是Python的标准库，包含在所有Python版本中，无需额外安装。它提供了丰富的功能，支持网页请求、URL解析、代理设置、cookie管理和异常处理，以及对robots.txt文件的解析。在Python 2.x中，urllib的主要组件包括： - `urllib2`: 提供了基本的HTTP请求功能，如`urllib2.urlopen()`函数，用于发送GET或POST请求，并接收服务器响应。其参数包括URL、可选的数据（POST时使用）和超时时间。 - `cookielib`: 包含CookieJar类，用于管理HTTP cookies，这是处理网站登录状态的重要工具。 - `urllib2.Request`: 用于构建HTTP请求对象，允许设置请求头、方法等。在Python 3.x中，这些组件演变为： - `urllib.request`: 包含`urllib.request.urlopen()`函数，取代了`urllib2.urlopen()`，并增加了更多的功能和参数选项。 - `http.cookiejar`: `cookielib`的替代品，提供更现代的Cookie管理。 - `urllib.parse`: 包含URL解析相关的模块，如`urlencode()`用于编码查询字符串，`quote()`用于URL编码。此外，urllib还提供异常处理模块`urllib.error`，帮助开发者捕获和处理网络请求过程中可能出现的错误。而`urllib.robotparser`则用于解析和检查robots.txt文件，遵循网站的爬取规则。通过学习和实践urllib模块，开发者能够实现基础的网络爬虫功能，并为进一步使用像requests这样的高级库打下坚实的基础。理解这些核心概念后，可以根据实际项目需求，灵活运用urllib的各个部分，实现高效、稳定的网络数据抓取。

python爬虫开发之爬虫开发之urllib模块详细使用方法与实例全解模块详细使用方法与实例全解

爬虫所需要的功能，基本上在urllib中都能找到，学习这个标准库，可以更加深入的理解后面更加便利的requests库。

首先

在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error

在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse

在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse

在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen

在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode

在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote

在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar

在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request

urllib是Python自带的标准库，无需安装，直接可以用。

urllib模块提供了如下功能：

网页请求(urllib.request)

URL解析(urllib.parse)

代理和cookie设置

异常处理(urllib.error)

robots.txt解析模块(urllib.robotparser)

urllib包中urllib.request模块

1、urllib.request.urlopen

urlopen一般常用的有三个参数，它的参数如下：

r = urllib.requeset.urlopen(url,data,timeout)

url：链接格式：协议://主机名:[端口]/路径

data：附加参数必须是字节流编码格式的内容(bytes类型)，可通过bytes()函数转化，如果要传递这个参数，请求方式就不再

是GET方式请求，而是POST方式

timeout: 超时单位为秒

get请求

import urllib

r = urllib.urlopen('//www.jb51.net/')

datatLine = r.readline() #读取html页面的第一行

data=file.read() #读取全部

f=open("./1.html","wb") # 网页保存在本地

f.write(data)

f.close()

rlopen返回对象提供方法：

read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样 info()：返回一个

httplib.HTTPMessage对象，表示远程服务器返回的头信息 getcode()：返回Http状态码。如果是http请求，200请求成功完

成;404网址未找到 geturl()：返回请求的url

urllib.quote(url)和urllib.quote_plus(url)，对关键字进行编码可使得urlopen能够识别

POST请求

import urllib.request

import urllib.parse

url = 'https://passport.jb51.net/user/signin?'

post = {

'username': 'xxx',

'password': 'xxxx'

}

postdata = urllib.parse.urlencode(post).encode('utf-8')

req = urllib.request.Request(url, postdata)

r = urllib.request.urlopen(req)

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38569722

粉丝: 1
资源: 924

Python爬虫基础：urllib模块全面解析与实例

urllib爬取网页.py

python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

使用Python的urllib和urllib2模块制作爬虫的实例教程

Python爬虫实例-urllib-request-parse等包的学习实例

python爬虫之urllib库常用方法用法总结大全

python爬虫 urllib模块url编码处理详解

Python3.x urllib模块详解：爬虫基础与实例

Python爬虫实战：urllib+urllib2+cookielib模块解析

Python爬虫入门：urllib库详解与urlopen使用

Python爬虫：urllib、urllib2与Scrapy框架详解

最新资源