Python3 Requests库高级应用：文件上传与Cookie管理

179 浏览量更新于2024-08-29 收藏 362KB PDF 举报

在Python3网络爬虫中，Requests库提供了丰富的功能，使得爬取网页数据变得更加高效和灵活。本节将深入探讨两个高级用法：文件上传和Cookie管理。 1. 文件上传 Requests库允许我们模拟HTTP请求时附带文件上传，这对于遇到需要上传文件的网站特别有用。以下是一个示例，展示了如何使用`requests.post`方法上传本地文件，如'favicon.ico'： ```python import requests files = {'file': open('favicon.ico', 'rb')} response = requests.post('http://httpbin.org/post', files=files) print(response.text) ``` 在这个例子中，我们首先打开文件并将其转换为二进制模式（'rb'），然后将其作为字典中的键值对传递给`files`参数。`requests.post`方法会自动处理文件上传，并返回服务器的响应。从返回的`response`对象中，我们可以看到`files`字段包含了上传文件的相关信息。 2. Cookies管理在Urllib库中处理Cookies通常较为繁琐，但在Requests中，Cookie的管理变得简洁易行。获取和设置Cookies只需寥寥几行代码： ```python import requests # 假设已经登录并获取到一个Cookie r = requests.get('https://example.com') cookies = r.cookies # 获取到一个CookieJar对象 # 或者在发送请求时直接设置Cookie headers = {'Cookie': cookies['cookie_name']} response = requests.get('https://example.com', headers=headers) ``` Requests库会自动管理这些Cookie，后续的请求会带上之前设置的Cookie，简化了跨请求保持状态的功能。在实际操作中，可以通过`cookies`属性管理和操作请求中的Cookies。通过理解并掌握这些高级用法，Python3网络爬虫在处理文件上传和Cookie管理时能够更加得心应手，提升爬虫的稳定性和实用性。在实际项目中，结合使用这些技巧，可以更有效地抓取需要登录验证或文件上传功能的网站数据。

Python3网络爬虫中的网络爬虫中的requests高级用法详解高级用法详解

本节我们再来了解下 Requests 的一些高级用法，如文件上传，代理设置，Cookies 设置等等。

1. 文件上传文件上传

我们知道 Reqeuests 可以模拟提交一些数据，假如有的网站需要我们上传文件，我们同样可以利用它来上传，实现非常简单，实例如下：

import requests

files = {'file': open('favicon.ico', 'rb')}

r = requests.post('http://httpbin.org/post', files=files)

print(r.text)

在上面一节中我们下载保存了一个文件叫做 favicon.ico，这次我们用它为例来模拟文件上传的过程。需要注意的是，favicon.ico 这个文件需要和当前脚本在同一目录下。如果有其它文件，当然也可以使

用其它文件来上传，更改下名称即可。

运行结果如下：

{

"args": {},

"data": "",

"files": {

"file": "data:application/octet-stream;base64,AAAAAA...="

"form": {},

"headers": {

"Accept": "*/*",

"Accept-Encoding": "gzip, deflate",

"Content-Length": "6665",

"Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058",

"Host": "httpbin.org",

"User-Agent": "python-requests/2.10.0"

"json": null,

"origin": "60.207.237.16",

"url": "http://httpbin.org/post"

}

以上部分内容省略，这个网站会返回一个 Response，里面包含 files 这个字段，而 form 是空的，这证明文件上传部分会单独有一个 files 字段来标识。

2. Cookies

在前面我们使用了 Urllib 处理过 Cookies，写法比较复杂，而有了 Requests，获取和设置 Cookies 只需要一步即可完成。

我们先用一个实例感受一下获取 Cookies 的过程：

import requests

r = requests.get('https://www.baidu.com')

print(r.cookies)

for key, value in r.cookies.items():

print(key + '=' + value)

运行结果如下：

‘’‘

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

BDORZ=27315

‘‘’

首先我们调用了 cookies 属性即可成功得到了 Cookies，可以发现它是一个 RequestCookieJar 类型，然后我们用 items() 方法将其转化为元组组成的列表，遍历输出每一个 Cookie 的名和值，实现

Cookies 的遍历解析。

当然，我们也可以直接用 Cookies 来维持登录状态。

比如我们以知乎为例，直接利用 Cookies 来维持登录状态。

首先登录知乎，将 Headers 中的 Cookies 复制下来，如图 3-6 所示：

图 3-6 Cookies

这里可以替换成你自己的 Cookies，将其设置到 Headers 里面，发送 Request，示例如下：

import requests

headers = {

'Cookie': 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-

1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0',

'Host': 'www.zhihu.com',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',

}

r = requests.get('https://www.zhihu.com', headers=headers)

print(r.text)

发现结果中包含了登录后的结果，如图 3-7 所示：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38675777

粉丝: 3
资源: 917

Python3 Requests库高级应用：文件上传与Cookie管理

python爬虫详解.pdf

用Python写网络爬虫PDF&源码.rar

python 爬虫请求模块requests详解

python爬虫使用requests发送post请求示例详解

Python爬虫中requests库详解及HTTP基础

Python爬虫实战：requests库详解与高级技巧

Python爬虫入门：Requests库详解

Python爬虫新宠：requests-html详解

Python爬虫基础：Requests库详解与实战

Python爬虫利器：Requests库详解与实战

最新资源