Python3 Requests高级用法：文件上传与Cookies管理

python3网络爬虫

requests用法

198 浏览量更新于2024-09-02 收藏 359KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

在Python3网络爬虫中，Requests库是一个强大的工具，用于发送HTTP请求并处理响应。本节将深入探讨Requests的一些高级特性，包括文件上传和Cookies的设置，以帮助开发者更高效地进行网络数据抓取。首先，让我们来看文件上传功能。Requests库内置了方便的文件上传功能，这对于需要处理表单数据，特别是包含文件上传的网站时尤为实用。通过`requests.post()`方法配合`files`参数，可以实现数据的提交。以下是一个示例： ```python import requests # 打开本地文件 files = {'file': open('favicon.ico', 'rb')} # 发送POST请求到http://httpbin.org/post，并附带文件数据 response = requests.post('http://httpbin.org/post', files=files) # 输出服务器返回的文本内容 print(response.text) 在这个例子中，我们首先创建一个包含文件对象的字典，然后将其作为参数传递给`requests.post()`. 请求成功后，返回的`response`对象包含了服务器对文件上传的处理结果，可以看到`data`字段为空，`files`字段包含了上传文件的信息。其次，Cookies的管理也是网络爬虫中常见的需求。在使用Urllib时，管理Cookies的代码相对繁琐，而在Requests中，操作则更加简洁。你可以使用`cookies`参数来设置或更新Cookie，示例如下： ```python import requests # 假设你有一组Cookie cookies = { 'cookie_name1': 'cookie_value1', 'cookie_name2': 'cookie_value2' } # 使用Requests发送请求，并设置Cookie response = requests.get('http://example.com', cookies=cookies) # 获取响应头中的所有Cookie print(response.cookies) Requests库自动处理了Cookie的持久性和会话管理，使得爬虫在处理多个请求时保持状态一致性，提高了效率。总结来说，Requests库的高级用法涵盖了文件上传和Cookie管理等实用功能，极大地简化了网络爬虫的工作流程。理解并熟练运用这些技巧，能够帮助你编写出更强大、更高效的网络爬虫脚本。在实际应用中，根据具体需求灵活结合使用，是提高网络数据抓取能力的关键。

资源详情

资源推荐

Python3网络爬虫中的网络爬虫中的requests高级用法详解高级用法详解

本节我们再来了解下 Requests 的一些高级用法，如文件上传，代理设置，Cookies 设置等等。感兴趣的朋友跟随小编一起看看吧

本节我们再来了解下 Requests 的一些高级用法，如文件上传，代理设置，Cookies 设置等等。

1. 文件上传文件上传

我们知道 Reqeuests 可以模拟提交一些数据，假如有的网站需要我们上传文件，我们同样可以利用它来上传，实现非常简单，实例如下：

import requests

files = {'file': open('favicon.ico', 'rb')}

r = requests.post('http://httpbin.org/post', files=files)

print(r.text)

在上面一节中我们下载保存了一个文件叫做 favicon.ico，这次我们用它为例来模拟文件上传的过程。需要注意的是，favicon.ico 这个文件需要和当前脚本在同一目录下。如果有其它文件，当然也可以使

用其它文件来上传，更改下名称即可。

运行结果如下：

{

"args": {},

"data": "",

"files": {

"file": "data:application/octet-stream;base64,AAAAAA...="

"form": {},

"headers": {

"Accept": "*/*",

"Accept-Encoding": "gzip, deflate",

"Content-Length": "6665",

"Content-Type": "multipart/form-data; boundary=809f80b1a2974132b133ade1a8e8e058",

"Host": "httpbin.org",

"User-Agent": "python-requests/2.10.0"

"json": null,

"origin": "60.207.237.16",

"url": "http://httpbin.org/post"

}

以上部分内容省略，这个网站会返回一个 Response，里面包含 files 这个字段，而 form 是空的，这证明文件上传部分会单独有一个 files 字段来标识。

2. Cookies

在前面我们使用了 Urllib 处理过 Cookies，写法比较复杂，而有了 Requests，获取和设置 Cookies 只需要一步即可完成。

我们先用一个实例感受一下获取 Cookies 的过程：

import requests

r = requests.get('https://www.baidu.com')

print(r.cookies)

for key, value in r.cookies.items():

print(key + '=' + value)

运行结果如下：

‘'‘

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

BDORZ=27315

'‘'

首先我们调用了 cookies 属性即可成功得到了 Cookies，可以发现它是一个 RequestCookieJar 类型，然后我们用 items() 方法将其转化为元组组成的列表，遍历输出每一个 Cookie 的名和值，实现

Cookies 的遍历解析。

当然，我们也可以直接用 Cookies 来维持登录状态。

比如我们以知乎为例，直接利用 Cookies 来维持登录状态。

首先登录知乎，将 Headers 中的 Cookies 复制下来，如图 3-6 所示：

图 3-6 Cookies

这里可以替换成你自己的 Cookies，将其设置到 Headers 里面，发送 Request，示例如下：

import requests

headers = {

'Cookie': 'q_c1=31653b264a074fc9a57816d1ea93ed8b|1474273938000|1474273938000; d_c0="AGDAs254kAqPTr6NW1U3XTLFzKhMPQ6H_nc=|1474273938"; __utmv=51854390.100-1|2=registration_date=20130902=1^3=entry_date=20130902=1;a_t="2.0AACAfbwdAAAXAAAAso0QWAAAgH28HQAAAGDAs254kAoXAAAAYQJVTQ4FCVgA360us8BAklzLYNEHUd6kmHtRQX5a6hiZxKCynnycerLQ3gIkoJLOCQ==";z_c0=Mi4wQUFDQWZid2RBQUFBWU1DemJuaVFDaGNBQUFCaEFsVk5EZ1VKV0FEZnJTNnp3RUNTWE10ZzBRZFIzcVNZZTFGQmZn|1474887858|64b4d4234a21de774c42c837fe0b672fdb5763b0',

'Host': 'www.zhihu.com',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',

}

r = requests.get('https://www.zhihu.com', headers=headers)

print(r.text)

发现结果中包含了登录后的结果，如图 3-7 所示：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38640443

粉丝: 10
资源: 886

Python3 Requests高级用法：文件上传与Cookies管理

用Python写网络爬虫PDF&源码.rar

Python3网络爬虫案例实战课程 视频+文档+源码

基于Python的网络爬虫的设计与实现测试

python爬取微博评论_详解用python写网络爬虫-爬取新浪微博评论

python爬虫详解

python table数据抓取_Python爬虫：数据抓取工具及类库详解

python中requests库session对象的妙用详解

爬虫python详解

requests爬虫

python爬虫豆瓣top250

python爬虫淘宝

Python request

python selenium使用教程

访问微博热搜榜（https://s.weibo.com/top/summary），获取微博热搜榜前50条热搜名称、链接及其实时热度，并将获取到的数据通过邮件的形式，每20秒发送一次到个人邮箱中。

beautifulsoup爬虫案例

xpath python

pycharm中bs4方法

fiddler抓包公众号

js 遍历数组生产对象

5253-微信小程序基于springboot汽车维修管理系统微信小程序springboot（源码+数据库+lun文）.zip

最新资源

Python3网络爬虫案例实战课程视频+文档+源码