Scrapy中三种设置cookies方法详解与示例 - CSDN文库

scrapy设置cookies

55 浏览量更新于2023-05-11 收藏 46KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

在Scrapy框架中，设置应用cookies是非常关键的，特别是在处理网站登录或需要保持会话状态时。本文将详细介绍三种设置cookies的方法，帮助开发者更好地利用Scrapy进行网络爬取。 1. 通过settings.py文件设置cookies Scrapy的全局设置在`settings.py`文件中进行。默认情况下，`COOKIES_ENABLED`设置为False，意味着Scrapy不会自动处理cookies。若想启用设置中的cookies，需将其设置为True，但这时若还需自定义cookie，需要明确提供。然而，如果仅使用settings中的cookie而设置了`COOKIES_ENABLED`为True，Scrapy会优先关闭settings的cookie，导致请求无cookie，从而可能无法正确访问需要cookies的网站。 2. 通过中间件（Middleware）设置cookies 在Scrapy的中间件中，可以自定义`DownloaderMiddleware`的`process_request`方法来设置cookies。在这里，通过字典形式传递，例如： ```python request.cookies = { 'key1': 'value1', 'key2': 'value2', } ``` 这样做的好处是可以根据具体需求动态添加或修改cookies，使爬虫更具灵活性。 3. 在Spider类中设置cookies 如果想要在每个请求的起始阶段就应用特定的cookies，可以在Spider类的`start_requests`方法中重写`start_requests`方法，并在`scrapy.Request`构造函数中传递cookies。例如： ```python def start_requests(self): headers = { "User-Agent": "Mozilla/5.0(Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0" } cookies = { 'uuid': '66a0f5e7546b4e068497.1542881406.1.0.0', '_lxsdk_cu': '', } yield Request(url, headers=headers, cookies=cookies) ``` 这种方法适合于cookies需要随每个请求变化或需要单独控制的情况。选择哪种方式设置cookies取决于具体项目的需求。了解并灵活运用这些方法能确保Scrapy在处理cookie相关的爬取任务时更加高效和准确。务必记得在实际操作中测试和调整，以确保爬虫能够顺利执行并避免权限问题。

资源详情

资源推荐

scrapy中如何设置应用中如何设置应用cookies的方法的方法(3种种)

主要介绍了scrapy中如何设置应用cookies的方法(3种)，文中通过示例代码介绍的非常详细，对大家的学习或者

工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

本人是python3.6

总的来说，scrapy框架中设置cookie有三种方式。

第一种：第一种：setting文件中设置文件中设置cookie

当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie

当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的cookie

当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉，使用自定义cookie

所以当我使用settings的cookie的时候，又把COOKIES_ENABLED设置为True，scrapy就会把settings的cookie关闭，

而且我也没使用自定义cookie，导致整个请求根本没有cookie,导致获取页面失败。

总结：

如果使用自定义cookie就把COOKIES_ENABLED设置为True

如果使用settings的cookie就把COOKIES_ENABLED设置为False

第二种：第二种：middlewares中设置中设置cookie

在middlewares中的downloadermiddleware中的process_request中配置cookie，配置如下：

request.cookies={

'':'',

'':'',

}

等等。里面的cookie内容要以键值对的形式存在。

第三种：在第三种：在spider爬虫主文件中，重写爬虫主文件中，重写start_request方法，在方法，在scrapy的的Request函数的参数中传递函数的参数中传递cookies

# 重载start_requests方法

def start_requests(self):

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0"}

# 指定cookies

cookies = {

'uuid': '66a0f5e7546b4e068497.1542881406.1.0.0',

'_lxsdk_cuid': '1673ae5bfd3c8-0ab24c91d32ccc8-143d7240-144000-1673ae5bfd4c8',

'__mta': '222746148.1542881402495.1542881402495.1542881402495.1',

'ci': '20',

'rvct': '20%2C92%2C282%2C281%2C1',

'_lx_utm': 'utm_source%3DBaidu%26utm_medium%3Dorganic',

'_lxsdk_s': '1674f401e2a-d02-c7d-438%7C%7C35'}

# 再次请求到详情页，并且声明回调函数callback，dont_filter=True 不进行域名过滤，meta给回调函数传递数据

yield Request(detailUrl, headers=headers, cookies=cookies, callback=self.detail_parse, meta={'myItem': item}, dont_filter=True)

同时还要在setting中设置：

ROBOTSTXT_OBEY=False

到此这篇关于scrapy中如何设置应用cookies的方法(3种)的文章就介绍到这了,更多相关scrapy设置cookies内容请搜索我们以

前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余0页未读，立即下载

weixin_38704922

粉丝: 6
资源: 919

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈