使用scrapy模拟登陆大众点评网

A：使用scrapy模拟登陆大众点评网的步骤如下： 1. 在settings.py中添加COOKIES_ENABLED=True，开启cookies支持； 2. 在spider中编写start_requests方法，发送GET请求到大众点评的登录页面，获取登录页面的cookie； 3. 编写parse方法，解析登录页面的源代码，提取出登录时需要的参数、加密token等信息； 4. 编写一个登录方法，使用加密token和传递用户名和密码设置POST请求，将用户凭证提交到登录页面； 5. 再次编写parse方法，使用selenium打开登录页面，成功登录后，提取响应页面的cookie； 6. 在后续的请求中使用该cookie，以保持用户的登录状态。具体实现代码如下： ```python import scrapy from scrapy.http import FormRequest from selenium import webdriver class DianPing(scrapy.Spider): name = 'dianping' allowed_domains = ['www.dianping.com'] start_urls = ['https://account.dianping.com/login'] def start_requests(self): yield scrapy.Request(url=self.start_urls[0], callback=self.parse, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}, }, 'selenium': True }) def parse(self, response): # 获取cookie cookie = response.headers.getlist('Set-Cookie') cookie = [c.decode('utf-8').split(';')[0] for c in cookie] cookie = '; '.join(cookie) # 获取加密token token = response.css('input[name="token"]::attr(value)').extract_first() # 提交登录请求 yield FormRequest.from_response(response, formdata={ 'account': 'your_username', 'password': 'your_password', 'token': token, 'redir': 'https://www.dianping.com', 'rememberMe': 'true', }, headers={ 'Cookie': cookie, }, callback=self.after_login, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}, }, 'selenium': True }) def after_login(self, response): # 使用selenium打开登录页面，获取cookie if '登录' not in response.body.decode('utf-8'): driver = response.meta['driver'] driver.get(response.url) cookies = driver.get_cookies() cookie_dict = {} for cookie in cookies: cookie_dict[cookie['name']] = cookie['value'] yield scrapy.Request( url='https://www.dianping.com/', cookies=cookie_dict, callback=self.parse_homepage, meta={ 'splash': { 'endpoint': 'render.html', 'args': {'wait': 0.5}, } } ) def parse_homepage(self, response): print(response.body) ``` 上述代码中，我们通过在start_requests的meta中添加了splash和selenium参数，使得start_requests方法使用splash和selenium的渲染能力来处理请求。在parse方法中，我们获取了登录页面的cookie和加密token，并设置了POST请求，将用户凭证提交到登录页面。在after_login方法中，我们使用selenium打开登录页面，并在parse_homepage方法中解析响应页面的源代码。最后，在后续的请求中使用获取到的cookie即可保持用户的登录状态。

阅读全文

使用scrapy模拟登陆大众点评网

相关推荐

Python爬虫之模拟登陆

模拟网站登录

dianping:scrapy抓取数据存储至本地mysql数据库-大众点评爬虫

基于 Scrapy 框架的大众点评爬虫

scrapy模拟淘宝登陆.zip

Scrapy框架实现大众点评数据爬取与反爬技术详解

Python爬虫技术：使用Scrapy抓取大众点评数据

Scrapy模拟登录赶集网的实现代码

scrapy框架模拟登陆人人网带状态维持

Scrapy-Test-Scraping：此项目使用Scrapy从模拟抓取网站抓取数据

zhihu_login:Scrapy 模拟登录新版知乎

scrapy模拟知乎登录并获取知乎用户的信息

使用scrapy爬取链家网数据.zip

BlackWidow:使用 Scrapy 的网络爬虫

scrapy-api:使用scrapy创建api

使用Scrapy爬取动态数据

amazon_scrapy：使用scrapy获取亚马逊数据。 我们可以在数据科学中使用scrapy。 在此过程中，我们可以存储数据，并且可以分析数据以执行某些操作

python爬虫使用scrapy注意事项

Python使用Scrapy爬取妹子图

使用Scrapy框架进行模拟图书网站的数据抓取实践

大家在看

MTK_Camera_HAL3架构.doc

plink的GWAS数据处理作业流程.docx

清华virtuoso简明教程

如何使用matlab中的ode45函数进行仿真，详细讲解

西安石油大学2019-2023 计算机考研808数据结构真题卷

最新推荐

python爬虫框架scrapy实战之爬取京东商城进阶篇

结合scrapy和selenium爬推特的爬虫总结

Pycharm+Scrapy安装并且初始化项目的方法

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

opencv的demo程序

amazon_scrapy：使用scrapy获取亚马逊数据。我们可以在数据科学中使用scrapy。在此过程中，我们可以存储数据，并且可以分析数据以执行某些操作