Scrapy实战：使用Selenium获取社区用户Cookie

151 浏览量更新于2024-08-30 收藏 94KB PDF 举报

本文将深入探讨Scrapy项目实战中的一个具体案例，即如何爬取某社区（这里假设是SegmentFault）的用户详情。作者首先介绍了使用Scrapy进行网络爬虫时，如何通过Selenium库结合ChromeDriver实现模拟登录，并利用Cookies来存储和管理用户的会话信息。以下将详细解析关键代码段和步骤： 1. **引入所需的库和模块**: - `selenium`：用于浏览器自动化，特别是ChromeDriver，用于控制Chrome浏览器。 - `pymongo`：MongoDB的Python驱动，用于存储爬取到的数据。 - `scrapy.crawler.overridden_settings`：允许在Scrapy项目中覆盖默认设置。 - `settings.py`：包含项目配置，如数据库连接字符串（MONGO_URI）和数据库名（MONGO_DB）。 2. **GetCookies类的定义**: - `GetCookies`类是实现爬虫的核心部分，负责获取Cookies。 - 在类初始化方法`__init__`中，初始化了几个关键组件： - `webdriver.ChromeOptions()`：创建Chrome浏览器的配置对象，可选择性地启用无头模式（通过`add_argument("--headless")`），但在这里未提及是否开启。 - `USER_LIST`：存储要爬取的用户名列表，这通常是批量爬虫的预设目标。 - `MongoDB`连接：设置MongoDB的客户端和数据库连接，cookies将被存储在这个集合中。 3. **get_cookies方法**: - 这个方法接收两个参数：`username`和`password`，分别代表用户账户的用户名和密码。 - 使用`webdriver.Chrome`创建一个新的浏览器实例，指定执行路径和配置选项。 - 打开SegmentFault的登录页面，然后填充用户名和密码字段。 - 点击登录按钮，模拟用户登录过程。登录后，网页通常会自动设置Cookies，这些信息对后续的用户详情爬取至关重要。 - 方法返回的是获取到的Cookies数据。 4. **整体流程**: - 该Scrapy项目旨在批量登录多个用户，获取其Cookie信息并存储到MongoDB中。后续的用户详情爬取可能依赖于这些Cookies，使得请求能够保持登录状态，避免频繁的验证码或权限验证问题。 - 为了提高效率，可能还会涉及多线程或异步处理，根据实际需求和Scrapy框架的特性来实现。通过这个实践，读者可以学习到如何将Scrapy与Selenium结合起来，实现动态网站的登录和数据抓取，同时掌握如何有效地管理和存储Cookies以支持后续的自动化访问。对于Scrapy初学者或希望扩展Scrapy应用范围的开发者来说，这是一个实用且有价值的技术分享。

Scrapy项目实战之爬取某社区用户详情项目实战之爬取某社区用户详情

本文介绍了Scrapy项目实战之爬取某社区用户详情，分享给大家，具有如下：

get_cookies.py

from selenium import webdriver

from pymongo import MongoClient

from scrapy.crawler import overridden_settings

# from segmentfault import settings

import time

import settings

class GetCookies(object):

def __init__(self):

# 初始化组件

# 设定webdriver选项

self.opt = webdriver.ChromeOptions()

# self.opt.add_argument("--headless")

# 初始化用户列表

self.user_list = settings.USER_LIST

# 初始化MongoDB参数

self.client = MongoClient(settings.MONGO_URI)

self.db = self.client[settings.MONGO_DB] self.collection = self.db["cookies"]

def get_cookies(self,username,password):

"""

:param username:

:param password:

:return: cookies

"""

# 使用webdriver选项创建driver

driver =

webdriver.Chrome(executable_path="/Users/Hank/scrapy/segmentfault/segmentfault/chromedriver",options=self.opt)

driver.get("https://segmentfault.com/user/login")

driver.find_element_by_name("username").send_keys(username)

driver.find_element_by_name("password").send_keys(password)

driver.find_element_by_xpath("//button[@type='submit']").click()

time.sleep(2)

driver.get("https://segmentfault.com/u/luwangmeilun/users/following")

# 登陆之后获取页面cookies

cookies = driver.get_cookies()

driver.quit()

return cookies

def format_cookies(self,cookies):

"""

:param cookies:

从driver.get_cookies的形式为：

[{'domain': 'segmentfault.com', 'httpOnly': False, 'name': 'PHPSESSID',

'path': '/', 'secure': False, 'value': 'web2~5grmfa89j12eksub8hja3bvaq4'},

{'domain': '.segmentfault.com', 'expiry': 1581602940, 'httpOnly': False,

'name': 'Hm_lvt_e23800c454aa573c0ccb16b52665ac26', 'path': '/', 'secure': False,

'value': '1550066940'},

{'domain': '.segmentfault.com', 'httpOnly': False,

'name': 'Hm_lpvt_e23800c454aa573c0ccb16b52665ac26',

'path': '/', 'secure': False, 'value': '1550066940'},

{'domain': '.segmentfault.com', 'expiry': 1550067000, 'httpOnly': False,

'name': '_gat', 'path': '/', 'secure': False, 'value': '1'},

{'domain': '.segmentfault.com', 'expiry': 1550153340, 'httpOnly': False,

'name': '_gid', 'path': '/', 'secure': False, 'value': 'GA1.2.783265084.1550066940'},

{'domain': '.segmentfault.com', 'expiry': 1613138940, 'httpOnly': False, 'name': '_ga',

'path': '/', 'secure': False, 'value': 'GA1.2.1119166665.1550066940'}] 只需提取每一项的name与value即可

:return:

"""

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38535428

粉丝: 2

Scrapy实战：使用Selenium获取社区用户Cookie

scrapy.pdf

scrapy1_6_0.zip

Scrapy框架实战：网站源码爬取教程

Scrapy爬虫项目实战：壁纸网站爬取代码分享

Scrapy框架实战：登录与认证爬取

Scrapy项目实战：58同城房源信息提取与json保存

Scrapy爬虫项目实战代码分析

Scrapy框架实战：Python爬虫高级教程

Python Scrapy爬虫实战：饿了么首页数据抓取

使用Scrapy框架爬取CSDN论坛数据并存储

最新资源