Scrapy框架实战：豆瓣爬虫案例解析

95 浏览量更新于2024-08-29 2 收藏 78KB PDF 举报

"scrapy爬虫完整实例，包括douban和douban_imgs两个爬虫项目，分别用于抓取豆瓣书籍信息和图片。" 在本文中，我们将深入探讨使用Scrapy框架创建爬虫的实践过程，特别是针对豆瓣网站的爬虫应用。Scrapy是一个强大的Python爬虫框架，它提供了许多方便的功能，如中间件、下载器、调度器等，使得爬虫开发更加高效和结构化。首先，我们来看一下示例项目`douban`的目录结构： ``` douban --douban --spiders --__init__.py --bookspider.py --douban_comment_spider.py --doumailspider.py --__init__.py --items.py --pipelines.py --settings.py --scrapy.cfg --spiders--init.py ``` 这个目录结构遵循了Scrapy项目的标准布局。`douban`是项目根目录，`spiders`子目录包含了具体的爬虫脚本，如`bookspider.py`，它负责抓取豆瓣书籍信息。`items.py`定义了要爬取的数据模型，`pipelines.py`处理爬取到的数据，`settings.py`配置项目的全局设置，而`scrapy.cfg`是项目配置文件。在`bookspider.py`中，我们看到了一个名为`BookSpider`的类，继承自Scrapy的`Spider`基类。该爬虫的`name`属性定义了爬虫的唯一标识，`allowed_domains`指定允许爬取的域名。`start_urls`列出了爬虫启动时要访问的初始URL，这里是豆瓣图书Top250页面。在`parse`方法中，爬虫首先处理初始URL，然后使用`xpath`选择器找到分页链接，并生成新的请求。`parse_next`方法处理分页后的响应，遍历每一页的书籍条目，提取相关信息，如书名、作者等，存储到`DoubanBookItem`对象中。`DoubanBookItem`在`items.py`中定义，通常包含字段如`title`、`author`、`rating`等。 Scrapy通过`yield`关键字生成`Request`对象，这些请求会被Scrapy调度并发送，当响应返回时，相应的回调函数（如`parse`或`parse_next`）会被调用，处理响应数据。此外，`douban_imgs`爬虫可能用于抓取豆瓣页面上的图片。在实际应用中，可能需要处理反爬策略，如设置User-Agent、处理Cookie、模拟登录等。同时，可能还需要使用`Scrapy`的下载器中间件来控制请求行为，以及使用`pipelines`来处理如图片保存、数据清洗和入库等后处理任务。总结起来，这个Scrapy实例展示了如何构建一个基本的网络爬虫，用于抓取豆瓣网站的图书信息。通过学习这个实例，我们可以了解到Scrapy框架的基本结构和工作流程，以及如何使用XPath进行网页解析。对于进一步的爬虫开发，可以在此基础上添加更多的功能，比如处理JavaScript渲染的页面、管理更复杂的请求逻辑，或者利用Scrapy的高级特性来提高爬虫的效率和稳定性。

scrapy爬虫完整实例爬虫完整实例

本文主要通过实例介绍了scrapy框架的使用，分享了两个例子，爬豆瓣文本例程 douban 和图片例程 douban_imgs ，具体如

下。

例程例程1：： douban

douban

--douban

--spiders

--__init__.py

--bookspider.py

--douban_comment_spider.py

--doumailspider.py

--__init__.py

--items.py

--pipelines.py

--settings.py

--scrapy.cfg

–spiders–init.py

# This package will contain the spiders of your Scrapy project

# Please refer to the documentation for information on how to create and manage

# your spiders.

bookspider.py

# -*- coding:utf-8 -*-

'''by sudo rm -rf http://imchenkun.com'''

import scrapy

from douban.items import DoubanBookItem

class BookSpider(scrapy.Spider):

name = 'douban-book'

allowed_domains = ['douban.com'] start_urls = [

'https://book.douban.com/top250'

]

def parse(self, response):

# 请求第一页

yield scrapy.Request(response.url, callback=self.parse_next)

# 请求其它页

for page in response.xpath('//div[@class="paginator"]/a'):

link = page.xpath('@href').extract()[0] yield scrapy.Request(link, callback=self.parse_next)

def parse_next(self, response):

for item in response.xpath('//tr[@class="item"]'):

book = DoubanBookItem()

book['name'] = item.xpath('td[2]/div[1]/a/@title').extract()[0] book['content'] = item.xpath('td[2]/p/text()').extract()[0]

book['ratings'] = item.xpath('td[2]/div[2]/span[2]/text()').extract()[0] yield book

douban_comment_spider.py

# -*- coding:utf-8 -*-

import scrapy

from faker import Factory

from douban.items import DoubanMovieCommentItem

import urlparse

f = Factory.create()

class MailSpider(scrapy.Spider):

name = 'douban-comment'

allowed_domains = ['accounts.douban.com', 'douban.com'] start_urls = [

'https://www.douban.com/'

]

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38704386

粉丝: 3

Scrapy框架实战：豆瓣爬虫案例解析

Scrapy爬虫实例：实现多爬虫协同高效数据收集

深度解析scrapy爬虫项目：图片与生僻字抓取技巧

Scrapy爬虫实战：从百思不得姐段子到复杂网站数据抓取

pythonscrapy爬虫实例Python爬虫Scrapy实例

scrapy爬虫代码实例

虚拟机下scrapy爬虫项目实例

scrapy爬虫实例代码

scrapy爬虫实例分享

scrapy爬虫完整案例.zip

京东/天猫scrapy爬虫实例

最新资源