Scrapy教程：从入门到实践指南

5星 · 超过95%的资源需积分: 33 154 浏览量更新于2024-07-20 2 收藏 505KB PDF 举报

"Scrapy Cookbook 中文版.pdf 是一本关于Python爬虫框架Scrapy的教程，涵盖Scrapy的入门、完整示例、Spider详解、Selector、Item、ItemPipeline、内置服务以及文件和图片处理等内容。" Scrapy是Python中一个强大的网页爬虫框架，它提供了一整套工具链，使得开发者能够方便地构建和维护网络爬虫项目。这本书的中文版详细介绍了Scrapy的各项功能，帮助读者快速掌握Scrapy的使用。 1. **Scrapy教程01-入门篇** - **安装Scrapy**: 首先介绍了如何在Python环境中安装Scrapy库，通常通过pip命令进行。 - **简单示例**: 提供了创建第一个Scrapy项目和简单的爬虫代码，展示了如何抓取网页的基本信息。 - **Scrapy特性一览**: 列举了Scrapy的主要特点，如中间件、请求/响应对象、选择器等。 2. **Scrapy教程02-完整示例** - **创建Scrapy工程**: 演示了使用Scrapy命令行工具创建一个新的爬虫项目。 - **定义我们的Item**: Item用于定义爬取的数据结构，是Scrapy中的关键概念。 - **第一个Spider**: 创建并配置爬虫，解释了Spider的基本结构和工作原理。 - **运行爬虫**: 教程说明如何启动爬虫并查看其输出。 - **处理链接**: 展示了如何在爬虫中处理和跟踪页面链接。 - **导出抓取数据**: 讲解了如何将抓取的数据导出到文件或数据库。 - **保存数据到数据库**: 如何将Item数据存储到数据库，例如MySQL或MongoDB。 3. **Scrapy教程03-Spider详解** - **CrawlSpider**: 强大的爬虫类，适用于基于链接规则的爬取。 - **XMLFeedSpider**: 用于处理XML格式的feed源的爬虫。 - **CSVFeedSpider**: 处理CSV格式的feed源的爬虫。 - **SitemapSpider**: 专门用来爬取网站的Sitemap文件。 4. **Scrapy教程04-Selector详解** - **关于选择器**: 解释了选择器（如XPath和CSS）在Scrapy中的作用，用于从HTML或XML文档中提取数据。 - **使用选择器**: 提供了选择器的基本用法和示例。 - **嵌套选择器**: 展示了如何处理选择器的嵌套使用。 - **使用正则表达式**: 教程说明了如何结合正则表达式进行数据匹配。 - **XPath相对路径**: 阐述了XPath相对路径的概念和应用。 - **XPath建议**: 提供了使用XPath时的一些建议和最佳实践。 5. **Scrapy教程05-Item详解** - **定义Item**: 详细介绍了Item类的创建和使用。 - **ItemFields**: ItemFields是定义Item字段的类，帮助组织和管理数据结构。 - **Item使用示例**: 提供了使用Item的实际代码示例。 - **ItemLoader**: ItemLoader简化了从页面数据填充Item的过程。 - **输入/输出处理器**: 介绍了ItemLoader的输入处理器和输出处理器，用于数据清洗和转换。 - **自定义ItemLoader**: 如何根据需求创建和使用自定义的ItemLoader。 - **在Field定义中声明输入/输出处理器**: 解释了如何在Item字段中直接指定处理器。 - **ItemLoader上下文**: 说明了ItemLoader上下文的作用和使用。 - **内置的处理器**: 列举了Scrapy内置的一些常用处理器。 6. **Scrapy教程06-ItemPipeline** - **编写自己的Pipeline**: 指导读者如何编写自定义的ItemPipeline来处理爬取的数据。 - **ItemPipeline示例**: 提供了一个简单的Pipeline示例，展示如何实现数据清洗或验证。 - **激活一个ItemPipeline组件**: 解释了如何在设置文件中启用自定义的Pipeline。 - **Feedexports**: 介绍了如何配置Scrapy将数据导出为不同格式，如JSON、XML等。 7. **Scrapy教程07-内置服务** - **发送email**: 教程展示了如何使用Scrapy发送电子邮件通知。 - **同一个进程运行多个Spider**: 解释了如何在同一个Scrapy进程中运行多个Spider。 - **分布式爬虫**: 讨论了Scrapy的分布式爬虫架构和实现方法。 - **防止被封的策略**: 提供了一些避免被目标网站封锁的策略和技巧。 8. **Scrapy教程08-文件与图片** - **使用FilesPipeline**: 详述了如何使用Scrapy的FilesPipeline下载和处理网页上的文件。 - **使用ImagesPipeline**: 针对图片下载，介绍了ImagesPipeline的使用方法。通过阅读这本书，读者可以全面了解和掌握Scrapy的各个方面，从而高效地开发和维护Python网络爬虫项目。

# print(item['title'],item['link'],item['desc'])

yield scrapy.Request(url, callback=self.parse_article)

def parse_article(self, response):

detail = response.xpath('//div[@class="article-wrap"]')

item = HuxiuItem()

item['title'] = detail.xpath('h1/text()')[0].extract()

item['link'] = response.url

item['posttime'] = detail.xpath(

'div[@class="article-author"]/span[@class="article-time"]/text()

,→')[0].extract()

print(item['title'],item['link'],item['posttime'])

yield item

现在 parse 只提取感兴趣的链接，然后将链接内容解析交给另外的方法去处理了。你可

以基于这个构建更加复杂的爬虫程序了。

2.6 导出抓取数据

最简单的保存抓取数据的方式是使用 json 格式的文件保存在本地，像下面这样运行：

scrapy crawl huxiu -o items.json

在演示的小系统里面这种方式足够了。不过如果你要构建复杂的爬虫系统，最好自己编

写Item Pipeline。

2.7 保存数据到数据库

上面我们介绍了可以将抓取的 Item 导出为 json 格式的文件，不过最常见的做法还是

编写 Pipeline 将其存储到数据库中。我们在 coolscrapy/pipelines.py 定义

# -*- coding: utf-8 -*-

import datetime

import redis

import json

import logging

from contextlib import contextmanager

from scrapy import signals

from scrapy.exporters import JsonItemExporter

from scrapy.pipelines.images import ImagesPipeline

from scrapy.exceptions import DropItem

from sqlalchemy.orm import sessionmaker

from coolscrapy.models import News, db_connect, create_news_table, Article

class ArticleDataBasePipeline(object):

""" 保存文章到数据库"""

剩余54页未读，继续阅读

浮舟

粉丝: 627
资源: 381

Scrapy教程：从入门到实践指南

scrapy中文教程（官方）

scrapy1.1 帮助文档

scrapy.pdf

Python爬虫学习之基于Scrapy的网络爬虫.pdf

scrapy官方手册中文版.pdf

scrapy-1..40压缩包

scrapy:Scrapy toscracpe.com示例

Scrapy分布式原理.pdf

scrapy框架概览.pdf

Scrapy框架安装.pdf

最新资源