Scrapy爬虫实战：从百思不得姐段子到复杂网站数据抓取

27 浏览量更新于2024-09-03 2 收藏 558KB PDF 举报

"scrapy爬虫实例分享，包括四个Python爬虫实例，用于数据抓取，适合初学者参考学习" 在本文中，我们将深入探讨Scrapy爬虫框架的应用，通过四个具体的Python爬虫实例来理解其工作原理和使用方法。Scrapy是一个强大的、高效的Web抓取框架，特别适用于数据挖掘、信息处理或建立搜索引擎。它提供了许多高级功能，如中间件、下载器、调度器等，使得编写爬虫变得更加简单。首先，我们来看第一个实例：爬取百思不得姐的段子。这个例子从最基础的文本抓取开始，展示了如何抓取网页上的用户名和段子内容。首先，我们需要使用Scrapy的`scrapyshell`工具来探索网页结构，找到所需数据所在的HTML元素。在`items.py`文件中，定义一个`BudejieItem`类，包含`username`和`content`两个字段，分别用于存储用户名和段子内容。接着，创建一个名为`BudejieSpider`的爬虫类。在`start_urls`中设置起始URL，`parse`方法作为默认的回调函数，负责处理每个请求的响应。在这个方法中，我们首先获取当前页面的页码，然后解析出所有段子条目。对于每个条目，提取用户名和段子内容。值得注意的是，由于段子内容可能跨越多行，我们需要使用`'\n'.join()`方法将它们合并为一个字符串。此外，`extract_first()`方法用于获取列表中的第一个元素，避免了当数据只有一项时返回列表的冗余。扩展这个爬虫，我们可以添加翻页功能，遍历多个页面。这通常涉及到解析页面上的分页链接，更新URL并发出新的请求。例如，可以通过检查CSS选择器`'a.z-crt::text'`来获取当前页码，然后根据网站的分页规则计算出下一页的URL。第二个实例可以是爬取商品信息，例如从电商网站抓取商品名称、价格和评价。这个实例会涉及动态加载的内容，可能需要使用Scrapy的Selenium或Splash中间件来处理JavaScript渲染。第三个实例可能是抓取新闻文章，这需要解析文章标题、作者、发布日期和正文内容。可能需要处理嵌套的HTML结构，并且要注意处理各种编码问题。第四个实例可以是登录后抓取数据，比如抓取个人中心的个人信息或历史记录。这需要实现登录功能，使用Scrapy的FormRequest或CustomMiddleware来模拟表单提交。以上四个实例覆盖了从基础的文本抓取到更复杂的场景，包括处理动态内容、分页、登录等。每个实例都是对Scrapy框架使用的一次深入实践，可以帮助开发者更好地理解和掌握Scrapy的核心概念和技术。通过不断实践和调整，你可以根据实际需求定制自己的爬虫，实现高效、稳定的数据抓取。

scrapy爬虫实例分享爬虫实例分享

主要介绍了scrapy爬虫实例分享，分享了四则Python爬虫实例，具有一定借鉴价值,需要的朋友可以参考下

前一篇文章介绍了很多关于scrapy的进阶知识，不过说归说，只有在实际应用中才能真正用到这些知识。所以这篇文章就来尝

试利用scrapy爬取各种网站的数据。

爬取百思不得姐爬取百思不得姐

首先一步一步来，我们先从爬最简单的文本开始。这里爬取的就是百思不得姐的的段子，都是文本。

首先打开段子页面，用F12工具查看元素。然后用下面的命令打开scrapyshell。

scrapy shell http://www.budejie.com/text/

稍加分析即可得到我们要获取的数据，在介绍scrapy的第一篇文章中我就写过一次了。这次就给上次那个爬虫加上一个翻页功

能。

要获取的是用户名和对应的段子，所以在items.py中新建一个类。

class BudejieItem(scrapy.Item):

username = scrapy.Field()

content = scrapy.Field()

爬虫本体就这样写，唯一需要注意的就是段子可能分为好几行，这里我们要统一合并成一个大字符串。选择器的extract()方法

默认会返回一个列表，哪怕数据只有一个也是这样。所以如果数据是单个的，使用extract_first()方法。

import scrapy

from scrapy_sample.items import BudejieItem

class BudejieSpider(scrapy.Spider):

"""百思不得姐段子的爬虫"""

name = 'budejie'

start_urls = ['http://www.budejie.com/text/']

total_page = 1

def parse(self, response):

current_page = int(response.css('a.z-crt::text').extract_first())

lies = response.css('div.j-r-list >ul >li')

for li in lies:

username = li.css('a.u-user-name::text').extract_first()

content = ''.join(li.css('div.j-r-list-c-desc a::text').extract())

yield BudejieItem(username=username, content=content)

if current_page < self.total_page:

yield scrapy.Request(self.start_urls[0] + f'{current_page+1}')

导出到文件

利用scrapy内置的Feed功能，我们可以非常方便的将爬虫数据导出为XML、JSON和CSV等格式的文件。要做的只需要在运行

scrapy的时候用-o参数指定导出文件名即可。

scrapy crawl budejie -o f.json

scrapy crawl budejie -o f.csv

scrapy crawl budejie -o f.xml

如果出现导出汉字变成Unicode编码的话，需要在配置中设置导出编码。

FEED_EXPORT_ENCODING = 'utf-8'

保存到MongoDB

有时候爬出来的数据并不想放到文件中，而是存在数据库中。这时候就需要编写管道来处理数据了。一般情况下，爬虫只管爬

取数据，数据是否重复是否有效都不是爬虫要关心的事情。清洗数据、验证数据、保存数据这些活，都应该交给管道来处理。

当然爬个段子的话，肯定是用不到清洗数据这些步骤的。这里用的是pymongo，所以首先需要安装它。

pip install pymongo

代码其实很简单，用scrapy官方文档的例子稍微改一下就行了。由于MongoDB的特性，所以这部分代码几乎是无缝迁移的，

如果希望保存其他数据，只需要改一下配置就可以了，其余代码部分几乎不需要更改。

import pymongo

class BudejieMongoPipeline(object):

"将百思不得姐段子保存到MongoDB中"

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38660058

粉丝: 5
资源: 920

Scrapy爬虫实战：从百思不得姐段子到复杂网站数据抓取

scrapy爬虫实例代码

拉钩scrapy爬虫案例

scrapy爬虫完整实例

Scrapy爬虫框架实战：校花网图片爬取

Python Scrapy爬虫实战：创建项目与基础爬虫

深入探索Python Scrapy爬虫框架

Python Scrapy爬虫实战：问题解决与ElasticSearch应用

实例4：股票数据Scrapy爬虫

利用分布式消息队列加速Scrapy爬虫

如何优化Scrapy爬虫的性能

最新资源