Python Scrapy爬虫教程：数据存储到数据库

版权申诉

68 浏览量更新于2024-08-23 收藏 11KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇教程主要介绍了如何使用Python的爬虫框架Scrapy将抓取的数据存储到数据库中。通过创建一个Scrapy项目，定义项目数据模型，编写爬虫 spider，以及设置数据库连接来实现这一目标。" 在Python的网络爬虫开发中，Scrapy是一个功能强大的框架，它简化了网页抓取和数据提取的过程。本教程将以Scrapy为基础，讲解如何将爬取到的数据保存到数据库中，以便后续处理和分析。首先，要创建一个Scrapy项目。在命令行中，运行`scrapy startproject [项目名]`，例如`scrapystartproject fjsen`，这会在当前目录下生成一个名为`fjsen`的项目结构，包含Scrapy所需的文件和目录。接着，我们需要定义项目的数据模型。在项目的`items.py`文件中，创建一个类，比如`FjsenItem`，并定义字段，如`title`（标题）、`link`（链接）和`addtime`（时间）。这些字段代表了我们要抓取的网站文章的关键信息。 ```python import scrapy from scrapy.item import Item, Field class FjsenItem(Item): title = Field() link = Field() addtime = Field() ``` 接下来，我们需要编写爬虫（spider）。在`fjsen/spiders`目录下创建一个新的Python文件，如`fjsen_spider.py`。这个爬虫会指定起始URL，如何跟踪链接，以及如何解析页面内容来提取`FjsenItem`中的字段。以下是一个简单的示例： ```python from scrapy.spiders import BaseSpider from scrapy.selector import HtmlXPathSelector from fjsen.items import FjsenItem class FjsenSpider(BaseSpider): name = "fjsen" allowed_domains = ["fjsen.com"] start_urls = ['http://www.fjsen.com/' + str(x) + '.htm' for x in range(2, 11)] + [''] def parse(self, response): # 解析页面，提取数据，并创建FjsenItem对象 ... ``` `parse`方法是Scrapy爬虫的核心，它会在每个响应(response)到达时被调用。在这里，你需要使用HTML解析库（如XPath或CSS选择器）来提取页面上的信息，创建`FjsenItem`对象，并将它们传递给管道(Pipeline)进行进一步处理。为了将数据存储到数据库，我们需要创建一个数据库连接的Pipeline。Scrapy允许自定义Pipeline来处理爬取的项目，例如，你可以使用SQLAlchemy或pymongo等库与数据库交互。在`settings.py`中启用这个Pipeline，并配置数据库连接参数。例如，如果你使用SQLite，可以在`pipelines.py`中创建如下类： ```python from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker from sqlalchemy import create_engine, Column, Integer, String Base = declarative_base() class Fjsen(Base): __tablename__ = 'fjsen' id = Column(Integer, primary_key=True) title = Column(String) link = Column(String) addtime = Column(String) class DatabasePipeline(object): def __init__(self): engine = create_engine('sqlite:///fjsen.db') Base.metadata.create_all(engine) self.Session = sessionmaker(bind=engine) def process_item(self, item, spider): session = self.Session() fjsen = Fjsen(item.__dict__) session.add(fjsen) session.commit() return item ``` 别忘了在`settings.py`中启用`DatabasePipeline`，例如，将其添加到`ITEM_PIPELINES`配置中： ```python ITEM_PIPELINES = { 'fjsen.pipelines.DatabasePipeline': 300, } ``` 至此，你已经完成了使用Scrapy爬虫框架从网站抓取数据并存储到数据库的基本流程。这个教程的实例展示了如何抓取特定网站的文章列表，包括标题、链接和时间，然后将这些信息存入SQLite数据库。通过调整`parse`方法和Pipeline，你可以根据实际需求扩展这个框架，适应不同的网站和数据存储需求。

资源推荐