首页pycharm用scrapy框架爬取数据到显示台

pycharm用scrapy框架爬取数据到显示台

时间: 2024-06-08 09:11:01 浏览: 114

使用Scrapy框架爬取数据可以分为以下几个步骤： 1. 创建Scrapy项目：在命令行中使用`scrapy startproject <project_name>`创建一个Scrapy项目。 2. 定义Item：在项目目录下的`items.py`文件中定义需要爬取的数据结构，例如： ```python import scrapy class BookItem(scrapy.Item): title = scrapy.Field() author = scrapy.Field() price = scrapy.Field() ``` 3. 编写Spider：在项目目录下的`spiders`文件夹中创建一个Spider，定义如何从网站中获取数据。例如： ```python import scrapy from ..items import BookItem class BooksSpider(scrapy.Spider): name = "books" start_urls = [ "http://books.toscrape.com/catalogue/category/books/romance_8/index.html", ] def parse(self, response): for book in response.css("article.product_pod"): item = BookItem() item["title"] = book.css("h3 a::attr(title)").get() item["author"] = book.css("p a::text").get() item["price"] = book.css("div p.price_color::text").get() yield item ``` 4. 运行Spider：在命令行中使用`scrapy crawl <spider_name>`运行Spider，数据将会被爬取并输出到控制台。如果你想将数据保存到文件中，可以在运行Spider时将输出重定向到文件中，例如： ```bash scrapy crawl books -o books.csv ``` 这将会将数据保存到名为`books.csv`的文件中。

阅读全文