pycharm用scrapy框架爬取数据到显示台
时间: 2024-06-08 09:11:01 浏览: 114
使用Scrapy框架爬取数据可以分为以下几个步骤:
1. 创建Scrapy项目:在命令行中使用`scrapy startproject <project_name>`创建一个Scrapy项目。
2. 定义Item:在项目目录下的`items.py`文件中定义需要爬取的数据结构,例如:
```python
import scrapy
class BookItem(scrapy.Item):
title = scrapy.Field()
author = scrapy.Field()
price = scrapy.Field()
```
3. 编写Spider:在项目目录下的`spiders`文件夹中创建一个Spider,定义如何从网站中获取数据。例如:
```python
import scrapy
from ..items import BookItem
class BooksSpider(scrapy.Spider):
name = "books"
start_urls = [
"http://books.toscrape.com/catalogue/category/books/romance_8/index.html",
]
def parse(self, response):
for book in response.css("article.product_pod"):
item = BookItem()
item["title"] = book.css("h3 a::attr(title)").get()
item["author"] = book.css("p a::text").get()
item["price"] = book.css("div p.price_color::text").get()
yield item
```
4. 运行Spider:在命令行中使用`scrapy crawl <spider_name>`运行Spider,数据将会被爬取并输出到控制台。
如果你想将数据保存到文件中,可以在运行Spider时将输出重定向到文件中,例如:
```bash
scrapy crawl books -o books.csv
```
这将会将数据保存到名为`books.csv`的文件中。
阅读全文