scrapy爬json
时间: 2023-06-29 18:05:10 浏览: 69
Scrapy爬虫
Scrapy可以很方便地爬取JSON格式的数据,具体步骤如下:
1. 创建Scrapy项目并进入项目目录。
2. 在项目目录中创建一个名为`items.py`的Python文件,用于定义数据模型。
3. 在`settings.py`中添加以下配置:
```python
FEED_FORMAT = 'json'
FEED_URI = 'output.json'
```
其中`FEED_FORMAT`指定输出的格式为JSON,`FEED_URI`指定输出的文件名为`output.json`。
4. 在`spiders`目录中创建一个爬虫文件,编写爬虫代码。在解析响应时,可以使用`response.json()`方法将JSON响应转换为Python对象,进而提取需要的数据。
例如,以下是一个简单的爬虫示例:
```python
import scrapy
from myproject.items import MyItem
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://www.example.com/data.json']
def parse(self, response):
data = response.json()
for item in data:
myitem = MyItem()
myitem['field1'] = item['field1']
myitem['field2'] = item['field2']
yield myitem
```
以上代码中,爬虫从`http://www.example.com/data.json`获取JSON数据,并将其中的`field1`和`field2`字段提取出来,封装成一个`MyItem`对象返回。
5. 运行爬虫:
```bash
scrapy crawl myspider
```
爬取的数据将以JSON格式保存在`output.json`文件中。
阅读全文