scrapy Spider类的parse方法
时间: 2023-12-31 13:03:58 浏览: 106
scrapy spider的几种爬取方式实例代码
Scrapy Spider类中的parse()方法是一个默认的回调函数,用于处理响应并提取数据。当Spider类发出一个请求时,它会将响应传递给parse()方法进行处理。parse()方法通常会使用XPath或CSS选择器从响应中提取数据,并使用Item对象将其保存。下面是一个示例:
```
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://www.example.com']
def parse(self, response):
# 使用XPath选择器提取数据
title = response.xpath('//title/text()').extract_first()
body = response.xpath('//body/text()').extract_first()
# 使用Item对象保存数据
item = MyItem()
item['title'] = title
item['body'] = body
yield item
```
在上面的示例中,Spider类会发出一个请求,并将响应传递给parse()方法进行处理。parse()方法会使用XPath选择器从响应中提取title和body字段,并使用MyItem对象将它们保存。最后,parse()方法使用yield关键字将Item对象返回给Scrapy引擎,以便将它们存储到数据库或输出到控制台。
阅读全文