用pycharm scrapy框架爬取软科-高等教育评价领先品牌院校的前五页内容并按照校名、地区、管理部门、类别、双一流 共计5个字段进行解析最后保存到csv文件的代码
时间: 2023-12-25 15:03:50 浏览: 90
以下是使用Scrapy框架爬取软科-高等教育评价领先品牌院校的前五页内容并按照校名、地区、管理部门、类别、双一流共计5个字段进行解析最后保存到csv文件的代码:
1. 创建Scrapy项目
在终端中输入以下命令创建Scrapy项目:
```
scrapy startproject university
```
2. 创建Spider
在项目目录下创建Spider,用于爬取数据。在终端中输入以下命令:
```
scrapy genspider university_spider zuihaodaxue.com
```
这里使用了软科榜单的网站zuihaodaxue.com作为爬取目标。
3. 编写Spider
打开university/spiders/university_spider.py文件,编写爬虫代码:
```
import scrapy
from ..items import UniversityItem
class UniversitySpider(scrapy.Spider):
name = 'university_spider'
allowed_domains = ['zuihaodaxue.com']
start_urls = ['http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html']
def parse(self, response):
table = response.xpath('//table[@class="tablelist"]')[0]
keys = table.xpath('.//th/text()').extract()
for tr in table.xpath('.//tr')[1:]:
item = UniversityItem()
tds = tr.xpath('.//td/text()').extract()
item[keys[0]] = tds[0]
item[keys[1]] = tds[1]
item[keys[2]] = tds[2]
item[keys[3]] = tds[3]
item[keys[4]] = tds[4]
yield item
# 爬取前5页数据
for i in range(2, 6):
url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019{}.html'.format(i)
yield scrapy.Request(url, callback=self.parse)
```
代码解析:
1. Scrapy中的Spider需要继承scrapy.Spider类,并重写name和start_urls属性以及parse()方法。
2. 在parse()方法中,我们使用XPath定位到表格,并获取表头信息和表格数据。
3. 我们使用一个自定义的Item类UniversityItem来保存数据,并将数据保存为字典类型。
4. 最后,我们使用yield关键字返回item,将数据交给Scrapy框架处理。
5. 在parse()方法中,我们使用for循环爬取前5页数据,每页的URL格式为http://www.zuihaodaxue.com/zuihaodaxuepaiming2019x.html,其中x为页数。
4. 编写Item
在university/items.py文件中,定义UniversityItem类:
```
import scrapy
class UniversityItem(scrapy.Item):
name = scrapy.Field()
region = scrapy.Field()
department = scrapy.Field()
category = scrapy.Field()
double_first_class = scrapy.Field()
```
这里我们定义了5个属性,分别对应校名、地区、管理部门、类别、双一流。
5. 编写Pipeline
在university/pipelines.py文件中,编写数据处理Pipeline:
```
import csv
class UniversityPipeline(object):
def __init__(self):
self.file = open('university.csv', 'w', encoding='utf-8', newline='')
self.writer = None
def process_item(self, item, spider):
if self.writer is None:
self.writer = csv.DictWriter(self.file, fieldnames=item.keys())
self.writer.writeheader()
self.writer.writerow(item)
return item
def close_spider(self, spider):
self.file.close()
```
这里我们使用csv库将数据保存到csv文件中。
6. 配置Settings
在university/settings.py文件中,配置ITEM_PIPELINES和FEED_EXPORT_ENCODING:
```
ITEM_PIPELINES = {
'university.pipelines.UniversityPipeline': 300,
}
FEED_EXPORT_ENCODING = 'utf-8'
```
7. 运行Spider
在终端中输入以下命令运行Spider:
```
scrapy crawl university_spider
```
运行结束后,数据会保存在university.csv文件中。
注意事项:
1. 在XPath中,使用双斜杠//可以跨越多个层级查找节点,单斜杠/只查找子节点。
2. 在使用XPath定位节点时,需要注意节点的层级关系。
阅读全文