scrapy用selenium爬取考研信息保存到csv中
时间: 2024-03-28 10:36:50 浏览: 119
scrapy爬虫并保存到数据库
好的,您可以按照以下步骤使用scrapy和selenium爬取考研信息并保存到csv中:
1. 安装scrapy和selenium库,并下载相应浏览器的驱动器。例如,如果您使用的是Chrome浏览器,则需要下载chrome driver并添加到环境变量中。
2. 创建一个scrapy项目,并在settings.py中添加selenium middleware。
3. 创建一个spider,使用selenium库打开浏览器,并在浏览器中模拟用户操作,例如输入搜索关键词,点击搜索按钮等。
4. 使用selenium库获取数据,例如爬取网页源代码或者特定元素的文本。
5. 处理数据,例如提取所需信息并保存到本地文件或数据库中。这里我们选择将数据保存到csv中。
下面是一个示例代码,用于在“研招网”上搜索“计算机”相关考研信息并将相关信息保存到csv中:
1. 在settings.py中添加selenium middleware
```python
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.SeleniumMiddleware': 543,
}
```
2. 创建一个spider
```python
import csv
from scrapy import Spider
from scrapy.selector import Selector
from myproject.items import ExamInfoItem
from scrapy.http import Request
from selenium import webdriver
from scrapy.xlib.pydispatch import dispatcher
from scrapy import signals
class ExamSpider(Spider):
name = "exam"
allowed_domains = ["yz.chsi.com.cn"]
start_urls = (
'https://yz.chsi.com.cn/zsml/queryAction.do',
)
def __init__(self):
self.driver = webdriver.Chrome()
dispatcher.connect(self.spider_closed, signals.spider_closed)
def spider_closed(self, spider):
self.driver.quit()
def parse(self, response):
self.driver.get(response.url)
# 输入搜索关键词并点击搜索按钮
search_box = self.driver.find_element_by_name("mldm")
search_box.send_keys("0852")
search_button = self.driver.find_element_by_class_name("searchbtn")
search_button.click()
# 爬取相关内容并保存到csv中
result_box = self.driver.find_element_by_id("resultTable")
result_items = result_box.find_elements_by_tag_name("tr")
with open('exam_info.csv', 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
for item in result_items:
row = item.text.split()
writer.writerow(row)
# 爬取其他页面的信息
# ...
self.driver.quit()
```
3. 创建一个item
```python
from scrapy import Item, Field
class ExamInfoItem(Item):
# 考试名称
exam_name = Field()
# 考试时间
exam_time = Field()
# 考试地点
exam_location = Field()
# 考试科目
exam_subject = Field()
# 考试类型
exam_type = Field()
# 考试报名时间
exam_reg_time = Field()
# 考试报名费用
exam_reg_fee = Field()
# 考试网址
exam_website = Field()
```
注意:在使用selenium时请遵守网站的爬取规则,不要过度频繁地访问同一网站,以免被封禁IP。另外,注意对csv文件的编码和换行符的处理。
阅读全文