利用Scrapy对接Seleniumr的方法实现爬取网站(新浪财经上海A股股票) 的股票信息，将爬取到的数据保存到csv文件并输出。爬取的数据包括：代码，名称，最新价，买入，卖出，昨收，今开，最高，最低，成交量/手，成交额/万，振幅，换手率，市净率，市盈率，总股本，流通股。爬取网址：https://vip.stock.finance.sina.com.cn/mkt/#sh_a 要求如下： (1) 创建Scrapy项目，命名为Stock，并在PyCharm中打开。 (2) 在items.py文件中，创建一个StockItem类添加Item数据； (3) 使用模板创建一个爬虫stock.py文件； (4) 在stock.py文件中，修改url地址和parse方法爬取数据； (5) 在middleware.py中添加process_request方法使用Selenium爬取网站信息； (6) 在settings.py文件中，添加管道信息、下载器信息，以及默认的请求头信息。 (7) 运行“scrapy crawl stock -o stock.csv”命令输出信息到文件。

时间: 2023-06-19 13:03:52 浏览: 216

对接Scrapy和Selenium，实现爬取新浪财经上海A股股票信息，可以按照以下步骤进行： 1. 创建Scrapy项目打开终端，执行以下命令创建Scrapy项目： ``` scrapy startproject Stock ``` 2. 在items.py文件中添加Item数据打开Stock项目，进入items.py文件，添加以下代码： ``` import scrapy class StockItem(scrapy.Item): code = scrapy.Field() # 代码 name = scrapy.Field() # 名称 latest_price = scrapy.Field() # 最新价 buy = scrapy.Field() # 买入 sell = scrapy.Field() # 卖出 yesterday_close = scrapy.Field() # 昨收 today_open = scrapy.Field() # 今开 highest = scrapy.Field() # 最高 lowest = scrapy.Field() # 最低 volume = scrapy.Field() # 成交量/手 turnover = scrapy.Field() # 成交额/万 amplitude = scrapy.Field() # 振幅 turnover_rate = scrapy.Field() # 换手率 pb_ratio = scrapy.Field() # 市净率 pe_ratio = scrapy.Field() # 市盈率 total_capital = scrapy.Field() # 总股本 circulating_capital = scrapy.Field() # 流通股 ``` 3. 创建爬虫文件在Stock项目中，执行以下命令创建爬虫文件： ``` scrapy genspider stock https://vip.stock.finance.sina.com.cn/mkt/#sh_a ``` 生成的stock.py文件中，修改parse方法如下： ``` def parse(self, response): # 获取所有股票代码和名称 codes = response.xpath('//div[@id="quotesearch"]/ul[@class="stockUL"]/li/a/text()') for code in codes: item = StockItem() item['code'] = code.extract().split(' ')[0] item['name'] = code.extract().split(' ')[1] # 构造股票信息的url url = 'https://finance.sina.com.cn/realstock/company/{}/nc.shtml'.format(item['code']) # 构造SeleniumRequest yield SeleniumRequest(url=url, callback=self.parse_stock, meta={'item': item}) def parse_stock(self, response): item = response.meta['item'] # 解析股票信息 item['latest_price'] = response.xpath('//div[@class="stock-bets"]/div[@class="price"]/strong/text()').get() item['buy'] = response.xpath('//dt[text()="买入"]/following-sibling::dd[1]/text()').get() item['sell'] = response.xpath('//dt[text()="卖出"]/following-sibling::dd[1]/text()').get() item['yesterday_close'] = response.xpath('//dt[text()="昨收"]/following-sibling::dd[1]/text()').get() item['today_open'] = response.xpath('//dt[text()="今开"]/following-sibling::dd[1]/text()').get() item['highest'] = response.xpath('//dt[text()="最高"]/following-sibling::dd[1]/text()').get() item['lowest'] = response.xpath('//dt[text()="最低"]/following-sibling::dd[1]/text()').get() item['volume'] = response.xpath('//dt[text()="成交量"]/following-sibling::dd[1]/text()').get() item['turnover'] = response.xpath('//dt[text()="成交额"]/following-sibling::dd[1]/text()').get() item['amplitude'] = response.xpath('//dt[text()="振幅"]/following-sibling::dd[1]/text()').get() item['turnover_rate'] = response.xpath('//dt[text()="换手率"]/following-sibling::dd[1]/text()').get() item['pb_ratio'] = response.xpath('//dt[text()="市净率"]/following-sibling::dd[1]/text()').get() item['pe_ratio'] = response.xpath('//dt[text()="市盈率"]/following-sibling::dd[1]/text()').get() item['total_capital'] = response.xpath('//dt[text()="总股本"]/following-sibling::dd[1]/text()').get() item['circulating_capital'] = response.xpath('//dt[text()="流通股"]/following-sibling::dd[1]/text()').get() yield item ``` 4. 添加middleware 打开Stock项目，进入middlewares.py文件，添加以下代码： ``` from scrapy import signals from scrapy.http import HtmlResponse from selenium import webdriver from selenium.webdriver.chrome.options import Options import time class SeleniumMiddleware(object): @classmethod def from_crawler(cls, crawler): middleware = cls() crawler.signals.connect(middleware.spider_opened, signals.spider_opened) crawler.signals.connect(middleware.spider_closed, signals.spider_closed) return middleware def spider_opened(self, spider): options = Options() options.add_argument('--headless') self.driver = webdriver.Chrome(options=options) def spider_closed(self, spider): self.driver.quit() def process_request(self, request, spider): self.driver.get(request.url) time.sleep(2) return HtmlResponse(url=request.url, body=self.driver.page_source, request=request, encoding='utf-8') ``` 5. 修改settings.py 打开Stock项目，进入settings.py文件，添加以下代码： ``` ITEM_PIPELINES = { 'Stock.pipelines.StockPipeline': 300, } DOWNLOADER_MIDDLEWARES = { 'Stock.middlewares.SeleniumMiddleware': 543, } DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3', 'Accept-Language': 'en', } ``` 6. 添加pipeline 打开Stock项目，进入pipelines.py文件，添加以下代码： ``` import csv class StockPipeline(object): def __init__(self): self.file = open('stock.csv', 'w', newline='', encoding='utf-8') self.writer = csv.writer(self.file) self.writer.writerow(['代码', '名称', '最新价', '买入', '卖出', '昨收', '今开', '最高', '最低', '成交量/手', '成交额/万', '振幅', '换手率', '市净率', '市盈率', '总股本', '流通股']) def process_item(self, item, spider): self.writer.writerow([item['code'], item['name'], item['latest_price'], item['buy'], item['sell'], item['yesterday_close'], item['today_open'], item['highest'], item['lowest'], item['volume'], item['turnover'], item['amplitude'], item['turnover_rate'], item['pb_ratio'], item['pe_ratio'], item['total_capital'], item['circulating_capital']]) return item def close_spider(self, spider): self.file.close() ``` 7. 运行爬虫在Stock项目中，执行以下命令运行爬虫： ``` scrapy crawl stock -o stock.csv ``` 运行结果会保存在当前目录下的stock.csv文件中。

阅读全文

相关推荐

利用Scrapy框架实现Python股票信息爬取教程

利用Scrapy框架实现Python股票信息高效爬取

Python实现东方财富股票数据自动定时爬取教程

shunqiwang_by_scrapy:利用scrapy框架爬取顺企网企业的工商信息

scrapy分页及详情页数据爬取

基于Scrapy的旅游网站数据爬取与分析设计源码

scrapy下的租房信息爬取与数据展示工具的设计与实现论文.docx

Python-基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

【Scrapy爬虫入门】股票数据爬取

详解scrapy爬取赶集网简历数据实现下一页并保存至csv文件详细入门实例

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

python scrapy下的租房信息爬取与数据展示工具的设计与实现.论文.docx

python scrapy下的租房信息爬取与数据展示工具的设计与实现答辩ppt.pptx

Scrapy-redis爬虫分布式爬取的分析和实现

Scrapy爬虫实战：高效爬取网站数据并导出CSV

使用Scrapy框架实现新浪财经数据高效爬取

Scrapy入门实战：爬取股票网站的股票ID和名称

Scrapy框架深度应用：爬取知乎数据

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现

大家在看

LC3 Codec.pdf

项目六 基于stc89c52系列单片机控制步进电机.rar

信息几何-Information Geometry

《程序设计基础》历年试题及答案.pdf

黑金ALINX Zynq UltraScale+MPSoC开发平台ACU19EG 核心板原理图

最新推荐

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

Python爬取数据并实现可视化代码解析

Python爬虫实例_城市公交网络站点数据的爬取方法

springboot应急救援物资管理系统.zip

Spring Websocket快速实现与SSMTest实战应用

电力电子技术的智能化：数据中心的智能电源管理

通过spark sql读取关系型数据库mysql中的数据

新版微软inspect工具下载：32位与64位版本

如何运用电力电子技术实现IT设备的能耗监控

项目六基于stc89c52系列单片机控制步进电机.rar