1. 利用Scrapy对接Seleniumr的方法实现爬取网站(新浪财经上海A股股票) 的股票信息，将爬取到的数据保存到csv文件并输出。爬取的数据包括：代码，名称，最新价，买入，卖出，昨收，今开，最高，最低，成交量/手，成交额/万，振幅，换手率，市净率，市盈率，总股本，流通股。爬取网址：https://vip.stock.finance.sina.com.cn/mkt/#sh_a 要求如下： (1) 创建Scrapy项目，命名为Stock，并在PyCharm中打开。 (2) 在items.py文件中，创建一个StockItem类添加Item数据； (3) 使用模板创建一个爬虫stock.py文件； (4) 在stock.py文件中，修改url地址和parse方法爬取数据； (5) 在middleware.py中添加process_request方法使用Selenium爬取网站信息； (6) 在settings.py文件中，添加管道信息、下载器信息，以及默认的请求头信息。 (7) 运行“scrapy crawl stock -o stock.csv”命令输出信息到文件。

时间: 2023-06-18 22:03:12 浏览: 292

很高兴为您解答这个问题！这里是实现该需求的步骤：步骤1：创建Scrapy项目在命令行中输入以下命令创建一个名为Stock的Scrapy项目： ``` scrapy startproject Stock ``` 步骤2：创建StockItem类在Stock/Stock/items.py文件中，添加以下代码： ```python import scrapy class StockItem(scrapy.Item): code = scrapy.Field() name = scrapy.Field() latest_price = scrapy.Field() buy = scrapy.Field() sell = scrapy.Field() pre_close = scrapy.Field() today_open = scrapy.Field() highest = scrapy.Field() lowest = scrapy.Field() volume = scrapy.Field() turnover = scrapy.Field() amplitude = scrapy.Field() turnover_rate = scrapy.Field() pb_ratio = scrapy.Field() pe_ratio = scrapy.Field() total_shares = scrapy.Field() circulation_shares = scrapy.Field() ``` 步骤3：创建爬虫stock.py文件在Stock/Stock/spiders/目录下创建一个名为stock.py的文件，并添加以下代码： ```python import scrapy from Stock.items import StockItem class StockSpider(scrapy.Spider): name = 'stock' allowed_domains = ['vip.stock.finance.sina.com.cn'] start_urls = ['https://vip.stock.finance.sina.com.cn/mkt/#sh_a'] def parse(self, response): for row in response.xpath('//table[@id="dataTable"]/tbody/tr'): item = StockItem() item['code'] = row.xpath('td[1]/a/text()').get() item['name'] = row.xpath('td[2]/a/text()').get() item['latest_price'] = row.xpath('td[3]/text()').get() item['buy'] = row.xpath('td[4]/text()').get() item['sell'] = row.xpath('td[5]/text()').get() item['pre_close'] = row.xpath('td[6]/text()').get() item['today_open'] = row.xpath('td[7]/text()').get() item['highest'] = row.xpath('td[8]/text()').get() item['lowest'] = row.xpath('td[9]/text()').get() item['volume'] = row.xpath('td[10]/text()').get() item['turnover'] = row.xpath('td[11]/text()').get() item['amplitude'] = row.xpath('td[12]/text()').get() item['turnover_rate'] = row.xpath('td[13]/text()').get() item['pb_ratio'] = row.xpath('td[14]/text()').get() item['pe_ratio'] = row.xpath('td[15]/text()').get() item['total_shares'] = row.xpath('td[16]/text()').get() item['circulation_shares'] = row.xpath('td[17]/text()').get() yield item ``` 步骤4：添加Selenium中间件在Stock/Stock/middleware.py文件中，添加以下代码： ```python from selenium import webdriver from scrapy.http import HtmlResponse from selenium.webdriver.chrome.options import Options class StockDownloaderMiddleware(object): def __init__(self): chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable-gpu') self.browser = webdriver.Chrome(chrome_options=chrome_options) def process_request(self, request, spider): self.browser.get(request.url) body = self.browser.page_source return HtmlResponse(self.browser.current_url, body=body, encoding='utf-8', request=request) def __del__(self): self.browser.close() ``` 步骤5：添加管道和下载器在Stock/Stock/settings.py文件中，添加以下代码： ```python ITEM_PIPELINES = { 'Stock.pipelines.StockPipeline': 300, } DOWNLOADER_MIDDLEWARES = { 'Stock.middlewares.StockDownloaderMiddleware': 543, } ``` 步骤6：添加默认请求头在Stock/Stock/settings.py文件中，添加以下代码： ```python USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' ``` 步骤7：运行爬虫并输出结果在命令行中输入以下命令运行爬虫并输出结果： ``` scrapy crawl stock -o stock.csv ``` 这样，就完成了对新浪财经上海A股股票信息的爬取并将结果保存到csv文件中。

阅读全文

相关推荐

scrapy爬取某股票网站入门实例

1.写一个股票爬虫程序，实现输入任何一个股票名称和任意时间段会输出以下数据：以股票名称命名的csv文件，包含字段（日期，成交量，开盘价，最高价，最低价，收盘价）

【Scrapy爬虫入门】股票数据爬取

scrapy分页及详情页数据爬取

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

Python-基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

scrapy简单案例--爬取慕课网所有课程信息

Scrapy-redis爬虫分布式爬取的分析和实现

scrapy简单的多层页面爬取程序.rar

scrapy简单的多层页面爬取程序

scrapy spider的几种爬取方式实例代码

Scrapy微博一站式爬取（可用）

Scrapy框架+邮件通知 爬取同花顺个股行情并发送邮件通知指定邮箱

lxml-3.3.3.win32-py2.7.exe scrapy 必备

对于Python3.6和3.的scrapy安装文件集合，复制直接添加即可

Python Scrapy多页数据爬取实现过程解析

Scrapy小项目，爬取小说网站所有章节存入mysql，并用django展示出来.zip

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现

Scrapy中使用Selenium+Firefox浏览器爬取沪深A股股票行情

大家在看

RK eMMC Support List

UD18415B_海康威视信息发布终端_快速入门指南_V1.1_20200302.pdf

qt mpi程序设计

考研计算机408历年真题及答案pdf汇总来了 计算机考研 计算机408考研 计算机历年真题+解析09-23年

应用手册 - SoftMove.pdf

最新推荐

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

Python爬取数据并实现可视化代码解析

Python爬虫实例_城市公交网络站点数据的爬取方法

基于STM32单片机的激光雕刻机控制系统设计-含详细步骤和代码

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

Scrapy框架+邮件通知爬取同花顺个股行情并发送邮件通知指定邮箱

考研计算机408历年真题及答案pdf汇总来了计算机考研计算机408考研计算机历年真题+解析09-23年