1. 利用Scrapy对接Seleniumr的方法实现爬取网站(新浪财经上海A股股票) 的股票信息，将爬取到的数据保存到csv文件并输出。爬取的数据包括：代码，名称，最新价，买入，卖出，昨收，今开，最高，最低，成交量/手，成交额/万，振幅，换手率，市净率，市盈率，总股本，流通股。爬取网址：https://vip.stock.finance.sina.com.cn/mkt/#sh_a

时间: 2023-06-17 13:06:12 浏览: 304

新浪财经网站API实时获取期货行情数据 Python 源代码

3星 · 编辑精心推荐

为了实现对接 Scrapy 和 Selenium，我们可以使用 scrapy-selenium 插件，它可以帮助我们在 Scrapy 中使用 Selenium 来爬取 JavaScript 动态生成的页面。在开始之前，需要先安装 scrapy-selenium： ``` pip install scrapy-selenium ``` 接下来就可以编写 Scrapy 爬虫了。首先，在 settings.py 文件中添加以下配置： ``` SELENIUM_DRIVER_NAME = 'chrome' SELENIUM_DRIVER_EXECUTABLE_PATH = 'path/to/chromedriver' SELENIUM_DRIVER_ARGUMENTS = ['--headless'] # 无头浏览器 ``` 然后，创建一个名为 sina_stock 的 Scrapy 项目，并创建一个名为 stocks 的爬虫。在 spiders/stocks.py 文件中编写爬虫代码： ```python import scrapy from scrapy_selenium import SeleniumRequest class StocksSpider(scrapy.Spider): name = 'stocks' allowed_domains = ['vip.stock.finance.sina.com.cn'] start_urls = ['https://vip.stock.finance.sina.com.cn/mkt/#sh_a'] def start_requests(self): for url in self.start_urls: yield SeleniumRequest(url=url, callback=self.parse) def parse(self, response): rows = response.xpath('//table[@id="dataTable"]/tbody/tr') for row in rows: item = {} item['code'] = row.xpath('td[1]/a/text()').get() item['name'] = row.xpath('td[2]/a/text()').get() item['last_price'] = row.xpath('td[3]/text()').get() item['buy'] = row.xpath('td[4]/text()').get() item['sell'] = row.xpath('td[5]/text()').get() item['yesterday_close'] = row.xpath('td[6]/text()').get() item['today_open'] = row.xpath('td[7]/text()').get() item['highest'] = row.xpath('td[8]/text()').get() item['lowest'] = row.xpath('td[9]/text()').get() item['volume'] = row.xpath('td[10]/text()').get() item['turnover'] = row.xpath('td[11]/text()').get() item['amplitude'] = row.xpath('td[12]/text()').get() item['turnover_rate'] = row.xpath('td[13]/text()').get() item['pb_ratio'] = row.xpath('td[14]/text()').get() item['pe_ratio'] = row.xpath('td[15]/text()').get() item['total_shares'] = row.xpath('td[16]/text()').get() item['circulating_shares'] = row.xpath('td[17]/text()').get() yield item ``` 在爬虫代码中，我们使用了 SeleniumRequest 替代了常规的 Request，这样就可以使用 Selenium 来爬取 JavaScript 动态生成的页面。然后，通过 XPath 提取表格中的数据，存储到 item 中，并通过 yield 将 item 传递到 Scrapy 引擎中。最后，可以通过以下命令启动爬虫并将数据保存到 csv 文件中： ``` scrapy crawl stocks -o stocks.csv ``` 这样就完成了对新浪财经上海 A 股股票信息的爬取。

阅读全文

相关推荐

新浪财经策略公告数据Python爬虫代码Scrapy框架

抓取新浪财经股票数据

基于Scrapy的旅游网站数据爬取与分析设计源码

scrapy分页及详情页数据爬取

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

Python-基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

scrapy简单案例--爬取慕课网所有课程信息

Scrapy-redis爬虫分布式爬取的分析和实现

scrapy简单的多层页面爬取程序.rar

scrapy简单的多层页面爬取程序

Scrapy微博一站式爬取（可用）

scrapy spider的几种爬取方式实例代码

Scrapy框架+邮件通知 爬取同花顺个股行情并发送邮件通知指定邮箱

lxml-3.3.3.win32-py2.7.exe scrapy 必备

对于Python3.6和3.的scrapy安装文件集合，复制直接添加即可

Python Scrapy多页数据爬取实现过程解析

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现

python爬取新浪网

最新推荐

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

Python爬取数据并实现可视化代码解析

Python爬虫实例_城市公交网络站点数据的爬取方法

iOS版微信抢红包Tweak.zip小程序

全国江河水系图层shp文件包下载

管理建模和仿真的文件

Keras模型压缩与优化：减小模型尺寸与提升推理速度

MTK 6229 BB芯片在手机中有哪些核心功能，OTG支持、Wi-Fi支持和RTC晶振是如何实现的？

点云二值化测试数据集的详细解读

Scrapy框架+邮件通知爬取同花顺个股行情并发送邮件通知指定邮箱