用scrapy框架翻页爬取考研信息并存储到csv中

时间: 2024-03-28 07:38:19 浏览: 71

使用Scrapy爬取动态数据

Scrapy是一个强大的Python爬虫框架，它主要用于抓取静态网页数据。然而，随着现代网站大量使用JavaScript来渲染动态内容，单纯使用Scrapy可能无法获取到完整的信息。为了解决这个问题，我们可以结合Selenium和PhantomJS这样的浏览器自动化工具来抓取动态加载的数据。 **PhantomJS简介** PhantomJS是一个无头浏览器，它允许你在没有图形界面的情况下运行Web页面。它支持完整的Web堆栈，包括WebKit渲染引擎和JavaScript。因此，当你需要模拟浏览器行为来触发动态内容加载时，PhantomJS是一个理想的选择。 **Scrapy中间件与PhantomJS的结合** 在Scrapy中，中间件是处理请求和响应的组件，可以用来添加额外的功能或修改默认行为。为了用PhantomJS抓取动态数据，我们需要创建一个自定义的中间件： 1. **中间件设置** 在`pipelines.py`文件中定义一个名为`SeleniumSpiderMiddleware`的类。在这个类中，初始化一个PhantomJS实例，并重写`process_request`方法。在这个方法中，我们检查请求是否来自特定的爬虫（例如'taobao'），如果是，则使用PhantomJS浏览网页，模拟滚动行为加载动态内容，然后返回一个`HtmlResponse`对象，该对象包含加载后的HTML源码。 2. **配置中间件** 在`settings.py`文件中，你需要打开DOWNLOADER_MIDDLEWARES设置，并添加`SeleniumSpiderMiddleware`到中间件列表中，确保其位置在正确的顺序，例如设置为543。 **爬虫文件的更新** 在爬虫文件（通常是`spiders`目录下的Python文件）中，你需要导入Selenium的`webdriver`模块，并在`__init__`方法中初始化PhantomJS驱动器。这样，你可以在`parse`方法中使用这个驱动器来获取动态加载的数据。例如，你可以使用XPath或CSS选择器来定位并提取页面元素。在提供的代码示例中，`parse`方法中通过`response.xpath()`来解析已经由中间件处理过的HTML响应，提取商品的标题和价格。这里需要注意的是，由于使用了PhantomJS，你可以直接使用Selenium提供的API（如`find_element_by_class_name`）来获取元素，但示例代码中选择了继续使用Scrapy的XPath表达式。 **注意事项** 1. PhantomJS可能需要安装在系统路径中，或者你可以指定其完整路径。 2. 考虑到性能和资源消耗，使用Selenium和PhantomJS可能不适合大规模的爬虫项目。在处理大量请求时，你可能需要考虑使用其他技术，如Headless Chrome或Firefox。 3. 为了提高效率，可以考虑使用异步加载技术，比如Selenium的`execute_async_script`方法，以及Scrapy的`yield`语句来并发处理多个请求。 4. 不要忘记处理可能出现的异常，例如网络错误、页面加载失败等。通过结合Scrapy和PhantomJS，我们可以有效地抓取那些依赖JavaScript渲染的动态内容。这种方法虽然增加了项目的复杂性，但对于处理那些动态生成数据的网站来说，是非常有价值的。

好的，使用 Scrapy 框架可以更加方便地进行翻页和数据抓取。下面是一个示例代码，可以爬取研招网的考研信息并存储到 csv 文件中。首先，需要在终端中使用以下命令创建一个 Scrapy 项目： ``` scrapy startproject kaoyan_info ``` 然后，在项目的 kaoyan_info/spiders 目录下创建一个名为 kaoyan_spider.py 的文件，并将以下代码复制进去： ``` import scrapy from scrapy.selector import Selector from scrapy.http import FormRequest import csv class KaoyanSpider(scrapy.Spider): name = 'kaoyan' allowed_domains = ['yz.chsi.com.cn'] start_urls = ['https://yz.chsi.com.cn/zsml/queryAction.do'] def parse(self, response): # 设置查询条件 formdata = { 'ssdm': '', 'yjxkdm': '', 'yjxkdmValue': '', 'zymc': '', 'xxfs': '', 'pageno': '1' } yield FormRequest.from_response(response, formdata=formdata, callback=self.parse_result) def parse_result(self, response): # 解析查询结果 sel = Selector(response) rows = sel.xpath('//table[@class="zsml-table"]/tr') for row in rows[1:]: cols = row.xpath('.//td/text()').extract() yield { '学校': cols[0].strip(), '专业': cols[1].strip(), '科类': cols[2].strip(), '计划数': cols[3].strip(), '招生人数': cols[4].strip() } # 翻页 params = { 'ssdm': '', 'yjxkdm': '', 'yjxkdmValue': '', 'zymc': '', 'xxfs': '', 'pageno': str(int(response.request.meta['page']) + 1) } yield FormRequest.from_response(response, formdata=params, callback=self.parse_result, meta={'page': params['pageno']}) def closed(self, reason): # 保存数据到 csv 文件 with open('kaoyan.csv', 'w', newline='') as csvfile: fieldnames = ['学校', '专业', '科类', '计划数', '招生人数'] writer = csv.DictWriter(csvfile, fieldnames=fieldnames) writer.writeheader() for item in self.items: writer.writerow(item) ``` 这个爬虫会自动翻页，将每一页的查询结果解析出来，并保存到一个 csv 文件中。你可以在项目的根目录下运行以下命令来运行爬虫： ``` scrapy crawl kaoyan ``` 最后，当爬虫运行结束时，会自动将抓取到的数据保存到 kaoyan.csv 文件中。

阅读全文

用scrapy框架翻页爬取考研信息并存储到csv中

相关推荐

使用scrapy框架爬取大量球员信息，可作为毕业设计，下载即可运行。

scrapy用xpath翻页爬取考研信息并保存

scrapy用xpath翻页爬取考研信息

scrapy框架示例爬取网站源码

使用Python的Scrapy框架十分钟爬取图

使用Python的Scrapy框架十分钟爬取美女图

scrapy实现翻页爬取中国作家网案例分享

使用Scrapy框架高效爬取网络图片资源

构建爬虫框架：用Scrapy框架定向爬取QQ音乐歌手名字

使用scrapy爬虫框架爬取火车信息

随便选择一个网站使用Scrapy框架进行爬取数据，并对爬取的数据进行简单的数据分析

scrapy用xpath翻页爬取考研网页

pycharm中的scrapy框架怎么爬取数据？

用scrapy框架翻页爬取考研信息并存储到csv中案例

用scrapy框架翻页爬取考研信息并存储到csv和mongdb中

scrapy用xpath翻页爬取考研信息并保存到csv

scrapy框架用xpath翻页爬取考研信息并保存到csv

scrapy用xpath翻页爬取考研网页并保存至csv

scrapy用selenium爬取考研信息保存到csv中

最新推荐

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

python爬虫框架scrapy实战之爬取京东商城进阶篇

LABVIEW程序实例-DS写属性数据.zip

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

"互动学习：行动中的多样性与论文攻读经历"

【Shell脚本进阶】：wc命令行数统计的高级用法及解决方案