随便选择一个网站使用Scrapy框架进行爬取数据,并对爬取的数据进行简单的数据分析

时间: 2024-06-08 16:06:05 浏览: 135

我选择了豆瓣电影网站(https://movie.douban.com/)进行爬取,并对爬取的电影数据进行简单的数据分析。

首先,我们需要安装 Scrapy 框架。在命令行中输入以下命令:

pip install scrapy

安装完成后,我们就可以开始编写爬虫了。

  1. 创建 Scrapy 项目

在命令行中输入以下命令:

scrapy startproject douban_movie

这样就会在当前目录下创建一个名为 douban_movie 的 Scrapy 项目。

  1. 定义 Item

在 Scrapy 中,Item 是我们要爬取的数据结构。在 douban_movie 目录下创建名为 items.py 的文件,并定义 MovieItem 类,如下所示:

import scrapy


class MovieItem(scrapy.Item):
    title = scrapy.Field()  # 电影名称
    score = scrapy.Field()  # 电影评分
    director = scrapy.Field()  # 导演
    actors = scrapy.Field()  # 演员
    year = scrapy.Field()  # 上映年份
    country = scrapy.Field()  # 制片国家/地区
  1. 编写 Spider

在 Scrapy 中,Spider 是用来定义如何爬取某个网站的。在 douban_movie 目录下创建名为 movie_spider.py 的文件,并编写 MovieSpider 类,如下所示:

import scrapy
from douban_movie.items import MovieItem


class MovieSpider(scrapy.Spider):
    name = 'movie'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        movie_list = response.xpath('//ol[@class="grid_view"]/li')
        for movie in movie_list:
            item = MovieItem()
            item['title'] = movie.xpath('.//span[@class="title"]/text()').extract_first()
            item['score'] = movie.xpath('.//span[@class="rating_num"]/text()').extract_first()
            item['director'] = movie.xpath('.//div[@class="bd"]/p/text()[1]').\
                extract_first().replace('\n', '').split(' ')[1]
            item['actors'] = movie.xpath('.//div[@class="bd"]/p/text()[1]').\
                extract_first().replace('\n', '').split(' ')[5].replace('...', '')
            item['year'] = movie.xpath('.//div[@class="bd"]/p/text()[2]').\
                extract_first().replace('\n', '').split('/')[0].strip()
            item['country'] = movie.xpath('.//div[@class="bd"]/p/text()[2]').\
                extract_first().replace('\n', '').split('/')[1].strip()
            yield item

        next_page = response.xpath('//span[@class="next"]/a/@href')
        if next_page:
            url = response.urljoin(next_page.extract_first())
            yield scrapy.Request(url, callback=self.parse)

在 MovieSpider 中,我们首先定义了爬虫的名称、允许爬取的域名和起始 URL。在 parse 方法中,我们使用 XPath 选择器获取电影列表中的每一部电影,并从中提取出电影名称、评分、导演、演员、上映年份和制片国家/地区等信息,最后将这些信息存入 MovieItem 中,并通过 yield 返回。

在最后,我们还使用 XPath 选择器获取下一页的 URL,并通过 scrapy.Request 发出请求,继续爬取下一页的数据。

  1. 运行爬虫

在命令行中进入 douban_movie 目录,输入以下命令即可运行爬虫:

scrapy crawl movie -o movie.csv

这样就会将爬取到的电影数据保存为名为 movie.csv 的 CSV 文件。

  1. 数据分析

我们使用 Pandas 进行数据分析。在 Python 中输入以下代码:

import pandas as pd

df = pd.read_csv('movie.csv')
print('电影数量:', len(df))
print('平均评分:', df['score'].mean())
print('导演数量:', len(df['director'].unique()))
print('演员数量:', len(df['actors'].unique()))
print('年份数量:', len(df['year'].unique()))
print('国家/地区数量:', len(df['country'].unique()))

这样就可以统计出爬取到的电影数量、平均评分、导演数量、演员数量、年份数量和国家/地区数量等信息。

完整代码如下:

向AI提问 loading 发送消息图标

相关推荐

大家在看

recommend-type

UCF_50 人群密度估计数据集

这里面是UCF的人群密度数据集,适合做人群密度估计这方面的算法研究
recommend-type

《数据库原理与应用》大作业.zip

数据库,酒店点菜管理系统
recommend-type

Lumia-WoA-Installer:用于在Lumia 950 XL的ARM上安装Windows的GUI工具

Lumia Windows 10 ARM64安装程序 这是用于在Windows上为Lumia 950 XL安装Windows On ARM的GUI工具 要求 具有未锁定引导加载程序的Lumia 950 XL,可以正确进入大容量存储模式 Windows 10 ARM64映像(.wim) USB-C电缆 驱动程序包(您可以从 下载) 导入驱动程序包 运行WoA安装程序,然后转到“高级”部分。 单击[Import Driver Pacakge]然后直接选择.7z文件。 不要尝试解压缩它。 导入操作后,您将能够使用该应用程序。 用法 该应用程序非常易于使用。 请注意以下几点: 如果要安装Windows,请转到“ Windows部署”部分,然后选择“ Full Install或“ Windows-only Install 不要忘记切换到大容量存储模式来执行操作 欢迎捐款! 如果您觉得这很有用
recommend-type

六自由度Stewart平台的matlab模拟与仿真【包括程序操作视频】

1.版本:matlab2022A,包含仿真操作录像,中文注释,操作录像使用windows media player播放。 2.领域:Stewart平台 3.仿真效果:仿真效果可以参考博客同名文章《六自由度Stewart平台的matlab模拟与仿真》 4.内容:六自由度Stewart平台的matlab模拟与仿真。六自由度Stewart平台通过独立调整六根作动筒的长度(即活塞杆伸出量),能够实现上平台相对于下平台在三维空间中的平移(沿X、Y、Z轴的直线移动)以及绕三个正交轴的旋转(俯仰、偏航、滚转)。这种并联机构的设计使得平台能够在六个自由度上同时进行精确、快速且平稳的运动控制。 5.注意事项:注意MATLAB左侧当前文件夹路径,必须是程序所在文件夹位置,具体可以参考视频录。
recommend-type

基于CPLD的数字移相分频钟.pdf

基于CPLD的数字移相分频钟.pdf基于CPLD的数字移相分频钟.pdf

最新推荐

recommend-type

python爬虫框架scrapy实战之爬取京东商城进阶篇

在Python的Web爬虫领域,Scrapy是一个功能强大的框架,常被用于高效地爬取和处理网站数据。本篇文章将深入探讨如何使用Scrapy爬取京东商城的商品信息,特别关注动态加载的内容。 **一、Scrapy框架基础** Scrapy是...
recommend-type

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

在本篇【Python爬虫实例——scrapy框架爬取拉勾网招聘信息】中,我们将探讨如何使用Python的Scrapy框架来抓取拉勾网上的Python相关职位信息。首先,我们需要理解整个爬取流程和分析思路。 1. **分析查询结果页**: ...
recommend-type

单片机开发教程代码.doc

单片机开发教程代码涉及多个方面,包括硬件连接、软件编程、调试与优化等。以下是一个基于51单片机的简单教程代码示例,以及相关的开发步骤和解释。 ### 一、硬件连接 在进行单片机开发之前,首先需要正确连接硬件。以51单片机为例,通常需要将单片机的各个引脚与外围设备(如LED灯、按键、传感器等)进行连接。以下是一个简单的硬件连接示例: 1. 将单片机的P1.0引脚与LED灯的正极相连,LED灯的负极接地。 2. 将单片机的P3.2、P3.3、P3.4、P3.5引脚分别与四个按键的一端相连,按键的另一端接地。 ### 二、软件编程 在进行软件编程时,需要选择合适的编程语言(如C语言)和编译环境(如Keil C51)。以下是一个简单的51单片机程序示例,用于控制LED灯的亮灭和按键的扫描: ```c #include <reg51.h> sbit LED = P1^0; // 定义LED灯连接的引脚 void delay(unsigned int time) { unsigned int i, j; for (i = 0; i < time; i++) {
recommend-type

Flash AS3整合XML/ASP/JSON全站源码解析

从给定的文件信息中,我们可以提取出多个IT相关的知识点进行详细说明,包括Flash AS3、XML、ASP和JSON技术及其在整站开发中的应用。 首先,Flash AS3(ActionScript 3.0)是一种编程语言,主要用于Adobe Flash Player和Adobe AIR平台。Flash AS3支持面向对象的编程,允许开发复杂的应用程序。AS3是Flash平台上的主要编程语言,它与Flash的组件、框架和其他媒体类型如图形、音频、视频等紧密集成。在描述中提及的“falsh as3”多次重复,这表明源码中使用了Flash AS3来开发某些功能。 接着,XML(Extensible Markup Language)是一种标记语言,用于存储和传输数据。它不是用来显示数据的语言,而是用来描述数据的语言。XML的语法允许定义自己的标签,用于构建具有清晰结构的数据。在整站开发中,XML可以用于存储配置信息、状态数据、业务逻辑数据等。 ASP(Active Server Pages)是一种服务器端脚本环境,可以用来创建和运行动态网页或web应用。ASP代码在服务器上执行,然后向客户端浏览器发送标准的HTML页面。ASP技术允许开发者使用VBScript或JavaScript等脚本语言来编写服务器端的脚本。ASP通常与ADO(ActiveX Data Objects)结合,用于数据库操作。描述中提到的“asp”,指的应该是这种服务器端脚本技术。 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。JSON基于JavaScript的一个子集,但JSON是完全独立于语言的文本格式,它与JSON.com相关,语言无关。在Web服务和API中,JSON经常作为数据格式用于前后端的数据交换。描述中提到的“json”说明源码可能涉及将数据以JSON格式进行传输和处理。 在提及的文件名“哈尔滨鸭宝宝羽绒服饰有限公司”中,虽然它看起来像是一个公司名称,并非技术术语,但可以推测,这个名称可能是源码中包含的某个项目的名称或者是源码文件夹名称。 从以上信息中可以看出,所提及的整站源码可能是一个使用Flash AS3作为前端交互设计,结合ASP作为后端服务逻辑,以及XML和JSON作为数据交换格式来构建的企业级网站。这样的架构允许网站具有动态的内容展示和数据处理能力,同时能够与数据库进行交互,并通过JSON格式与外部应用程序进行通信。 总结来看,这份整站源码涉及的技术点较多,包括但不限于: - **Flash AS3的应用**:用于设计和实现复杂的交互式前端界面,实现动画、游戏、商业应用程序等。 - **XML的作用**:在项目中可能用作配置文件存储,或者是后端服务与前端交互过程中传输的结构化数据格式。 - **ASP的运用**:作为动态网站的后端解决方案,处理服务器端逻辑,如用户认证、数据库交互等。 - **JSON的使用**:作为前后端通信的数据交换格式,便于前端页面和后端服务之间进行数据的发送和接收。 - **整站开发的综合应用**:涉及前端设计与后端逻辑的整合,以及跨语言的数据处理能力。 以上就是对给定文件信息中提到的知识点的详细解读。
recommend-type

大唐电话交换机的架构解析:揭秘工作原理及优化技巧

# 摘要 本论文对大唐电话交换机进行了全面的概述,详细解析了其工作原理、硬件架构和软件架构。首先介绍了交换机的基本概念和电路交换技术以及包交换技术的工作原理。接着,分析了交换机核心组件,包括处理器单元和存储单元,以及接口与线路板的功能和设计。文中还探讨了交换机的硬件架构,如硬件冗余机制和容错技术。在软件方面,阐述了软件架构、性能监控与管理以及故障诊断与恢复策略。此外,论文还通过案例分析了大唐交
recommend-type

用c语言写一个头插法进链表的函数带指针

### C语言头插法插入链表的函数实现 以下是基于提供的引用内容以及专业知识设计的一个完整的头插法插入链表的函数实现: #### 函数说明 该函数通过指针操作实现了头插法创建单链表的功能。每次插入的新节点会成为链表的第一个节点。 ```c #include <stdio.h> #include <stdlib.h> // 定义链表节点结构体 typedef struct LinkList { int data; // 数据域 struct LinkList *next; // 指针域 } LinkList; // 头插法插入链表的函数 vo
recommend-type

安卓平台上仿制苹果风格的开关按钮设计

在Android开发中,仿制其他平台如iPhone的UI控件是一种常见的需求,特别是在需要保持应用风格一致性时。标题中提到的“android开发仿iphone开关按钮”所指的知识点主要涉及两个方面:一是Android的开关按钮控件(Switch),二是如何使其外观和行为模仿iOS平台上的类似控件。 首先,让我们从Android原生的Switch控件开始。Switch是Android提供的一种UI控件,用于提供一种简单的二态选择,通常用于表示开/关状态。它由一个滑块和两个不同颜色的轨道组成,滑块的左右两侧分别代表不同的状态。Switch在Android开发中一般用于设置选项的开启与关闭。 接着,要使Android的Switch控件外观和行为模仿iOS平台的开关按钮,需要关注以下几点: 1. 外观设计:iOS的开关按钮外观简洁,通常具有圆角矩形的滑块和轨道,并且滑块的高光效果、尺寸和颜色风格与原生Android Switch有所不同。在Android上,可以通过自定义布局来模仿这些视觉细节,例如使用图片作为滑块,以及调整轨道的颜色和形状等。 2. 动画效果:iOS开关按钮在切换状态时具有平滑的动画效果,这些动画在Android平台上需要通过编程实现。开发者可以使用Android的属性动画(Property Animation)API来创建类似的动画效果,或者使用第三方库来简化开发过程。 3. 反馈机制:iOS的交互设计中通常会包含触觉反馈(Haptic Feedback),比如当用户操作开关时,设备会通过震动给予反馈。在Android设备上,虽然不是所有设备都支持触觉反馈,但开发者可以通过振动API(Vibrator API)添加类似的功能,增强用户体验。 4. 用户体验:iOS的交互元素通常在视觉和交互上都有较高的质量和一致性。在Android上仿制时,应该注重用户的交互体验,比如滑动的流畅性、按钮的响应速度以及是否支持快速连续切换等。 现在,来看一下如何在Android中实际实现这样的仿制控件。这里将会使用到自定义View的概念。开发者需要创建一个继承自View或其子类的自定义控件,并重写相应的测量和绘制方法(比如`onDraw`方法)来自定义外观。还可以通过状态监听来模拟iOS的交互效果,比如监听触摸事件(`onTouch`)来处理滑块的移动,并通过回调函数(`setOnCheckedChangeListener`)来响应状态变化。 在实际开发过程中,一个有效的办法是使用图形编辑软件设计好开关按钮的各个状态下的图片资源,然后在自定义View的`onDraw`方法中根据控件的状态来绘制不同的图片。同时,通过监听触摸事件来实现滑块的拖动效果。 总结起来,创建一个在Android平台上外观和行为都与iOS相似的开关按钮,需要开发者具备以下知识点: - Android自定义View的使用和原理 - Android UI布局和绘图方法,包括使用`Canvas`类 - 触摸事件处理和状态监听 - 图片资源的使用和优化 - 动画效果的创建和实现 - 可选的,对设备震动反馈功能的支持 - 对目标平台交互设计的理解和模仿 通过上述知识点的学习和应用,开发者便能创建出既符合Android风格又具有iOS特色的开关按钮控件。这种控件既满足了跨平台的UI一致性,同时也为Android用户提供熟悉的交互体验。
recommend-type

【Oracle 11g SQL进阶】:24小时内打造高效SQL语句的终极实践指南

# 摘要 本文旨在深入探讨Oracle 11g SQL的高级应用和性能优化技术。首先回顾SQL基础,并对执行计划进行详细解析,强调执行计划的重要性及获取和解读方法。接着探讨SQL语句性能调优技术,包括性能分析工具的应用、索引优化、查询优化技巧等。文章进一步介绍了高级SQL函数的运用,数据加密与安全最佳
recommend-type

FlashFXP.exe连接错误SSH 错误: 协商密钥交换算法失败的解决版本

### FlashFXP SSH 密钥交换算法失败的解决方案 当遇到 FlashFXP 连接时因 SSH 协商密钥交换算法失败的问题时,通常是因为服务器端和客户端之间的加密协议或密钥交换算法不兼容所致。以下是针对该问题的具体分析与解决方法: #### 1. 删除原有密钥并重新生成 如果存在旧有的密钥文件可能导致冲突,则可以通过删除这些密钥文件来解决问题。执行以下命令以移除现有的密钥文件,并重新生成新的密钥对: ```bash ┌──(root㉿kali)-[/etc/ssh] └─# rm -r /etc/ssh/ssh*key └─# dpkg-reconfigure openssh
recommend-type

用R代码复制认知僵化与极端主义行为关联研究

本篇内容围绕“认知僵化是否可以预测暴力极端主义行为意图?”的研究项目,涉及多个重要的数据分析和统计学概念,并且要求对R语言有一定的理解和应用能力。接下来将详细解释与之相关的知识点。 ### R语言和统计分析 R语言是一种用于统计计算和图形表示的编程语言,它在数据分析、机器学习和数据可视化领域具有广泛的应用。R语言的灵活性和社区支持的强大生态系统使它成为处理复杂数学模型和统计推断的理想选择。在认知心理学和政治科学等社会科学领域,R语言也经常被用于评估变量之间的关联以及预测潜在的行为模式。 ### 认知僵化与暴力极端主义 认知僵化是指个体在思维过程中表现出的一种难以适应新环境、新情况的固执状态。这种心理特征可能与多种社会现象和个体行为相关联,包括暴力极端主义。极端主义行为意图的研究对于理解其背后的心理机制至关重要,有助于制定预防措施和干预策略。 ### 注册直接复制报告 注册直接复制报告是科研领域中对原始研究进行系统复制的一种方式。它要求研究者严格依据原始研究的设计、方法论和分析步骤重新进行实验,并公开复制研究过程中的所有数据和代码。这种做法有助于提高科学研究的透明度和可重复性,是科研诚信的重要体现。 ### R代码和数据存储库 文中提到的“cogflexreplication”是一个包含R代码和数据存储库的项目,它允许其他研究者下载数据和脚本,重新进行数据分析,以验证原研究的可重复性。数据存储库通常包含原始数据集、分析脚本和代码手册,以及任何相关的文档说明,方便其他研究者理解和复现实验结果。 ### R依赖项和R包 为了运行项目中的R脚本,需要安装和配置特定的R依赖项和R包。这些软件包可能包含用于数据处理、统计分析和图形生成的函数和工具。在R中,包是分享和重用代码的常用方式,例如“ggplot2”用于创建复杂的图表,“dplyr”用于数据操作等。 ### 公共数据集和数据隐私 公共数据集是为项目进行分析而提供的数据,但文中提到有六个案例的数据未包括在内,因为这些参与者不同意共享他们的数据。在处理个人数据时,隐私和数据保护法律至关重要。研究者必须遵守相关法律,并在收集、存储和处理数据时采取适当的隐私保护措施。 ### 代码手册和项目文档 代码手册是解释项目中使用的代码和变量的文档。它有助于确保其他研究者能够理解代码的具体功能,包括变量是如何与研究中的概念关联的。项目文档,如“附录:原讼法庭的项目和分摊比额表”,则提供了研究中的具体分析项目的详细说明,包括认知灵活性清单的项目/代码及其预期的子量表分配。 综上所述,本篇内容强调了科学研究中的透明度、可重复性,以及在心理和行为研究中使用统计工具的重要性。同时,它也突出了在研究过程中,合理使用数据和尊重参与者隐私的伦理责任。通过对R语言和相关统计分析方法的掌握,研究者能够对复杂的行为模式进行深入研究,并为政策制定提供科学依据。
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部