请利用https://www.kaggle.com/datasets/whenamancodes/popular movies-datasets-58000-movies?resource=download 中包含文件：genome-tags.csv, links.csv, movies.csv, ratings.csv and tags.csv的数据，要求编程统计出不同体裁、年份的电影的数量，分析不同年代的哪种体裁的电影最多。可采用的组件有 MapReduce、HBase、 Hive、Spark core 和 Spark SQL 等；（HiveQL 与基于 Hive 的 Spark SQL 不能同时使用） 3、相关数据文件必须上传到 HDFS 分布式文件系统上存储，数据处理分析结果需要打印输出到屏幕上并且导出文件保存到 HDFS 上；（输出结果包含非常多条记录时，请只打印前 10 条，但是导出到文件的记录须是完整的）

时间: 2024-04-02 14:34:19 浏览: 66

好的，我会根据您的要求进行编程统计。首先，我们需要将数据文件上传到 HDFS 分布式文件系统上存储。假设我们已经将数据文件上传到了 HDFS 的 `/input` 目录下，接下来我们可以使用 Spark SQL 来分析数据。以下是代码实现： ```python from pyspark.sql import SparkSession # 创建 SparkSession spark = SparkSession.builder \ .appName("PopularMoviesAnalysis") \ .getOrCreate() # 读取数据文件 movies_df = spark.read.csv("hdfs://localhost:9000/input/movies.csv", header=True) ratings_df = spark.read.csv("hdfs://localhost:9000/input/ratings.csv", header=True) tags_df = spark.read.csv("hdfs://localhost:9000/input/tags.csv", header=True) # 注册为临时表 movies_df.createOrReplaceTempView("movies") ratings_df.createOrReplaceTempView("ratings") tags_df.createOrReplaceTempView("tags") # 统计不同体裁、年份的电影数量 genre_count_df = spark.sql(""" SELECT genres, SUBSTR(release_date, 1, 4) AS year, COUNT(*) AS count FROM movies GROUP BY genres, SUBSTR(release_date, 1, 4) ORDER BY year, count DESC """) genre_count_df.show(10) # 分析不同年代的哪种体裁的电影最多 most_popular_genre_df = spark.sql(""" SELECT year, genres, count FROM ( SELECT year, genres, count, ROW_NUMBER() OVER (PARTITION BY year ORDER BY count DESC) AS rank FROM ( SELECT SUBSTR(release_date, 1, 4) AS year, genres, COUNT(*) AS count FROM movies GROUP BY SUBSTR(release_date, 1, 4), genres ) AS genre_count ) AS ranked_genre_count WHERE rank = 1 ORDER BY year """) most_popular_genre_df.show(10) # 导出结果到 HDFS genre_count_df.write.csv("hdfs://localhost:9000/output/genre_count", header=True) most_popular_genre_df.write.csv("hdfs://localhost:9000/output/most_popular_genre", header=True) ``` 代码中，我们首先创建了一个 SparkSession 实例，然后读取了 `movies.csv`、`ratings.csv` 和 `tags.csv` 文件，并将它们注册为临时表。接着，我们使用 Spark SQL 统计不同体裁、年份的电影数量，并按照年份和数量的降序排序。最后，我们分析不同年代的哪种体裁的电影最多，并将结果导出到 HDFS 上。运行上述代码后，将会输出前 10 条不同体裁、年份的电影数量和前 10 条不同年代的哪种体裁的电影最多的结果，并将结果保存到 HDFS 上的 `/output` 目录下。

阅读全文

相关推荐

Data Source : Kaggle Data Source Link : https://www.kaggle.com/

Predict-Future-Sales：https：//www.kaggle.comccompetitive-data-science-predict-future-sales

kaggle手写数字打榜数据集，网址：https://www.kaggle.com/competitions/digit-rec

火山爆发预测：https：//www.kaggle.comcpredict-volcanic-eruptions-ingv-oeoverview

胸部X射线图像：https：//www.kaggle.compaultimothymooneychest-X射线-肺炎

em算法matlab代码-Otto-Product-Search:https://www.kaggle.com/c/otto-group-pr

帮我分析https://www.kaggle.com/datasets?select=sum_viz.csv

https://www.kaggle.com/datasets

根据数据集https://www.kaggle.com/datasets/harish24/music-genre-classification

https://www.kaggle.com/datasets/shmilyc/baoxian进行可视化分析

https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset

从https://www.kaggle.com/datasets上爬取Oil Spill Classifications数据

utlog.sqlite

钢结构原理课程设计：露顶式平面钢闸门设计任务及指南

springboot-vue-数计学院学生综合素质评价系统的设计与实现-源码工程-29页从零开始全套图文详解-28页设计论文-21页答辩ppt-全套开发环境工具、文档模板、电子教程、视频教学资源分享

四相交错并联同步整流Buck变器 MATLAB仿真 低压大电流 输入：12VDC 输出：1V 100A 单相电流25A 关键参数设计，磁元件设计 理想仿真，实现均流输出

Python机器人-这是机器人算法的 Python 代码集合

mellitz_3dj_01_2411.zip

Shell编程范例完整版PDF最新版本

大家在看

一种基于SLA的业务管理模型

蓝矩智慧校友管理系统

ThinkPadT61升级BIOS2.29程序，升级后可支持8GB内存，SATAIII固态盘，支持T9300CPU

saml-idp.zip

思科无线接入点无法连接到无线 LAN 控制器

最新推荐

utlog.sqlite

钢结构原理课程设计：露顶式平面钢闸门设计任务及指南

springboot-vue-数计学院学生综合素质评价系统的设计与实现-源码工程-29页从零开始全套图文详解-28页设计论文-21页答辩ppt-全套开发环境工具、文档模板、电子教程、视频教学资源分享

四相交错并联同步整流Buck变器 MATLAB仿真 低压大电流 输入：12VDC 输出：1V 100A 单相电流25A 关键参数设计，磁元件设计 理想仿真，实现均流输出

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南

"互动学习：行动中的多样性与论文攻读经历"

四相交错并联同步整流Buck变器 MATLAB仿真低压大电流输入：12VDC 输出：1V 100A 单相电流25A 关键参数设计，磁元件设计理想仿真，实现均流输出

四相交错并联同步整流Buck变器 MATLAB仿真低压大电流输入：12VDC 输出：1V 100A 单相电流25A 关键参数设计，磁元件设计理想仿真，实现均流输出