首页spark scala统计最受欢迎的电影（即评分人数最多的电影）

spark scala统计最受欢迎的电影（即评分人数最多的电影）

时间: 2023-11-08 22:11:22 浏览: 33

要使用Spark Scala统计最受欢迎的电影，我们可以使用MovieLens数据集，该数据集包含了电影的评分数据。以下是一些伪代码，可以帮助你开始使用Spark Scala进行计算： ```scala // 导入必要的库 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions.desc // 创建一个SparkSession对象 val spark = SparkSession.builder.appName("PopularMovies").getOrCreate() // 读取电影评分数据 val ratings = spark.read.format("csv") .option("header", "true") .option("inferSchema", "true") .load("path/to/ratings.csv") // 统计每部电影的评分人数 val num_ratings = ratings.groupBy("movieId").count() // 找到评分人数最多的电影 val most_popular = num_ratings.orderBy(desc("count")).first() // 打印结果 println("The most popular movie is movie ID " + most_popular(0) + " with " + most_popular(1) + " ratings.") ``` 上述代码假设评分数据存储在名为“ratings.csv”的文件中，其中第一行是标题行，每行包含一个评分（包括电影ID、用户ID和评分）。这个代码片段将统计每部电影的评分人数，并找到评分人数最多的电影。