用scala进行分析。文件说明 Ratings.csv文件文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下： userId, movieId, rating, timestamp userId: 每个用户的id movieId: 每部电影的id rating: 用户评分，是5星制 timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数 movies.csv文件 movieId: 每部电影的Id title：每部电影的名字题目说明（1）统计电影总数（去重）（2）合并两个文件，计算每部电影的平均得分是多少（说明：显示结果为movieId，title，平均得分）（3）统计得分（平均分）排名前10的电影（输出电影名称）（4）统计最受欢迎的电影（即评分人数最多的电影），

时间: 2024-03-02 11:49:23 浏览: 163

用Scala进行分析，可以使用Spark框架来处理这些数据。首先，我们需要导入Spark相关的包和创建SparkSession： ```scala import org.apache.spark.sql.SparkSession val spark = SparkSession.builder() .appName("Movie Ratings Analysis") .master("local[*]") .getOrCreate() ``` 然后，我们可以读取Ratings.csv和movies.csv文件，并将它们转化为DataFrame： ```scala val ratingsDF = spark.read.format("csv") .option("header", "true") .load("path/to/Ratings.csv") val moviesDF = spark.read.format("csv") .option("header", "true") .load("path/to/movies.csv") ``` 接下来，我们可以开始进行数据分析。（1）统计电影总数（去重）我们可以使用DataFrame的distinct方法来去重，并使用count方法来计算总数： ```scala val totalMovies = moviesDF.select("movieId").distinct().count() println(s"Total number of movies: $totalMovies") ``` （2）合并两个文件，计算每部电影的平均得分是多少我们可以使用DataFrame的join方法来将Ratings.csv和movies.csv文件合并，然后使用groupBy和avg方法来计算每部电影的平均得分： ```scala val combinedDF = ratingsDF.join(moviesDF, "movieId") val avgRatingsDF = combinedDF.groupBy("movieId", "title") .avg("rating") .orderBy("movieId") .withColumnRenamed("avg(rating)", "averageRating") avgRatingsDF.show(false) ``` （3）统计得分（平均分）排名前10的电影（输出电影名称）我们可以使用DataFrame的orderBy和limit方法来排序和限制结果集： ```scala val top10DF = avgRatingsDF.orderBy($"averageRating".desc).limit(10) val top10Titles = top10DF.select("title").collect().map(_.getString(0)) println(s"Top 10 movies by average rating: ${top10Titles.mkString(", ")}") ``` （4）统计最受欢迎的电影（即评分人数最多的电影）我们可以使用DataFrame的count方法来计算每部电影的评分人数，并使用orderBy和limit方法来获取评分人数最多的电影： ```scala val popularDF = combinedDF.groupBy("movieId", "title") .count() .orderBy($"count".desc) .limit(1) val popularMovie = popularDF.select("title").collect().map(_.getString(0)).head val popularCount = popularDF.select("count").collect().map(_.getLong(0)).head println(s"Most popular movie: $popularMovie ($popularCount ratings)") ``` 完整的代码如下： ```scala import org.apache.spark.sql.SparkSession val spark = SparkSession.builder() .appName("Movie Ratings Analysis") .master("local[*]") .getOrCreate() val ratingsDF = spark.read.format("csv") .option("header", "true") .load("path/to/Ratings.csv") val moviesDF = spark.read.format("csv") .option("header", "true") .load("path/to/movies.csv") val totalMovies = moviesDF.select("movieId").distinct().count() println(s"Total number of movies: $totalMovies") val combinedDF = ratingsDF.join(moviesDF, "movieId") val avgRatingsDF = combinedDF.groupBy("movieId", "title") .avg("rating") .orderBy("movieId") .withColumnRenamed("avg(rating)", "averageRating") avgRatingsDF.show(false) val top10DF = avgRatingsDF.orderBy($"averageRating".desc).limit(10) val top10Titles = top10DF.select("title").collect().map(_.getString(0)) println(s"Top 10 movies by average rating: ${top10Titles.mkString(", ")}") val popularDF = combinedDF.groupBy("movieId", "title") .count() .orderBy($"count".desc) .limit(1) val popularMovie = popularDF.select("title").collect().map(_.getString(0)).head val popularCount = popularDF.select("count").collect().map(_.getLong(0)).head println(s"Most popular movie: $popularMovie ($popularCount ratings)") ```

阅读全文

相关推荐

Scala大数据分析项目：用户上网行为解析源码.zip

简化CSV数据处理：探索kantan.csv Scala库

Scala CSV解析器库：高效处理CSV文件

使用Scala统计最受欢迎的电影（即评分人数最多的电影）， 思路:4.1对Ratings.csv文件操作，统计每部电影的评分人数 4.2对评分人数进行排序 4.3在movies.csv文件中过滤出评分人数最多的电影名称

csvquery：利用Scala和ScalikeJDBC简化CSV文件SQL处理

利用Spark与Scala进行电影数据分析

科研工作量管理系统(代码+数据库+LW)

基于遗产算法的多目标分布式电源选址定容 以投资成本、网络损耗和系统电压稳定性为目标实现分布式电源选址定容，通过IEEE33节点系统进行仿真验证，结果如下图所示

jh_flutter_demo.apk

windows jdk 8 ,jdk 11, jdk 17

带定位坐标世界地图PPT模板-1.pptx

动态效果中国地图PPT模板-1.pptx

大家在看

台达变频器资料.zip

有限元软件Patran的二次开发语言PCL入门笔记

电力行业数字化转型智慧电力一体化监管云平台整体解决方案.docx

摩托车ECU硬件设计，程序源代码需自己开发

多无人机和实时局部轨迹规划最佳防撞算法附matlab代码.zip

最新推荐

科研工作量管理系统(代码+数据库+LW)

基于遗产算法的多目标分布式电源选址定容 以投资成本、网络损耗和系统电压稳定性为目标实现分布式电源选址定容，通过IEEE33节点系统进行仿真验证，结果如下图所示

jh_flutter_demo.apk

租赁合同编写指南及下载资源

【项目管理精英必备】：信息系统项目管理师教程习题深度解析（第四版官方教材全面攻略）

最具代表性的改进过的UNet有哪些？

惠普P1020Plus驱动下载：办公打印新选择

数字电路实验技巧：10大策略，让你的实验效率倍增！

altium designer布线

Rust与OpenGL共同打造的迷宫游戏

使用Scala统计最受欢迎的电影（即评分人数最多的电影），思路:4.1对Ratings.csv文件操作，统计每部电影的评分人数 4.2对评分人数进行排序 4.3在movies.csv文件中过滤出评分人数最多的电影名称

基于遗产算法的多目标分布式电源选址定容以投资成本、网络损耗和系统电压稳定性为目标实现分布式电源选址定容，通过IEEE33节点系统进行仿真验证，结果如下图所示

基于遗产算法的多目标分布式电源选址定容以投资成本、网络损耗和系统电压稳定性为目标实现分布式电源选址定容，通过IEEE33节点系统进行仿真验证，结果如下图所示