在scala中dataframe文件,计算每部电影的平均得分
时间: 2023-11-22 14:54:42 浏览: 74
computation-expressions:Scala中计算表达式的实现
假设你已经读取了一个名为`ratings`的DataFrame,它包含用户对电影的评分,其中包括列`movieId`和`rating`。你可以按以下方式计算每部电影的平均得分:
```scala
import org.apache.spark.sql.functions._
val avgRatings = ratings.groupBy("movieId").agg(avg("rating").as("avgRating"))
```
这将返回一个名为`avgRatings`的DataFrame,其中包含每部电影的平均得分。该DataFrame具有两列:`movieId`和`avgRating`,其中`movieId`是电影的ID,`avgRating`是该电影的平均得分。
阅读全文