Spark-shell统计各类别餐饮点评数,并按降序排列
时间: 2023-07-19 09:11:03 浏览: 92
餐饮推荐系统
5星 · 资源好评率100%
可以使用Spark-shell中的RDD和SparkSQL来实现该功能。假设数据集中包含每个餐饮点评的类别信息,可以按照以下步骤进行操作:
1. 读取数据集并创建RDD:
```
val reviewsRDD = sc.textFile("path/to/reviews")
```
2. 将每行数据按照制表符分割,并提取出类别信息:
```
val categoriesRDD = reviewsRDD.map(line => line.split("\t")(2))
```
3. 统计每个类别的点评数:
```
val categoryCountsRDD = categoriesRDD.map(category => (category, 1)).reduceByKey(_ + _)
```
4. 将统计结果按照降序排列:
```
val sortedCountsRDD = categoryCountsRDD.sortBy(_._2, false)
```
5. 输出结果:
```
sortedCountsRDD.foreach(println)
```
以上代码可以在Spark-shell中直接执行。如果数据集比较大,可以使用SparkSQL来进行优化。
阅读全文