首页Spark-shell统计各类别餐饮点评数，并按降序排列

Spark-shell统计各类别餐饮点评数，并按降序排列

时间: 2023-07-19 09:11:03 浏览: 92

餐饮推荐系统

5星 · 资源好评率100%

Alpha版本：开发了一个交互式网页，使用户可以根据自己的喜好查看附近的推荐餐厅。编写Java Servlet服务以从Yelp API获取餐厅数据。利用 / 存储用户偏好和餐厅信息。设计并实现了一种过滤和分类算法，用于根据相似用户的偏好来识别餐厅。通过按星级，与用户的距离和类别对餐厅进行排序，提高了推荐的准确性。 Beta版本：（将应用程序迁移到AWS）在AWS和GCP上构建了一个自动恢复，完全备份，安全，弹性和Docker化的应用程序。编写Java Servlet服务以从Yelp API获取餐厅数据。通过自动伸缩组和应用程序负载平衡器执行自动伸缩功能，以获得更好的性能（可伸缩）。设置CloudWatch以监视CPU使用率并提供警报的详细信息和阈值。将关系数据库托管在AWS RDS中以实现无状态存储用户偏好和餐厅信息。将应用程序文件和服务器日志文

可以使用Spark-shell中的RDD和SparkSQL来实现该功能。假设数据集中包含每个餐饮点评的类别信息，可以按照以下步骤进行操作： 1. 读取数据集并创建RDD： ``` val reviewsRDD = sc.textFile("path/to/reviews") ``` 2. 将每行数据按照制表符分割，并提取出类别信息： ``` val categoriesRDD = reviewsRDD.map(line => line.split("\t")(2)) ``` 3. 统计每个类别的点评数： ``` val categoryCountsRDD = categoriesRDD.map(category => (category, 1)).reduceByKey(_ + _) ``` 4. 将统计结果按照降序排列： ``` val sortedCountsRDD = categoryCountsRDD.sortBy(_._2, false) ``` 5. 输出结果： ``` sortedCountsRDD.foreach(println) ``` 以上代码可以在Spark-shell中直接执行。如果数据集比较大，可以使用SparkSQL来进行优化。

阅读全文