首页 spark 9个题分别用3种方法rdd； df；scs 已建好RDD，DataFrame和临时表，写分析代码： (1)大于95分的得分人次？ (2)Tom选修的科目和考分？ (3)有哪些选修课？ (4)调整20%平时分 (5)每门课的选修人数，按选修人数排序 (6)每门课的平均分，按平均分排序。 (7)每个人的选修课数，平均分，总分 (8)Python考试的前10名 (9)Python课程80分以上的学生人数

spark 9个题分别用3种方法rdd； df；scs 已建好RDD，DataFrame和临时表，写分析代码： (1)大于95分的得分人次？ (2)Tom选修的科目和考分？ (3)有哪些选修课？ (4)调整20%平时分 (5)每门课的选修人数，按选修人数排序 (6)每门课的平均分，按平均分排序。 (7)每个人的选修课数，平均分，总分 (8)Python考试的前10名 (9)Python课程80分以上的学生人数

时间: 2024-03-11 07:43:37 浏览: 188

1. RDD方法： ``` # 大于95分的得分人次 rdd.filter(lambda x: x[1] > 95).count() ``` 2. DF方法： ``` # 大于95分的得分人次 df.filter(df.score > 95).count() ``` 3. Spark SQL方法： ``` # 大于95分的得分人次 spark.sql("SELECT COUNT(*) FROM temp_table WHERE score > 95").show() ``` 4. RDD方法： ``` # 调整20%平时分 rdd.map(lambda x: (x[0], x[1]*0.8 + x[2]*0.2, x[3])).collect() ``` 5. DF方法： ``` # 每门课的选修人数，按选修人数排序 df.groupBy('subject').count().orderBy('count', ascending=False).show() ``` 6. Spark SQL方法： ``` # 每门课的平均分，按平均分排序 spark.sql("SELECT subject, AVG(score) as avg_score FROM temp_table GROUP BY subject ORDER BY avg_score DESC").show() ``` 7. DF方法： ``` # 每个人的选修课数，平均分，总分 df.groupBy('name').agg({'subject':'count', 'score':'mean', 'score':'sum'}).show() ``` 8. RDD方法： ``` # Python考试的前10名 rdd.filter(lambda x: x[0] == 'Python').sortBy(lambda x: -x[1]).take(10) ``` 9. Spark SQL方法： ``` # Python课程80分以上的学生人数 spark.sql("SELECT COUNT(DISTINCT name) FROM temp_table WHERE subject = 'Python' AND score >= 80").show() ```

阅读全文

最新推荐

相关推荐

Spark创建RDD、DataFrame分区优化：默认值与调优策略

Spark创建RDD与DataFrame默认分区策略详解

Spark入门：RDD到DataFrame的转换详解

spark 已建好RDD，DataFrame和临时表， rdd df scs直接写 每门课的平均分，按平均分排序

spark rdd api dataframe 以及dataframe rdd dataset 相互转换 spark sql

spark: RDD与DataFrame之间的相互转换方法

spark rdd dataframe dataset

spark dataframe转rdd

Java和scala实现 Spark RDD转换成DataFrame的两种方法小结

Spark视频第5课_深入理解Spark RDD&Dataframe;

java spark rdd转为dataframe

生成一个数据集，用spark-scala进行分析，读取文件为RDD，将Rdd转换为dataFrame ，对dataFrame进行dsl操作或者sql操作，然后存进hdfs，并用Sparksteaming进行监控，对其数据进行分析，得到有用结果

spark sql原理及使用 基本使用mysql hive rdd转为dataframe

spark将rdd转换为dataframe

rdd和dataframe和dataset

Spark RDD 算子详解：实现原理与执行流程分析

最新推荐

spark rdd转dataframe 写入mysql的实例讲解

pandas和spark dataframe互相转换实例详解

Spark dataframe使用详解

scala 操作RDD的代码分析实例

实验七：Spark初级编程实践

Elasticsearch核心改进：实现Translog与索引线程分离

管理建模和仿真的文件

病房呼叫系统设计基础：7个关键架构策略让你一步入门

Selenium如何获取Shadow DOM下的元素属性？

分享个人Vim与Git配置文件管理经验

spark 已建好RDD，DataFrame和临时表， rdd df scs直接写每门课的平均分，按平均分排序

spark sql原理及使用基本使用mysql hive rdd转为dataframe