SparkCore与SparkSQL实战：数据分析与去重应用

版权申诉

5星 · 超过95%的资源 26 浏览量更新于2024-08-04 收藏 44KB DOCX 举报

SparkCore与SparkSQL是Apache Spark的重要组成部分，SparkCore是Spark的基础库，提供了一种基于内存的分布式数据处理模型，而SparkSQL则是在Spark之上构建的用于处理结构化数据的工具。在这个文档中，我们看到一系列针对SparkCore和SparkSQL的练习题，旨在帮助学习者掌握Pandas API风格的SQL查询以及在Spark环境下进行数据分析。首先，练习涉及了Pyspark交互式编程，这是使用Python语言与Spark交互的方式。实验数据包括"chapter2-data1.txt"，它包含了一个大学计算机系的成绩信息，包括学生ID、姓名、课程名和成绩。练习内容要求计算： 1. **学生总数**：通过Pyspark读取数据，然后统计行数得出系内学生总数，答案是265人。 2. **课程数量**：同样通过数据处理找出课程的不同类别，即课程数量。 3. **Tom同学的平均成绩**：筛选出Tom的数据，计算其所有课程的平均分。 4. **每名同学选修课程数**：统计每个学生选修的课程数目。 5. **DataBase课程选修人数**：查找特定课程（如DataBase）的学生人数。 6. **各门课程平均分**：计算每门课程的平均成绩。 7. **选DataBase课程的人数累加器**：使用Spark的累加器功能，累计选择DataBase课程的学生人数。接下来的练习涉及数据去重，要求编写Spark独立应用程序，将两个输入文件A和B中的重复项去除，生成去重后的文件C。这涉及到数据的合并、过滤和排序操作，展示了Spark在数据处理中的去重能力。最后，是求平均成绩的问题，针对不同学科的成绩数据，需要编写程序计算每个班级的平均成绩，并输出到新的文件中。这涉及到数据清洗、分组统计和结果保存等步骤。在"chapter4-data1.txt"的数据集上，同样可以应用这些概念，例如计算该系的特定统计信息或执行更复杂的分析任务。通过这些实践，学习者不仅可以巩固基础的Spark编程技巧，还能提升数据处理和分析的能力。总结来说，这个文档提供了丰富的SparkCore和SparkSQL实战练习，涵盖了数据加载、基本统计分析、数据去重、以及数据清洗和平均值计算等多个关键环节，有助于提升用户对Spark生态系统理解和应用的深度。

Jim,DataStructure,80

……

请根据给定的实验数据，在 pyspark 中通过编程来计算以下内容：

【参考答案】

（1）该系总共有多少学生；

>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

>>> res = lines.map(lambda x:x.split(",")).map(lambda x: x[0]) //获取每行数据的第 1 列

>>> distinct_res = res.distinct() //去重操作

>>> distinct_res.count()//取元素总个数

//265

答案为：265 人

（2）该系共开设了多少门课程；

>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

>>> res = lines.map(lambda x:x.split(",")).map(lambda x:x[1]) //获取每行数据的第 2 列

>>> distinct_res = res.distinct()//去重操作

>>> distinct_res.count()//取元素总个数

//8

答案为 8 门

（3） Tom 同学的总成绩平均分是多少；

>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

>>> res = lines.map(lambda x:x.split(",")).filter(lambda x:x[0]=="Tom") //筛选 Tom 同学的成绩

信息

>>> res.foreach(print)

>>> score = res.map(lambda x:int(x[2])) //提取 Tom 同学的每门成绩，并转换为 int 类型

>>> num = res.count() //Tom 同学选课门数

>>> sum_score = score.reduce(lambda x,y:x+y) //Tom 同学的总成绩

>>> avg = sum_score/num // 总成绩/门数=平均分

>>> print(avg)

//30.8

Tom 同学的平均分为 30.8 分

（4）求每名同学的选修的课程门数；

>>> lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

>>> res = lines.map(lambda x:x.split(",")).map(lambda x:(x[0],1)) //学生每门课程都对应(学生

姓名,1)，学生有 n 门课程则有 n 个(学生姓名,1)

>>> each_res = res.reduceByKey(lambda x,y: x+y) //按学生姓名获取每个学生的选课总数

>>> each_res.foreach(print)

答案共 265 行

('Lewis', 4)

('Mike', 3)

('Walter', 4)

('Conrad', 2)

('Borg', 4)

……

（5）该系 DataBase 课程共有多少人选修；

剩余11页未读，继续阅读

AIMaynor

粉丝: 7w+

SparkCore与SparkSQL实战：数据分析与去重应用

蓝桥杯介绍&心得&往年试题&相关练习.docx

乌班图&小红帽&CentOS区别.docx

Ardence Rtx环境搭建&开发应用程序&驱动流程.docx

[案例]个性饰品店创业计划书[策划&调研].docx

Apache Spark：SparkSQL入门与实践.docx

spark环境配置.doc.docx

03_SparkSql.docx

spark集群部署及入门.docx

spark-sql课堂讲义.docx

Spark SQL 重点知识总结.docx

最新资源