Scala用RDD求学生平均成绩

假设我们有一个学生成绩的RDD，其中每个元素都是`(学生ID, 成绩)`的二元组，可以使用以下代码来求学生平均成绩： ```scala val scores: RDD[(String, Double)] = ... // (学生ID, 成绩) 的二元组RDD val avgScores: RDD[(String, Double)] = scores .groupByKey() // 按学生ID分组 .mapValues(scores => scores.sum / scores.size) // 计算平均成绩 avgScores.foreach(println) // 输出结果 ``` 首先，使用 `groupByKey()` 按学生ID将成绩分组，然后使用 `mapValues()` 对每个分组计算平均成绩。最终得到一个 `(学生ID, 平均成绩)` 的二元组RDD。

正确读取学生成绩数据，创建对应的RDD，利用RDD相关算子，求解学生的平均成绩，以及没门课程的平均成绩。

假设我们有一个学生成绩数据文件 `scores.txt`，文件中每一行包含三个字段：生ID、课程名称、成绩，用逗号分隔。例如： ``` 1001,Math,80 1002,Math,90 1001,English,75 1002,English,85 ``` 可以使用以下代码读取文件并计算学生和课程的平均成绩： ```scala import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("AverageScore").setMaster("local") val sc = new SparkContext(conf) // 读取学生成绩数据文件 val scores = sc.textFile("scores.txt") .map(line => { val fields = line.split(",") val studentId = fields(0) val course = fields(1) val score = fields(2).toDouble ((studentId, course), score) // 构建二元组 ((学生ID, 课程名称), 成绩) }) // 计算学生平均成绩 val avgScoresByStudent = scores .mapValues(score => (score, 1)) // 将每个成绩映射为 (成绩，1) 的二元组 .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2)) // 按学生ID和课程名称合并成绩和计数 .mapValues { case (sum, count) => sum / count } // 计算平均成绩 avgScoresByStudent.foreach(println) // 输出每个学生的平均成绩 // 计算每门课程的平均成绩 val avgScoresByCourse = scores .mapValues(score => (score, 1)) // 将每个成绩映射为 (成绩，1) 的二元组 .reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2)) // 按课程名称合并成绩和计数 .mapValues { case (sum, count) => sum / count } // 计算平均成绩 avgScoresByCourse.foreach(println) // 输出每门课程的平均成绩 ``` 首先，使用 `textFile()` 方法读取文件，并将每一行映射为一个二元组 `(学生ID, 课程名称) -> 成绩`。然后，分别对学生和课程进行平均成绩计算。计算学生平均成绩时，先将每个成绩映射为 `(成绩, 1)` 的二元组，然后使用 `reduceByKey()` 按学生ID和课程名称合并成绩和计数，最后使用 `mapValues()` 计算平均成绩。计算课程平均成绩时，也是先将每个成绩映射为 `(成绩, 1)` 的二元组，然后使用 `reduceByKey()` 按课程名称合并成绩和计数，最后使用 `mapValues()` 计算平均成绩。

正确读取学生成绩数据，创建对应的RDD，利用RDD相关算子，求解学生的平均成绩，以及没门课程的平均成绩。（40%）

假设我们有一个学生成绩数据文件 `scores.txt`，文件中的每一行包含多个字段，其中第一个字段是学生ID，第二个字段是学生姓名，后面的字段是各门课程的成绩。例如： ``` 1001,Tom,70,85,80 1001,Cat,85,90,70 ``` 可以使用以下代码读取文件并计算学生和课程的平均成绩： ```scala import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf().setAppName("AverageScore").setMaster("local") val sc = new SparkContext(conf) // 读取学生成绩数据文件 val scores = sc.textFile("scores.txt") .map(line => { val fields = line.split(",") val studentId = fields(0) val studentName = fields(1) val courseScores = fields.drop(2).map(_.toDouble) (studentId, (studentName, courseScores)) // 构建二元组 (学生ID, (学生姓名, 成绩列表)) }) // 计算学生平均成绩 val avgScoresByStudent = scores .mapValues { case (name, scores) => (scores.sum / scores.length) } // 计算平均成绩 avgScoresByStudent.foreach(println) // 输出每个学生的平均成绩 // 计算每门课程的平均成绩 val courseScores = scores .flatMapValues { case (name, scores) => scores.zipWithIndex.map { case (score, index) => (index, score) } } // 将每个成绩映射为 (课程索引, 成绩) 的二元组 .groupByKey() // 按课程索引分组 .mapValues(scores => scores.sum / scores.size) // 计算平均成绩 courseScores.foreach(println) // 输出每门课程的平均成绩 ``` 首先，使用 `textFile()` 方法读取文件，并将每一行映射为一个二元组 `学生ID -> (学生姓名, 成绩列表)`。然后，分别对学生和课程进行平均成绩计算。计算学生平均成绩时，使用 `mapValues()` 对每个学生的成绩列表求平均值。计算课程平均成绩时，先将每个成绩映射为 `(课程索引, 成绩)` 的二元组，然后使用 `groupByKey()` 按课程索引分组，最后使用 `mapValues()` 计算平均成绩。注意，在将每个成绩映射为 `(课程索引, 成绩)` 的二元组时，可以使用 `zipWithIndex` 方法获取每个成绩的索引。

阅读全文

Scala用RDD求学生平均成绩

正确读取学生成绩数据，创建对应的RDD，利用RDD相关算子，求解学生的平均成绩，以及没门课程的平均成绩。

正确读取学生成绩数据，创建对应的RDD，利用RDD相关算子，求解学生的平均成绩，以及没门课程的平均成绩。（40%）

相关推荐

Scala实现的Spark RDD、SQL及Streaming Demo教程

Scala编写的Spark RDD/SQL/Streaming源码示例

Spark算子基础：Scala版RDD操作详解

用java语言实现Spark RDD 计算平均成绩

Spark RDD编程：大学成绩分析

大数据RDD编程例题

pySpark RDD编程其中题

spark实验5 rdd编程2.doc

RDD编程初级实践-答案-实验报告-纠正版

大数据课程的期末项目基于spark、hadoop hdfs、mongodb，使用scala，进行电影推荐+源代码+文档说明

厦门大学RDD编程实战指南：交互式应用与数据处理

使用Scala进行大数据处理：Spark入门

【MapReduce数据流分析案例】：学生成绩统计的实践研究

Spark-RDD-Scala 算子操作数据源分析

HBase RDD示例项目：Scala实现与集群操作指南

基于ssm的网络教学平台（有报告）。Javaee项目，ssm项目。

大家在看

TPS54160实现24V转正负15V双输出电源AD设计全方案

台达PLC中的寄存器如何进行高低位调换？.docx

IQ失衡_IQ失衡；I/Qimbalance；_IQ不均衡_

《数据库原理与应用》大作业.zip

Qt/qt creator实现TCP通信，多线程实现服务器的并发（server/client）

最新推荐

scala 操作RDD的代码分析实例

Scala 操作Redis使用连接池工具类RedisUtil

scala 读取txt文件的方法示例

使用Scala生成随机数的方法示例

Jupyter notebook运行Spark+Scala教程

jQuery bootstrap-select 插件实现可搜索多选下拉列表

【戴尔的供应链秘密】：实现“零库存”的10大策略及案例分析

编写AT89C51汇编代码要求通过开关控制LED灯循环方向。要求：P1口连接8个LED，P0.0连接开关用以控制led流动方向。

Holberton系统工程DevOps项目基础Shell学习指南

Comsol传热模块实战演练：一文看懂热传导全过程