val rdd4 = rdd3.map(x => (x._2._2, (x._1, x._2._1)))

时间: 2023-08-30 09:06:36 浏览: 116

spark实验5 rdd编程2.doc

### Spark 实验报告：RDD 编程应用 #### 实验目的与背景本实验旨在通过具体的数据处理任务，深入理解Apache Spark中Resilient Distributed Datasets (RDD) 的使用方法及其在解决实际问题中的作用。实验选取了一所大学计算机系的成绩数据作为分析对象，通过对这些数据的操作与分析，不仅能够掌握RDD的基本操作，还能学会如何利用RDD解决具体的业务问题。 #### 数据集介绍数据集`data1.txt`包含了一个大学计算机系学生的成绩信息，其数据格式为： ``` 学生姓名,课程名称,分数 ... ``` #### 实验内容与步骤 **一、实验环境准备** 确保已经安装好Spark，并且能够通过命令行启动`spark-shell`。本实验将采用Scala语言进行编程。 **二、实验代码详解** 基于给定的数据集，实验要求完成以下七个任务： 1. **计算该系总共有多少学生；** ```scala input.map(line => line.split(",")(0)).distinct().count() ``` 这段代码首先使用`map`函数将每一行数据转换成学生姓名，然后使用`distinct()`去除重复的学生姓名，最后使用`count()`计算不同的学生姓名总数。 2. **计算该系共开设了多少门课程；** ```scala input.map(line => line.split(",")(1)).distinct().count() ``` 类似于第一个任务，这里使用`map`函数提取每行中的课程名称，之后使用`distinct()`去除重复项，并用`count()`统计不同课程的总数。 3. **计算Tom同学的总成绩平均分；** ```scala val Tom = input.filter(t => t.split(",")(0) == "Tom") val Tom_1 = Tom.map(t => (t.split(",")(0), (t.split(",")(2).toInt, 1))) val Tom_2 = Tom_1.reduceByKey((a, b) => (a._1 + b._1, a._2 + b._2)) Tom_2.mapValues(a => a._1 / a._2).first() ``` 这里先通过`filter`筛选出所有Tom的成绩记录，再使用`map`转换成键值对形式，其中键是学生姓名，值是元组（总分, 科目数量）。接着通过`reduceByKey`聚合相同键的值，计算出总分和科目数量，最后使用`mapValues`计算平均分并返回第一条记录。 4. **计算每名同学的选修的课程门数；** ```scala input.map(t => (t.split(",")(0), (t.split(",")(1), 1))).reduceByKey((a, b) => (a._1, a._2 + b._2)).mapValues(a => a._2).foreach(println) ``` 这段代码首先通过`map`将数据转换成学生姓名和选修的课程及计数的形式，接着使用`reduceByKey`计算每个学生选修课程的总数，并打印结果。 5. **计算该系DataBase课程共有多少人选修；** ```scala input.filter(t => t.split(",")(1) == "DataBase").count() ``` 通过`filter`筛选出所有选修了DataBase课程的学生记录，然后使用`count`计算人数。 6. **计算各门课程的平均分；** ```scala input.map(t => (t.split(",")(1), (t.split(",")(2).toInt, 1))).reduceByKey((a, b) => (a._1 + b._1, a._2 + b._2)).mapValues(a => a._1 / a._2).foreach(println) ``` 这段代码类似于第三个任务，但是针对所有课程，首先通过`map`将数据转换成课程名称和成绩及计数的形式，接着使用`reduceByKey`计算每门课程的总分和选课人数，最后计算平均分并打印。 7. **使用累加器计算共有多少人选了DataBase这门课。** ```scala val database = input.filter(t => t.split(",")(1) == "DataBase").map(t => (t.split(",")(1), 1)) val counter = sc.longAccumulator("database_counter") database.values.foreach(a => counter.add(a)) counter.value ``` 首先筛选出所有选修了DataBase课程的学生记录，然后创建一个`longAccumulator`用来累加人数，最后通过`foreach`遍历所有记录并增加累加器的值，返回最终的结果。 #### 实验结果由于实验结果没有给出具体的数值，这里仅列出各个任务的执行结果展示方式，如： - 学生总数：[输出数字] - 开设课程总数：[输出数字] - Tom同学的总成绩平均分：[输出数字] - 每名同学选修课程门数：[输出列表] - DataBase课程选修人数：[输出数字] - 各门课程平均分：[输出列表] - 使用累加器得到的DataBase选课人数：[输出数字] #### 实验小结通过本次实验，不仅熟悉了Spark中RDD的基本操作，包括`map`、`filter`、`reduceByKey`等，还掌握了如何利用这些操作来解决实际问题。此外，还学习了如何使用累加器来统计特定信息。整个实验过程加深了对Spark编程的理解，对于后续更复杂的数据处理任务有了更好的准备。

这是一个基于RDD操作的代码行，主要是将rdd3中的元素进行转换，将元素的第二个元素作为新的Key，将元素的第一个元素和原来的第二个元素的第一个元素作为Value，构成一个新的Tuple。具体来说，rdd3中的每个元素都是一个Tuple，形如 (movieId, (rating, timestamp))，其中movieId是电影ID，rating是用户对该电影的评分，timestamp是用户评分的时间戳。通过map操作，将每个元素的第二个元素 (rating, timestamp) 作为新的Key，将每个元素的第一个元素 movieId 和原来的第二个元素的第一个元素 rating 组成一个Tuple，作为新的Value，构成一个新的Tuple，即 (rating, (movieId, timestamp))。返回一个新的RDD rdd4，其中每个元素都是一个Tuple，形如 (rating, (movieId, timestamp))。

阅读全文

val rdd4 = rdd3.map(x => (x._2._2, (x._1, x._2._1)))

相关推荐

SparkCore&SparkSQL练习.docx

-Project_2_Group7:走吧〜

val rdd2 = sc.textFile("C:\\Users\\20430\\Desktop\\spark课设\\Ratings.dat").map(_.split("::")).map(x => (x(1), x(0))) //电影id，用户id val rdd3 = rdd1.join(rdd2) //笛卡尔积，电影id，电影类型，用户id val rdd4 = rdd3.map(x => (x._2._2, (x._1, x._2._1)))

scala代码 val rdd = sc.makeRDD(List(1,2,3,4,1,2,3,4)) val rdd1 = rdd.map( number => { (number, null) } ) rdd1.reduceByKey((x,_)=>x).map(_._1).collect().foreach(println)

val productSales = sales.map(x => (x._4, x._5, x._7)).reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))

val partition_rdd = filter_rdd.map(array => array.mkString(",")) partition_rdd.repartition(1).saveAsTextFile("F:\\spark\\foodsparktask1")什么意思

val rdd = sc.makeRDD(List(1, 2, 3, 4),2) val rdd2= rdd.map(_+4) println(rdd2.collect().mkString(","))

val res = three.filter(_.trim().length > 0).map(num => (num.trim.toInt, "")).partitionBy(new HashPartitioner(1)).sortByKey().map(t => { idx += 1 (idx, t._1) }).collect.foreach(x => println(x._1 + "%t" + x._2))其中trim标红报错的原因

val formattedRdd = filter_rdd.map(array => array.mkString(","))什么意思

val array: Array[Any] = df.rdd.map(a => a.get(0)).collect()

//4.mapPartitionsWithIndex()带分区号 val rdd2 = sc.makeRDD(1 to 5, 3) val indexRDD = rdd2.mapPartitionsWithIndex((index, items) => { items.map((index, _)) }) indexRDD.collect().foreach(println) 修改代码实现扩展功能：第二个分区元素*2，其余分区不变

val rdd1 = sc.textFile("C:\\Users\\20430\\Desktop\\spark课设\\movies.dat").map(_.split("::")).map(x => (x(0), x(2)))

rdd1.map(x => rdd2.values.count() * x)像这样的情况该如何避免

mobilenet模型-基于人工智能的卷积网络训练识别自驾旅行路标-不含数据集图片-含逐行注释和说明文档.zip

最新推荐

mobilenet模型-基于人工智能的卷积网络训练识别自驾旅行路标-不含数据集图片-含逐行注释和说明文档.zip

【超强组合】基于VMD-混沌博弈优化算法CGO-Transformer-LSTM的光伏预测算研究Matlab实现.rar

农产品预售平台 SSM毕业设计 附带论文.zip

【超强组合】基于VMD-樽海鞘优化算法SSA-Transformer-LSTM的光伏预测算研究Matlab实现.rar

非常好的电子设计小软件字库资料非常好用的软件.zip

探索数据转换实验平台在设备装置中的应用

管理建模和仿真的文件

ggflags包的国际化问题：多语言标签处理与显示的权威指南

如何使用MATLAB实现电力系统潮流计算中的节点导纳矩阵构建和阻抗矩阵转换，并解释这两种矩阵在潮流计算中的作用和差异？

使用git-log-to-tikz.py将Git日志转换为TIKZ图形

农产品预售平台 SSM毕业设计附带论文.zip