三、使用sparkSql将student.txt转换成DateFrame进行相关操作（40分）字段如下： s_id,s_name,s_sex,s_birthday,s_class,s_specialty,s_school,s_register_time 创建样例类Stusent 1.创建SparkSession 2.获取sparkContext对象设置日志打印级别 sc.setLogLevel(WARN) 3.加载数据 4.切分每一行封装数据到Student中 5.加载数据到Row对象中 7.利用personRDD与Schema创建DataFrame 8.DSL操作显示DataFrame的数据结果 9.将DataFrame注册成表 10.sql语句操作 11.关闭资源

时间: 2024-02-03 12:15:37 浏览: 70

regionprops_to_df:取得包含skimage.measure.regionprops输出的regionprops对象的列表，返回所有非隐藏，非隐藏标量属性的Pandas DataFrame

以下是对应的代码： ```scala import org.apache.spark.sql.{DataFrame, Row, SparkSession} import org.apache.spark.{SparkConf, SparkContext} // 创建样例类Student case class Student(s_id: String, s_name: String, s_sex: String, s_birthday: String, s_class: String, s_specialty: String, s_school: String, s_register_time: String) object StudentDemo { def main(args: Array[String]): Unit = { // 创建SparkConf对象 val conf = new SparkConf().setAppName("StudentDemo").setMaster("local[*]") // 创建SparkContext对象 val sc = new SparkContext(conf) sc.setLogLevel("WARN") // 创建SparkSession对象 val spark = SparkSession.builder().config(conf).getOrCreate() // 加载数据 val data = sc.textFile("student.txt") // 切分每一行封装数据到Student中 val studentRDD = data.map(line => { val fields = line.split(",") Student(fields(0), fields(1), fields(2), fields(3), fields(4), fields(5), fields(6), fields(7)) }) // 加载数据到Row对象中 val rowRDD = studentRDD.map(student => Row(student.s_id, student.s_name, student.s_sex, student.s_birthday, student.s_class, student.s_specialty, student.s_school, student.s_register_time)) // 利用personRDD与Schema创建DataFrame val schema = spark.sqlContext.createDataFrame(rowRDD, Student.getClass) // DSL操作显示DataFrame的数据结果 schema.show() // 将DataFrame注册成表 schema.createOrReplaceTempView("student") // sql语句操作 val resultDF: DataFrame = spark.sql("select * from student where s_sex = '女'") // DSL操作显示DataFrame的数据结果 resultDF.show() // 关闭资源 spark.stop() sc.stop() } } ```

阅读全文

相关推荐

Pandas Excel操作：read_excel与to_excel函数详解

Coursera数据清洗项目：run_analysis.R脚本操作指南

student.data

Student Database Management System With CSV in Python

Spark SQL中的DataFrame和DataSet操作详解

Awk高级用法：处理字段和数据分析

【simplejson文件操作技巧】：使用simplejson进行文件读写，提升开发效率

自行创建一个pandas对象（可以是Series对象，也可以式DataFrame对象），将这个对象的数据存储到本地文件（可以使用相对路径，也可以使用绝对路径）中。要求保存的文件名格式：班级+姓名

Python中两表进行左连接，连接字段不同名

掌握Python第三方库：pandas_sans_lambdas使用详解

Python库资源分享：dataframe_mapper快速安装指南

最新推荐

springboot-个性化智能学习系统.zip

微信小程序源码铁路订票平台小程序pf-毕业设计.zip

129) Aardvark - BuddyPress、会员与社区主题 v4.54.zip

springboot-旅游攻略平台.zip

微信小程序源码音乐播放器小程序pf-毕业设计.zip

掌握JSON：开源项目解读与使用

管理建模和仿真的文件

苹果CMS v10接口对接深度指南

如果开环传递函数是10Ks/（s²+1），K是待求的系数，怎么在MATLAB里定义

Ruby嵌入V8：在Ruby中直接运行JavaScript代码