from pyspark.conf import SparkConf from pyspark.sql.session import SparkSession from pyspark import SparkContext from pyspark.sql.types import Row if __name__ == "__main__": sc = SparkContext("local","Simple App") peopleRDD = sc.textFile("file:///usr/local/spark/employee.txt") rowRDD = peopleRDD.map(lambda line : line.split(",")).map(lambda attributes : Row(int(attributes[0]),attributes[1],int(attributes[2]))).toDF() rowRDD.createOrReplaceTempView("employee") personsDF = spark.sql("select * from employee") personsDF.rdd.map(lambda t : "id:"+str(t[0])+","+"Name:"+t[1]+","+"age:"+str(t[2])).foreach(print)
时间: 2024-03-30 07:33:43 浏览: 105
LVGL配置文件详解lv_conf.h(V7.9.1).pdf
5星 · 资源好评率100%
这段代码的作用是读取一个文本文件,将其转化为DataFrame,并查询该DataFrame中的数据并打印输出。
首先,使用SparkConf配置一个SparkContext对象,指定运行模式为local(本地模式),设置应用程序名为Simple App。然后,使用SparkContext对象读取文件内容,返回一个RDD对象,表示分布式的、只读的数据集合。接着,通过map操作将每一行文本转化为一个元组,再通过Row对象封装为一个Row对象,最后使用toDF()方法将RDD对象转化为DataFrame对象,并且将其注册为一个临时表。然后,使用SparkSession对象执行SQL查询语句"select * from employee",返回一个DataFrame对象。最后,使用rdd属性将DataFrame对象转化为RDD对象,并通过map操作将每一条记录转化为一个字符串,最后使用foreach操作打印输出。
阅读全文