Spark入门教程：Python实现SQL操作

需积分: 12 113 浏览量更新于2024-09-11 收藏 4KB TXT 举报

"Spark入门教程，基于Python实现，涵盖了RDD、SQLContext、Parquet和JSON数据操作，以及HiveContext的简单应用。" 在Spark入门学习中，首先接触的关键概念是`SparkContext`（sc），它是Spark与集群通信的核心，负责管理任务的执行和资源分配。在给出的代码片段中，`val sqlContext = new org.apache.spark.sql.SQLContext(sc)`创建了一个`SQLContext`实例，它是Spark SQL的基础，允许用户通过SQL查询处理数据。接着，我们定义了一个名为`Person`的case class，用于表示数据结构。`Person`包含两个字段：`name`（String类型）和`age`（Int类型）。然后，我们读取一个名为`people.txt`的文件，并使用`textFile`方法将其内容作为`RDD`（弹性分布式数据集）加载。通过对数据进行映射操作，将文本数据转换为`Person`对象，最后将转换后的`RDD`注册为临时表`rddTable`。 `registerTempTable`方法使得我们可以对这个`RDD`使用SQL查询。`sqlContext.sql()`方法执行SQL语句，并返回一个新的`DataFrame`，这个`DataFrame`可以进一步处理。示例中选择了年龄在13到19之间的人员的名字，并打印出来。接着，我们利用`saveAsParquetFile`方法将`RDD`保存为Parquet格式的文件，Parquet是一种列式存储格式，适合大数据分析，能提供高效的读写性能。之后，我们读取Parquet文件，注册为`parquetTable`，并进行类似的操作。此外，Spark SQL还支持JSON数据。代码展示了如何读取JSON文件，将其转换为`DataFrame`，注册为`jsonTable`，然后根据年龄筛选数据。最后，`HiveContext`的引入是为了利用Hadoop的Hive组件，它可以提供更丰富的数据管理和SQL支持。`HiveContext`与`SQLContext`相似，但增加了与Hive Metastore的交互，允许使用Hive表和HQL（Hive SQL）。虽然代码没有展示具体使用`HiveContext`的步骤，但通常包括创建Hive表、加载数据到Hive表以及执行HQL查询等操作。这段Spark入门代码展示了如何使用Python和Spark SQL处理和查询多种数据格式，包括RDD、Parquet和JSON，同时也展现了如何利用Hive的特性。这是理解Spark核心功能和Spark SQL的一个良好起点。

//1 sqlContext基础应用

//RDD演示
val sqlContext= new org.apache.spark.sql.SQLContext(sc)
import sqlContext.createSchemaRDD

case class Person(name:String,age:Int)
val rddpeople=sc.textFile("/sparksql/people.txt").map(_.split(",")).map(p=>Person(p(0),p(1).trim.toInt))
rddpeople.registerTempTable("rddTable")
sqlContext.sql("SELECT name FROM rddTable WHERE age >= 13 AND age <= 19").map(t => "Name: " + t(0)).collect().foreach(println)

//parquet演示
rddpeople.saveAsParquetFile("/sparksql/people.parquet")
val parquetpeople = sqlContext.parquetFile("/sparksql/people.parquet")
parquetpeople.registerTempTable("parquetTable")
sqlContext.sql("SELECT name FROM parquetTable WHERE age >= 25").map(t => "Name: " + t(0)).collect().foreach(println)

//json演示
val jsonpeople = sqlContext.jsonFile("/sparksql/people.json")
jsonpeople.registerTempTable("jsonTable")
sqlContext.sql("SELECT name FROM jsonTable WHERE age >= 25").map(t => "Name: " + t(0)).collect().foreach(println)

下载后可阅读完整内容，剩余2页未读，立即下载

「已注销」

粉丝: 3
资源: 8

Spark入门教程：Python实现SQL操作

Spark2.1下载包

csdn平常博客模板.txt

CSDN使用.txt

spark3.x与spark2.x的区别

spark1.x和spark2.x的区别

编译spark3.x，spark3.x与hadoop、hive版本兼容问题的解决

作业: 1.将userinfo.txt和classinfo.txt文件.上传到HDFS,上 2.使用spark读取userinfo.txt和classinfo.txt文件。 3.将两份文件加载为DataFrame类型。命名为df_ user和df_ class 4.将df_ user和df_ class转换为table类型

1.对spark1.txt文件进行筛选，将A或者包含A的字母筛选出来并统计个数，然后输出到dome1文件中。 数据如下 id 编号 内容 A B C AB A B C A B AB AB AB

如何使用spark读取userinfo.txt和classinfo.txt文件。

最新资源

1.对spark1.txt文件进行筛选，将A或者包含A的字母筛选出来并统计个数，然后输出到dome1文件中。数据如下 id 编号内容 A B C AB A B C A B AB AB AB