pyspark sparksql简单使用
时间: 2023-11-29 11:46:22 浏览: 150
Spark SQL简易教程
以下是使用PySpark和SparkSQL进行简单数据处理的步骤:
1. 导入必要的库和创建SparkSession对象
```python
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder.appName("pyspark_sql_demo").getOrCreate()
```
2. 读取数据并创建DataFrame对象
```python
# 读取csv文件并创建DataFrame对象
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)
```
3. 查看DataFrame的结构和数据
```python
# 查看DataFrame的结构
df.printSchema()
# 查看DataFrame的前n行数据
df.show(n=5)
```
4. 使用SparkSQL进行数据查询
```python
# 创建临时表
df.createOrReplaceTempView("temp_table")
# 执行SQL查询
result = spark.sql("SELECT * FROM temp_table WHERE age > 18")
# 查看查询结果
result.show()
```
5. 关闭SparkSession对象
```python
# 关闭SparkSession对象
spark.stop()
```
阅读全文