spark sql编程初级实践
时间: 2023-08-03 12:35:45 浏览: 108
好的,我来为您介绍一下 Spark SQL 编程初级实践。
1. 创建 SparkSession
使用 Spark SQL 时,需要创建一个 SparkSession 对象。可以通过以下代码创建:
```python
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Spark SQL Basic Example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
```
2. 加载数据
Spark SQL 支持多种数据源,包括 JSON、CSV、Parquet、JDBC 等。使用 `spark.read` 方法加载数据,例如:
```python
df = spark.read.json("path/to/json")
```
3. 数据操作
使用 Spark SQL 可以进行各种数据操作,如过滤、聚合、排序等。例如:
```python
# 过滤数据
filtered_df = df.filter(df.age > 18)
# 聚合数据
grouped_df = df.groupBy("gender").agg({"age": "avg"})
# 排序数据
sorted_df = df.orderBy(df.age.desc())
```
4. 执行 SQL
Spark SQL 还支持执行 SQL 语句。可以通过 `spark.sql` 方法执行 SQL 语句,例如:
```python
# 创建临时表
df.createOrReplaceTempView("people")
# 执行 SQL
result_df = spark.sql("SELECT * FROM people WHERE age > 18")
```
5. 输出数据
最后,可以将结果保存到文件或数据库中。例如:
```python
result_df.write.json("path/to/output/json")
```
以上就是 Spark SQL 编程初级实践的介绍,希望对您有所帮助。
阅读全文