sparksession 使用案例
时间: 2023-08-12 17:10:32 浏览: 88
SparkSession 是 Spark 2.0 引入的一个新概念,用于替代之前版本中的 SparkContext、SQLContext 和 HiveContext。它是一个与 Spark 集成的入口点,用于编写 Spark 应用程序。
下面是一个使用 SparkSession 的简单案例:
```python
from pyspark.sql import SparkSession
# 创建一个 SparkSession 对象
spark = SparkSession.builder \
.appName("SparkSessionExample") \
.getOrCreate()
# 读取数据文件,创建一个 DataFrame 对象
df = spark.read.csv("path/to/data.csv", header=True, inferSchema=True)
# 执行一些数据操作
df.show()
df.printSchema()
# 进行数据分析
df.groupBy("category").agg({"price": "avg"}).show()
# 关闭 SparkSession
spark.stop()
```
在这个案例中,我们首先创建了一个 SparkSession 对象,指定了应用程序的名称。然后,使用 `read.csv()` 方法读取一个 CSV 文件,并创建一个 DataFrame 对象。接下来,我们展示了数据,并输出了 DataFrame 的结构。最后,我们使用 `groupBy()` 和 `agg()` 方法进行数据分析,并输出结果。最后,我们调用 `stop()` 方法关闭 SparkSession。
注意,这只是一个简单的示例,你可以根据自己的需求使用更多的 Spark 操作和函数来处理数据。
希望这个案例能帮助你理解如何使用 SparkSession!
阅读全文