Python代码中使用pyspark获取数据,并存为DataFrame
时间: 2024-02-24 16:55:57 浏览: 119
可以使用以下代码使用pyspark获取数据,并将其存储为DataFrame:
```
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()
# 从CSV文件中读取数据
df = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)
# 显示DataFrame中的数据
df.show()
# 关闭SparkSession
spark.stop()
```
在上面的代码中,通过`SparkSession.builder.appName()`方法创建了一个SparkSession对象,然后使用`spark.read.csv()`方法从CSV文件中读取数据,并将其存储为DataFrame。最后,使用`df.show()`方法显示DataFrame中的数据,并使用`spark.stop()`方法关闭SparkSession对象。
阅读全文