读取parquet_Spark2.0入门:读写Parquet(DataFrame)
时间: 2024-03-05 13:52:27 浏览: 180
Spark in Action--2016
好的,我会为您介绍读取Parquet文件的方法。
在Spark 2.0中,读取Parquet文件非常简单。您可以使用SparkSession对象的read方法来读取Parquet文件。以下是读取Parquet文件的示例代码:
```python
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder.appName("ReadParquet").getOrCreate()
# 读取Parquet文件
df = spark.read.parquet("path/to/parquet/file")
# 显示数据
df.show()
```
在这个示例代码中,我们首先创建了一个SparkSession对象。然后,使用read方法读取Parquet文件,并将数据加载到DataFrame对象中。最后,我们使用show方法显示DataFrame中的数据。
如果需要读取多个Parquet文件,您可以将所有文件的路径作为参数传递给read方法。例如:
```python
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder.appName("ReadParquet").getOrCreate()
# 读取多个Parquet文件
df = spark.read.parquet("path/to/parquet/file1", "path/to/parquet/file2", "path/to/parquet/file3")
# 显示数据
df.show()
```
在这个示例代码中,我们使用了多个文件路径作为参数来读取多个Parquet文件。
希望这个简单的示例代码可以帮助您开始使用Spark 2.0来读取Parquet文件。
阅读全文