根据现有的peoplejson 文件,创建DataFrame 对象。
时间: 2024-03-08 15:46:29 浏览: 15
要根据 `people.json` 文件创建 DataFrame 对象,可以使用 SparkSession 对象的 `read` 方法。下面是示例代码:
```python
from pyspark.sql import SparkSession
# 创建 SparkSession 对象
spark = SparkSession.builder.appName("create_dataframe").getOrCreate()
# 读取 JSON 文件,创建 DataFrame 对象
df = spark.read.json("people.json")
# 展示 DataFrame 的内容
df.show()
```
上面的代码中,`SparkSession` 的 `builder` 方法用来构建一个 `SparkSession` 对象,`appName()` 方法用来设置应用程序名称,`getOrCreate()` 方法用来获取一个已经存在的 `SparkSession` 对象或者创建一个新的 `SparkSession` 对象。然后,`read` 方法读取 JSON 文件,并自动解析文件内容,创建一个 DataFrame 对象。最后,`show()` 方法用来展示 DataFrame 的内容。运行代码后,可以看到类似下面的输出:
```
+----+-------+
| age| name|
+----+-------+
|null|Michael|
| 30| Andy|
| 19| Justin|
+----+-------+
```
其中,DataFrame 的列名和数据类型会自动推断出来。