pyspark todataframe
时间: 2023-08-31 08:05:58 浏览: 98
pySpark-flatten-dataframe:PySpark函数可展平从JSONCSVSQLParquet加载的任何复杂的嵌套数据框结构
将 PySpark RDD 转换为 PySpark DataFrame 的方法如下:
1. 定义 PySpark RDD,例如:
```
rdd = sc.parallelize([(1, 'John'), (2, 'Jane'), (3, 'Jim')])
```
2. 导入 PySpark SQL 模块:
```
from pyspark.sql import SQLContext
```
3. 创建 SQLContext 对象:
```
sqlContext = SQLContext(sc)
```
4. 将 RDD 转换为 DataFrame:
```
df = sqlContext.createDataFrame(rdd, ['id', 'name'])
```
这里的第二个参数是 DataFrame 的列名列表。
5. 打印 DataFrame:
```
df.show()
```
输出结果如下:
```
+---+----+
| id|name|
+---+----+
| 1|John|
| 2|Jane|
| 3| Jim|
+---+----+
```
阅读全文