pyspark create df
时间: 2024-09-28 07:06:55 浏览: 51
在Pyspark中,DataFrame是一种类似于SQL表的数据结构,它是Spark的主要数据处理工具之一。创建DataFrame通常涉及以下步骤:
1. **加载数据**: Pyspark可以从多种源加载数据,如CSV、JSON、Parquet、HDFS等。例如,你可以这样做:
```python
df = spark.read.csv('path/to/your/csv', header=True)
```
2. **直接构造**: 如果你知道数据的结构,可以直接创建一个DataFrame,比如从字典或列表中:
```python
data = [{"name": "Alice", "age": 25}, {"name": "Bob", "age": 30}]
schema = StructType([StructField("name", StringType()), StructField("age", IntegerType())])
df = spark.createDataFrame(data, schema)
```
3. **静态函数**: Pyspark也提供了一些静态方法来创建DataFrame,如从Numpy数组或Pandas DataFrame导入数据:
```python
import numpy as np
df_numpy = spark.createDataFrame(np.array([(1, 'A'), (2, 'B')]), ['id', 'letter'])
```
4. **DataFrame操作**: 创建完DataFrame后,可以对它进行过滤、分组、聚合等各种操作。
阅读全文