spark 创建Data frame
时间: 2024-01-13 17:45:20 浏览: 32
要创建一个 Spark Dataframe,你需要首先创建一个 SparkSession 对象。然后,你可以使用 SparkSession 对象的 createDataFrame() 方法来从各种数据源(如 RDD、列表、数据文件等)创建 Dataframe。下面是一个使用 Python API 创建 Dataframe 的示例代码:
```python
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder.appName("CreateDataFrame").getOrCreate()
# 从 RDD 创建 Dataframe
rdd = spark.sparkContext.parallelize([(1, 'John', 25), (2, 'Mary', 22), (3, 'Bob', 30)])
df_from_rdd = spark.createDataFrame(rdd, ['id', 'name', 'age'])
df_from_rdd.show()
# 从列表创建 Dataframe
data = [('Alice', 1), ('Bob', 2), ('Charlie', 3)]
df_from_list = spark.createDataFrame(data, ['Name', 'Age'])
df_from_list.show()
# 从数据文件创建 Dataframe
df_from_file = spark.read.csv('path/to/file.csv', header=True, inferSchema=True)
df_from_file.show()
# 关闭 SparkSession
spark.stop()
```
注意,上述示例代码中的 createDataFrame() 方法创建的 Dataframe 都是不可变的(immutable),也就是说,它们的内容不能被修改。如果你需要修改 Dataframe 中的数据,你需要使用 Spark SQL 的各种操作函数来实现。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![apk](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)