使用pyspark编写读取hdfs中的csv文件并修改列名
时间: 2023-06-19 17:06:53 浏览: 149
可以使用pyspark读取hdfs中的csv文件,然后使用withColumnRenamed函数修改列名。具体代码如下:
```python
from pyspark.sql import SparkSession
# 创建SparkSession对象
spark = SparkSession.builder.appName("ReadCSV").getOrCreate()
# 读取hdfs中的csv文件
df = spark.read.format("csv").option("header", "true").load("hdfs://<namenode>:<port>/<path>/<filename>.csv")
# 修改列名
df = df.withColumnRenamed("old_col_name1", "new_col_name1").withColumnRenamed("old_col_name2", "new_col_name2")
# 显示修改后的数据
df.show()
# 关闭SparkSession对象
spark.stop()
```
需要注意的是,需要将`<namenode>`、`<port>`、`<path>`、`<filename>`替换为实际的值。同时,`withColumnRenamed`函数可以根据需要进行多次调用,以修改多个列的列名。
阅读全文