首页使用pyspark编写读取hdfs中的csv文件并修改列名

使用pyspark编写读取hdfs中的csv文件并修改列名

时间: 2023-06-19 17:06:53 浏览: 149

可以使用pyspark读取hdfs中的csv文件，然后使用withColumnRenamed函数修改列名。具体代码如下： ```python from pyspark.sql import SparkSession # 创建SparkSession对象 spark = SparkSession.builder.appName("ReadCSV").getOrCreate() # 读取hdfs中的csv文件 df = spark.read.format("csv").option("header", "true").load("hdfs://<namenode>:<port>/<path>/<filename>.csv") # 修改列名 df = df.withColumnRenamed("old_col_name1", "new_col_name1").withColumnRenamed("old_col_name2", "new_col_name2") # 显示修改后的数据 df.show() # 关闭SparkSession对象 spark.stop() ``` 需要注意的是，需要将`<namenode>`、`<port>`、`<path>`、`<filename>`替换为实际的值。同时，`withColumnRenamed`函数可以根据需要进行多次调用，以修改多个列的列名。

阅读全文