from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder.appName("delete_null_rows").getOrCreate() # 读取CSV文件 df = spark.read.option("header", "true").csv("path/to/csv_file.csv") # 删除空值行 df = df.na.drop() # 输出新的CSV文件 df.write.option("header", "true").csv("path/to/new_csv_file.csv") # 关闭SparkSession spark.stop() 把程序改成将输出结果到同一个CSV文件中
时间: 2024-01-22 11:20:11 浏览: 133
PySpark_Day06:SQL and DataFrames.pdf
可以将最后一行代码修改为:
```
df.write.option("header", "true").mode("overwrite").csv("path/to/csv_file.csv")
```
这样会覆盖原始CSV文件,并将结果写入同一个CSV文件中。注意要使用 `mode("overwrite")` 覆盖原有文件,否则会报错。
阅读全文