首页pyspark如何删除相同行

pyspark如何删除相同行

时间: 2023-11-22 11:52:20 浏览: 26

你可以使用PySpark中的dropDuplicates()方法来删除相同的行。该方法将根据指定的列/列来查找相同的行，并返回一个新的数据帧，其中包含唯一的行。下面是一个示例代码： ``` from pyspark.sql.functions import * # 创建一个名为df的数据帧 df = spark.createDataFrame([(1, "foo"), (1, "foo"), (2, "bar"), (3, "baz")], ["id", "value"]) # 删除相同的行 df = df.dropDuplicates() # 显示数据帧中的内容 df.show() ``` 在上面的示例代码中，我们首先创建了一个名为df的数据帧，其中包含四行数据。接下来，我们使用dropDuplicates()方法来删除相同的行，并将结果存储在一个新的数据帧中。最后，我们使用show()方法来显示数据帧中的内容。

阅读全文