pyspark filter 多个条件
时间: 2023-08-11 15:08:14 浏览: 101
在 PySpark 中,你可以使用 `filter()` 函数来筛选满足多个条件的数据。你可以通过使用逻辑运算符(如 `and`、`or`)来组合多个条件。
下面是一个示例,演示如何在 PySpark 中使用 `filter()` 函数筛选满足多个条件的数据:
```python
from pyspark.sql import SparkSession
# 创建 SparkSession 对象
spark = SparkSession.builder.getOrCreate()
# 创建示例数据
data = [("Alice", 25, "Female"),
("Bob", 30, "Male"),
("Charlie", 35, "Male"),
("Diana", 40, "Female")]
# 创建 DataFrame
df = spark.createDataFrame(data, ["Name", "Age", "Gender"])
# 使用 filter() 函数筛选数据
filtered_df = df.filter((df.Age > 30) & (df.Gender == "Male"))
# 显示筛选后的结果
filtered_df.show()
```
在上面的示例中,我们创建了一个名为 `df` 的 DataFrame,其中包含了姓名、年龄和性别三列。然后,我们使用 `filter()` 函数筛选了满足年龄大于 30 并且性别为男性的数据,并将结果保存在 `filtered_df` 中。最后,我们使用 `show()` 函数显示筛选后的结果。
请根据你的具体需求,修改示例中的条件和数据列名称。
阅读全文