pyspark isin. left
时间: 2024-04-10 20:25:41 浏览: 111
pyspark的isin函数是用于判断一个列是否在给定的列表中的函数。它返回一个布尔类型的列,如果列的值在给定的列表中,则为True,否则为False。
在DataFrame中使用isin函数时,可以通过指定一个列和一个列表来判断该列的值是否在列表中。例如,假设有一个DataFrame df,其中包含一个名为"category"的列,我们可以使用isin函数来判断该列的值是否在给定的列表['A', 'B', 'C']中:
```
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame([(1, 'A'), (2, 'B'), (3, 'C'), (4, 'D')], ['id', 'category'])
result = df.filter(col('category').isin(['A', 'B', 'C']))
result.show()
```
上述代码中,我们使用filter函数和col函数来筛选出满足条件的行,其中col('category')表示选择DataFrame中的"category"列,isin(['A', 'B', 'C'])表示判断该列的值是否在给定的列表['A', 'B', 'C']中。
结果将会输出满足条件的行,即包含'A'、'B'或者'C'的行:
```
+---+--------+
| id|category|
+---+--------+
| 1| A|
| 2| B|
| 3| C|
+---+--------+
```
阅读全文