使用BaseBuiltin类来自定义函数，判断第一个输入的字段是否包含第二个

可以使用以下代码来自定义函数： ```python from pyspark.sql.functions import udf, StringType from pyspark.sql.types import BooleanType from pyspark.sql.functions import col class ContainsBuiltin(BaseBuiltin): """ 自定义函数，判断第一个输入的字段是否包含第二个 """ def eval(self, row, str1, str2): return str2 in str1 contains_udf = udf(ContainsBuiltin(), BooleanType()) ``` 然后，你可以使用`contains_udf`来在Spark DataFrame中应用自定义函数。例如： ```python df = spark.createDataFrame([(1, "hello world"), (2, "foo bar")], ["id", "text"]) df = df.withColumn("contains", contains_udf(col("text"), col("id"))) df.show() ``` 这将会输出： ``` +---+-----------+--------+ | id| text|contains| +---+-----------+--------+ | 1|hello world| true| | 2| foo bar| false| +---+-----------+--------+ ```

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通