pyspark.sql.functions的replace函数
时间: 2023-07-21 14:33:54 浏览: 232
pyspark.sql.functions中的replace函数用于将字符串中的一部分替换成另一个字符串。其使用方法如下:
``` python
from pyspark.sql.functions import replace
# 示例数据
df = spark.createDataFrame([(1, "Hello World"), (2, "SPARK SQL"), (3, "PySPARK")], ["id", "text"])
# 将text列中的"SPARK"替换为"Spark",创建新列new_text
df = df.withColumn("new_text", replace(df["text"], "SPARK", "Spark"))
# 打印转换后的数据
df.show()
```
执行上述代码,输出结果如下:
```
+---+-----------+-----------+
| id| text| new_text|
+---+-----------+-----------+
| 1|Hello World|Hello World|
| 2| SPARK SQL| Spark SQL|
| 3| PySPARK| PySpark|
+---+-----------+-----------+
```
可以看到,replace函数将text列中的"SPARK"替换为"Spark",并创建了一个新的列new_text。该函数的第一个参数是要进行替换的字符串列,第二个参数是要替换的子串,第三个参数是用于替换的新字符串。需要注意的是,replace函数是区分大小写的。如果要进行不区分大小写的替换,可以使用regexp_replace函数,并指定不区分大小写的正则表达式。
阅读全文