regexp_extract函数用法
时间: 2023-09-10 09:11:09 浏览: 289
Oracle正则表达式
`regexp_extract` 函数是一个正则表达式提取函数,用于从字符串中提取满足指定正则表达式模式的子字符串。
函数的基本用法如下:
```python
regexp_extract(string, pattern, index)
```
参数说明:
- `string`:要提取子字符串的源字符串。
- `pattern`:要匹配的正则表达式模式。
- `index`:可选参数,指定要提取的子字符串在匹配结果中的索引,默认为 0。
示例:
假设我们有一个字符串 "Hello, my name is John. I am 25 years old.",我们想从中提取出名字和年龄。
```python
from pyspark.sql.functions import *
df = spark.createDataFrame([(1, "Hello, my name is John. I am 25 years old.")], ["id", "text"])
df.select(regexp_extract(col("text"), "name is (\w+)", 1).alias("name"),
regexp_extract(col("text"), "(\d+) years old", 1).alias("age")).show()
```
输出结果:
```
+----+---+
|name|age|
+----+---+
|John| 25|
+----+---+
```
在上面的示例中,我们使用 `regexp_extract` 函数来从文本中提取名字和年龄。首先,我们使用正则表达式 "name is (\w+)" 来匹配 "name is " 后面的名字,并提取出来。然后,我们使用正则表达式 "(\d+) years old" 来匹配年龄,并提取出来。最后,我们将结果分别命名为 "name" 和 "age"。通过 `select` 函数选择提取结果进行展示。
希望上述内容对你有所帮助!如果你有其他问题,请随时提问。
阅读全文