spark中从店铺 URL 中提取 ID 加到数据第 1 列
时间: 2024-03-14 12:43:02 浏览: 90
spark实现财经新闻搜索引擎(正文提取、中文分词、倒排索引构建、执行搜索)
可以使用Spark的DataFrame API和正则表达式来实现从店铺URL中提取ID并加到数据的第一列。
假设数据已经读入为一个DataFrame,并且店铺URL保存在名为“url”的列中,可以使用以下代码:
```python
from pyspark.sql.functions import regexp_extract
df = df.withColumn("id", regexp_extract(df["url"], r"\d+", 0))
```
这里使用了Spark的`regexp_extract`函数来从URL中提取数字ID,然后将其添加为新的列“id”。
如果需要将“id”列放到第一列,可以使用以下代码:
```python
df = df.select("id", *[col for col in df.columns if col != "id"])
```
这里使用了Spark的`select`函数来重新排列列的顺序。首先选择“id”列,然后选择除了“id”列以外的所有列。
阅读全文