scrapy 抓取网页内容,但是保留了元素,怎么用正则表达式把前端标签去掉呢
时间: 2024-05-09 08:14:45 浏览: 71
正则表达式清除html标签
5星 · 资源好评率100%
可以使用Python中的re模块对抓取到的网页内容进行正则表达式匹配,从而去掉前端标签。具体步骤如下:
1. 获取抓取到的网页内容,存储在一个字符串变量中。
2. 使用re.sub()函数,传入正则表达式和替换字符串,对网页内容中的前端标签进行替换,替换成空字符串即可。
3. 最后得到的字符串即为去掉前端标签的网页内容。
以下是Python代码示例:
```
import re
# 获取抓取到的网页内容,存储在一个字符串变量中
html = '抓取到的网页内容'
# 定义正则表达式,匹配前端标签
pattern = re.compile(r'<[^>]+>', re.S)
# 使用re.sub()函数,对网页内容中的前端标签进行替换,替换成空字符串
result = re.sub(pattern, '', html)
# 最后得到的字符串即为去掉前端标签的网页内容
print(result)
```
阅读全文