首页scrapy 抓取网页内容，但是保留了元素，怎么用正则表达式把前端标签去掉呢

scrapy 抓取网页内容，但是保留了元素，怎么用正则表达式把前端标签去掉呢

时间: 2024-05-09 08:14:45 浏览: 78

可以使用Python中的re模块对抓取到的网页内容进行正则表达式匹配，从而去掉前端标签。具体步骤如下： 1. 获取抓取到的网页内容，存储在一个字符串变量中。 2. 使用re.sub()函数，传入正则表达式和替换字符串，对网页内容中的前端标签进行替换，替换成空字符串即可。 3. 最后得到的字符串即为去掉前端标签的网页内容。以下是Python代码示例： ``` import re # 获取抓取到的网页内容，存储在一个字符串变量中 html = '抓取到的网页内容' # 定义正则表达式，匹配前端标签 pattern = re.compile(r'<[^>]+>', re.S) # 使用re.sub()函数，对网页内容中的前端标签进行替换，替换成空字符串 result = re.sub(pattern, '', html) # 最后得到的字符串即为去掉前端标签的网页内容 print(result) ```

阅读全文