爬虫python正则表达式
时间: 2024-05-08 08:14:16 浏览: 191
10.1 初识正则表达式|正则表达式与JSON|Python3.8入门 & 进阶 & 原生爬虫实战完全解读
5星 · 资源好评率100%
Python正则表达式是一种模式匹配工具,它可以让你通过一些特殊的字符和语法规则来匹配和查找文本中的特定模式。在爬虫中,正则表达式可以用来解析HTML页面、提取文本信息、过滤数据等。
在Python中使用正则表达式,需要先导入re模块。常用的正则表达式方法有search、match、findall、sub等。其中,search方法用于在字符串中查找匹配项;match方法用于从字符串的开头开始匹配;findall方法用于查找所有匹配项;sub方法用于替换匹配项。
下面是一个简单的例子,假设我们想从一个HTML页面中提取所有的链接:
```python
import re
import requests
url = 'http://www.example.com'
response = requests.get(url)
html = response.text
pattern = re.compile('<a.*?href="(.*?)".*?>')
links = pattern.findall(html)
print(links)
```
以上代码中,我们首先使用requests库获取网页内容,然后使用re模块编译了一个正则表达式,该正则表达式匹配所有a标签中的href属性。最后使用findall方法查找所有匹配项,并打印输出。
阅读全文