Python爬虫正则表达式
时间: 2023-07-21 14:08:11 浏览: 91
python爬虫;正则表达式爬虫
Python爬虫中使用正则表达式是非常常见的,可以方便地从网页中提取所需的数据。你可以使用Python内置的re模块来操作正则表达式。
首先,你需要导入re模块:
```python
import re
```
接下来,你可以使用re模块中的函数来进行匹配和提取。以下是一些常用的函数:
- re.match(pattern, string):从字符串的开头开始匹配,如果匹配成功,则返回一个匹配对象,否则返回None。
- re.search(pattern, string):在字符串中搜索匹配项,如果匹配成功,则返回一个匹配对象,否则返回None。
- re.findall(pattern, string):返回所有与模式匹配的非重叠字符串列表。
- re.sub(pattern, repl, string):将字符串中与模式匹配的部分替换为指定的字符串。
下面是一个简单的示例,演示如何使用正则表达式从网页中提取链接:
```python
import re
text = '<a href="http://www.example.com">Example</a>'
# 提取链接
pattern = '<a href="(.*?)">'
links = re.findall(pattern, text)
for link in links:
print(link)
```
在这个例子中,我们使用了findall函数和一个正则表达式模式来提取链接。模式`'<a href="(.*?)">'`表示匹配以`<a href="`开头,以`">`结尾的字符串,并且使用`.*?`来匹配链接本身。
希望这个例子对你有帮助!如果你有其他问题,请随时提问。
阅读全文