python正则表达式爬网页
时间: 2023-09-26 17:08:04 浏览: 75
Python使用正则表达式获取网页中所需要的信息
以下是Python正则表达式爬网页的示例代码:
```python
import re
import requests
url = 'https://www.example.com'
response = requests.get(url)
html = response.content.decode('utf-8')
pattern = re.compile('<a href="(.*?)".*?>(.*?)</a>', re.S)
results = re.findall(pattern, html)
for result in results:
link, text = result
print(link, text)
```
在上述示例代码中,我们首先导入了`re`和`requests`模块,然后指定了要爬取的网页URL,并使用`requests.get()`方法获取网页内容。接着,我们使用`response.content.decode('utf-8')`将网页内容转换为UTF-8编码的字符串格式。
接下来,我们使用正则表达式编写了要匹配的模式,该模式可以匹配出网页中所有的超链接。然后,我们使用`re.findall()`方法在网页内容中查找所有符合模式的结果,并将它们存储在`results`变量中。
最后,我们使用一个循环遍历`results`列表,并打印出每个匹配结果中的链接和文本。
阅读全文