基于putyer使用requests库和正则表达式爬取网页信息
时间: 2024-01-26 21:02:42 浏览: 154
Python基于requests库爬取网站信息
好的,下面是一个基于 PyTuer 库使用 requests 库和正则表达式爬取网页信息的示例:
```python
import re
import requests
from pyquery import PyQuery as pq
url = 'https://www.example.com'
response = requests.get(url)
if response.status_code == 200:
# 使用 pyquery 解析 HTML 文档
doc = pq(response.text)
# 获取页面标题
title = doc('title').text()
print('页面标题:', title)
# 获取页面所有链接
links = [link.attr('href') for link in doc('a').items()]
print('页面链接:', links)
# 使用正则表达式查找页面所有图片链接
pattern = re.compile(r'<img.*?src="(.*?)".*?>', re.S)
imgs = re.findall(pattern, response.text)
print('页面图片链接:', imgs)
else:
print('请求页面失败,状态码:', response.status_code)
```
以上代码首先使用 requests 库发送请求并获取响应,然后使用 PyQuery 库解析 HTML 文档。接着使用 PyQuery 的选择器语法获取页面标题和所有链接,并使用正则表达式查找页面所有图片链接。
需要注意的是,这里使用了 PyQuery 库来解析 HTML 文档,因为它比正则表达式更容易使用,而且可以像 jQuery 一样使用 CSS 选择器来定位 HTML 元素。同时,PyTuer 库也提供了 PyQuery 类,可以直接使用。
阅读全文