使用requests库爬取网页(静态网页和动态网页)内容步骤
时间: 2024-02-27 17:56:32 浏览: 47
使用requests库来爬取网页内容的步骤如下:
1. 导入requests库
```python
import requests
```
2. 发送请求
使用requests库发送请求,获取网页的HTML源代码。对于静态网页,直接使用requests库的get()方法发送GET请求即可,如下所示:
```python
response = requests.get(url)
```
对于动态网页,可以使用Selenium库模拟浏览器行为,或者直接使用API接口获取数据。
3. 解析HTML源代码
使用Python的解析库(如BeautifulSoup、lxml等)对HTML源代码进行解析,获取需要的信息。例如,使用BeautifulSoup解析HTML源代码:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'lxml')
```
4. 提取信息
通过解析HTML源代码,获取需要的信息,可以使用CSS选择器或XPath语法提取信息。例如,使用CSS选择器提取所有a标签的href属性:
```python
links = soup.select('a')
for link in links:
print(link['href'])
```
或者使用XPath语法提取所有p标签的文本内容:
```python
paras = soup.xpath('//p')
for para in paras:
print(para.text)
```
以上是静态网页的爬取,对于动态网页,可以使用Selenium模拟浏览器行为,或者直接使用API接口获取数据。