怎么利用request模块爬取网页数据
时间: 2024-10-21 17:06:18 浏览: 17
在Python中,`requests`是一个非常流行的用于发送HTTP请求的库,可以用来爬取网页数据。以下是基本的步骤:
1. **安装requests库**:如果还没有安装,先通过pip安装:`pip install requests`
2. **导入request模块**:在Python脚本中,首先导入`requests`模块,例如:
```python
import requests
```
3. **发起GET请求**:使用`requests.get(url)`方法向指定URL发送GET请求,获取网页内容。比如:
```python
url = 'https://example.com'
response = requests.get(url)
```
4. **检查响应状态码**:确保请求成功,状态码通常为200。可以使用`response.status_code`查看。
```python
if response.status_code == 200:
pass # 请求成功
else:
print(f"请求失败,状态码:{response.status_code}")
```
5. **解析HTML数据**:使用`response.text`获取到的是HTML文本,然后可以解析成BeautifulSoup或lxml对象进行后续操作,提取所需信息。
6. **保存数据**:可以选择将数据保存为文件,如CSV、JSON或直接打印出来。
```python
data = response.text
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(data)
```
阅读全文