requests爬取html网页
时间: 2024-09-29 08:16:03 浏览: 16
在Python中,`requests`库是一个非常流行的用于网络请求的工具,它简化了HTTP请求的过程。如果你想要使用`requests`爬取HTML网页,可以按照以下几个步骤操作:
1. 首先,你需要安装`requests`库,如果没有安装,可以在命令行输入 `pip install requests` 来安装。
2. 导入requests模块:
```python
import requests
```
3. 发送GET请求获取网页内容:
```python
url = "http://example.com" # 替换为你想抓取的网站URL
response = requests.get(url)
```
4. 检查请求是否成功,通常状态码200表示成功:
```python
if response.status_code == 200:
html_content = response.text # 获取到的是HTML的字符串形式
else:
print("请求失败:", response.status_code)
```
5. 使用`BeautifulSoup`或其他解析库(如`lxml`)分析并提取需要的数据:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser') # 解析HTML内容
data = soup.find_all('tag_name', class_='class_name') # 根据标签名和类名查找元素
```
6. 对数据进行处理、保存或进一步分析。