python爬虫抓取网页数据案例
时间: 2024-09-12 14:12:35 浏览: 56
Python 爬虫是一种能够自动获取网页内容的程序,它通过分析和发送HTTP请求,从网页中提取所需数据。这里提供一个简单的Python爬虫示例,使用了`requests`库来发送网络请求,以及`BeautifulSoup`库来解析HTML页面。
首先,确保你已经安装了`requests`和`bs4`(BeautifulSoup的库):
```bash
pip install requests
pip install beautifulsoup4
```
以下是一个简单的Python爬虫示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com/'
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取网页中的所有链接
links = soup.find_all('a')
for link in links:
# 打印每个链接的href属性
print(link.get('href'))
else:
print('网页请求失败,状态码:', response.status_code)
```
这个简单的爬虫会抓取`http://example.com/`这个网页上的所有链接,并打印出来。需要注意的是,实际编写爬虫时应遵循目标网站的`robots.txt`规则,并且要尊重网站的版权和隐私政策,不要进行任何非法抓取行为。
阅读全文