利用网络爬虫爬取网页源码的代码
时间: 2024-09-12 19:05:22 浏览: 12
网络爬虫是一种自动获取网页内容的程序,通常用于搜索引擎索引网页、数据挖掘、监控网站变化等。在Python中,可以使用`requests`库来获取网页内容,然后使用`BeautifulSoup`库来解析网页源码。以下是一个简单的示例代码,展示了如何使用这两个库来爬取并解析网页源码:
```python
import requests
from bs4 import BeautifulSoup
# 目标网页的URL
url = 'http://example.com'
# 使用requests库发送HTTP请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 获取网页的源码
html_content = response.text
# 使用BeautifulSoup解析网页源码
soup = BeautifulSoup(html_content, 'html.parser')
# 可以使用BeautifulSoup提供的方法来查找网页中的特定内容
# 例如,获取网页中的所有段落
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
else:
print('请求失败,状态码:', response.status_code)
```
在使用上述代码之前,需要确保安装了`requests`和`beautifulsoup4`库。可以使用pip安装命令如下:
```
pip install requests beautifulsoup4
```