写一个Python代码,爬取https://www.ctbu.edu.cn/index/xxxw.htm上的<h4>节点和<p>节点内容
时间: 2024-11-22 16:44:55 浏览: 5
管理系统中计算机应用-练习题(带简答题答案).doc
在Python中,我们可以使用`requests`库来发送HTTP请求获取网页内容,然后使用`BeautifulSoup`库解析HTML文档。以下是一个简单的示例,演示如何爬取指定URL的 `<h4>` 和 `<p>` 节点的内容:
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求
url = "https://www.ctbu.edu.cn/index/xxxw.htm"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取<h4>和<p>节点
h4_nodes = soup.find_all('h4')
p_nodes = soup.find_all('p')
# 打印提取到的节点内容
for node in h4_nodes + p_nodes:
print(f"标签: {node.name}, 内容: {node.text.strip()}")
else:
print(f"无法加载页面,状态码: {response.status_code}")
阅读全文