3.通过Beautiful Soup库或者xpath 解析1中获取的网页内容,找到其中类名为包含“normal-c-color-t”的节点,并提取该节点中文本内容和连结地址。
时间: 2024-09-27 08:16:05 浏览: 41
为了使用BeautifulSoup库解析HTML内容并提取特定类名的节点,首先确保已经安装了beautifulsoup4和lxml库,如果没有,可以用以下命令安装:
```bash
pip install beautifulsoup4 lxml
```
然后,我们假设从上一步获取到了一个BeautifulSoup对象`soup`,接下来可以这样做:
```python
from bs4 import BeautifulSoup
import requests
# 假设 soup 已经是BeautifulSoup对象,代表1中的网页内容
class_name = "normal-c-color-t"
# 使用find_all方法查找所有class为"class_name"的节点
nodes = soup.find_all(class_=class_name)
for node in nodes:
# 提取节点的文本内容
text_content = node.get_text()
# 提取节点的href属性(如果存在链接)
if 'href' in node.attrs:
link_address = node['href']
else:
link_address = None
print(f"文本内容:{text_content}")
print(f"链接地址:{link_address}\n")
```
这段代码会找到所有class为"normal-c-color-t"的节点,并打印出它们的文本内容和(如果有)链接地址。注意,`node['href']`获取的是`<a>`标签的`href`属性,如果节点不是链接元素,则`link_address`将为None。
阅读全文