etree.HTML 如何提取 节点
时间: 2024-04-04 18:32:16 浏览: 174
etree.HTML 是 Python 中的一个库,用于解析 HTML 和 XML 文档。要提取节点,可以使用 XPath 表达式来选择节点。
例如,假设我们有一个 HTML 文档如下:
```html
<html>
<head>
<title>My webpage</title>
</head>
<body>
<h1>Welcome to my webpage</h1>
<p>This is a paragraph.</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</body>
</html>
```
我们可以使用以下 Python 代码来提取节点:
```python
import requests
from lxml import etree
# 获取 HTML 文档
response = requests.get("https://example.com")
html = response.content
# 解析 HTML 文档
doc = etree.HTML(html)
# 选择节点
title = doc.xpath("//title")[0].text
h1 = doc.xpath("//h1")[0].text
paragraph = doc.xpath("//p")[0].text
list_items = doc.xpath("//ul/li")
# 打印结果
print(title)
print(h1)
print(paragraph)
for item in list_items:
print(item.text)
```
这样就可以提取出 HTML 文档中的节点了。具体的 XPath 表达式可以根据需要进行调整。
阅读全文