lxml 的使用
时间: 2023-07-11 12:11:36 浏览: 97
lxml 是一个用于处理 XML 和 HTML 文档的 Python 库,它提供了一些方便的 API 来解析和操作这些文档。以下是 lxml 的基本使用方法:
1. 安装lxml库,可以使用 pip 命令安装:`pip install lxml`
2. 导入lxml库:`from lxml import etree`
3. 加载 XML 或 HTML 文档,可以使用 etree 中的 `parse()` 或 `HTML()` 方法,例如:
```
tree = etree.parse('example.xml') # 解析 XML 文档
tree = etree.HTML('example.html') # 解析 HTML 文档
```
4. 获取根元素,可以使用 `getroot()` 方法,例如:
```
root = tree.getroot()
```
5. 遍历元素,可以使用 `iter()` 或 `iterfind()` 方法,例如:
```
for element in root.iter('tag'):
# 处理元素
```
6. 获取元素的属性,可以使用 `get()` 方法,例如:
```
value = element.get('attribute_name')
```
7. 修改元素的属性,可以使用 `set()` 方法,例如:
```
element.set('attribute_name', 'new_value')
```
8. 获取元素的文本内容,可以使用 `text` 属性,例如:
```
value = element.text
```
9. 修改元素的文本内容,可以直接修改 `text` 属性,例如:
```
element.text = 'new_text'
```
10. 添加新元素,可以使用 `Element()` 方法创建新元素,并使用 `append()` 方法将其添加到文档中,例如:
```
new_element = etree.Element('tag')
new_element.text = 'text'
root.append(new_element)
```
除此之外,lxml 还提供了一些高级的 API,例如 XPath 查询、XSLT 转换等,可以根据具体需求进行学习和使用。
阅读全文