python lxml库调用
时间: 2023-12-18 22:02:42 浏览: 123
以下是使用 Python 的 lxml 库解析 HTML 文档的示例代码:
```python
from lxml import etree
# 构造 HTML 文档
html = '''
<html>
<head>
<title>这是一个测试页面</title>
</head>
<body>
<div class="test">
<ul>
<li class="item"><a href="https://www.example.com">链接1</a></li>
<li class="item"><a href="https://www.example.com">链接2</a></li>
<li class="item"><a href="https://www.example.com">链接3</a></li>
</ul>
</div>
</body>
</html>
'''
# 解析 HTML 文档
root = etree.HTML(html)
# 获取 title 标签的文本内容
title = root.xpath('//title/text()')[0]
print(title) # 输出:这是一个测试页面
# 获取所有 li 标签的 href 属性值
hrefs = root.xpath('//li[@class="item"]/a/@href')
print(hrefs) # 输出:['https://www.example.com', 'https://www.example.com', 'https://www.example.com']
```
在上面的示例代码中,我们首先构造了一个 HTML 文档,然后使用 lxml 库的 etree 模块解析该文档。我们通过 xpath 方法获取了 title 标签的文本内容和所有 li 标签的 href 属性值,并将它们打印出来。
阅读全文