函数tree.xpath
时间: 2023-11-26 09:48:19 浏览: 87
```python
import requests
from lxml import etree
# 构造HTML文档
html = """
<html>
<head>
<title>测试</title>
</head>
<body>
<div class="content">
<ul>
<li class="item"><a href="https://www.baidu.com">百度</a></li>
<li class="item"><a href="https://www.taobao.com">淘宝</a></li>
<li class="item"><a href="https://www.jd.com">京东</a></li>
</ul>
</div>
</body>
</html>
"""
# 解析HTML文档
tree = etree.HTML(html)
# 使用xpath获取元素
links = tree.xpath('//div[@class="content"]/ul/li/a/@href')
for link in links:
print(link)
```
输出结果为:
```
https://www.baidu.com
https://www.taobao.com
https://www.jd.com
```
`tree.xpath()`是lxml库中的一个方法,用于在HTML或XML文档中使用XPath表达式来选择元素。它返回一个元素列表,可以通过遍历这个列表来获取元素的属性或文本内容等信息。
在上面的例子中,我们首先构造了一个HTML文档,然后使用lxml库中的etree.HTML()方法将其解析为一个Element对象。接着,我们使用xpath表达式`//div[@class="content"]/ul/li/a/@href`来选择所有`<a>`标签的`href`属性,并使用for循环遍历这个列表,输出每个链接的地址。
阅读全文