selector = etree.HTML(text)
时间: 2024-06-17 14:06:38 浏览: 155
`etree.HTML()`是Python中标准库`lxml`中的一个函数,它返回一个可用于操作HTML元素的Element对象。通常,我们可以通过该函数对从网页中提取的HTML文本进行解析,来提取网页中的有用信息。下面是一个演示代码片段,展示如何使用`etree.HTML()`函数对HTML文本进行解析,并提取其中的链接信息:
```python
from lxml import etree
html = """
<html>
<body>
<ul>
<li><a href="https://www.example.com/page1">Page 1</a></li>
<li><a href="https://www.example.com/page2">Page 2</a></li>
<li><a href="https://www.example.com/page3">Page 3</a></li>
</ul>
</body>
</html>
"""
selector = etree.HTML(html)
links = selector.xpath("//a/@href")
print(links)
# 输出:['https://www.example.com/page1', 'https://www.example.com/page2', 'https://www.example.com/page3']
```
在上面的代码中,我们首先定义了一个字符串变量`html`,它包含了一个HTML文档的内容。然后,我们使用`etree.HTML()`函数将这个字符串对象解析成一个Element对象`selector`。最后,我们使用XPath表达式`//a/@href`来提取HTML文档中所有链接的URL,并将其存储在一个列表中。
阅读全文