首页etree.HTML 如何提取节点

etree.HTML 如何提取节点

时间: 2024-04-04 12:32:16 浏览: 183

etree.HTML 是 Python 中的一个库，用于解析 HTML 和 XML 文档。要提取节点，可以使用 XPath 表达式来选择节点。例如，假设我们有一个 HTML 文档如下： ```html <html> <head> <title>My webpage</title> </head> <body> <h1>Welcome to my webpage</h1> <p>This is a paragraph.</p> <ul> <li>Item 1</li> <li>Item 2</li> <li>Item 3</li> </ul> </body> </html> ``` 我们可以使用以下 Python 代码来提取节点： ```python import requests from lxml import etree # 获取 HTML 文档 response = requests.get("https://example.com") html = response.content # 解析 HTML 文档 doc = etree.HTML(html) # 选择节点 title = doc.xpath("//title")[0].text h1 = doc.xpath("//h1")[0].text paragraph = doc.xpath("//p")[0].text list_items = doc.xpath("//ul/li") # 打印结果 print(title) print(h1) print(paragraph) for item in list_items: print(item.text) ``` 这样就可以提取出 HTML 文档中的节点了。具体的 XPath 表达式可以根据需要进行调整。

阅读全文