首页python使用xpath解析html

python使用xpath解析html

时间: 2023-11-08 21:15:11 浏览: 106

Python中使用xpath解析HTML可以使用lxml库。首先，需要安装lxml库，可以使用pip安装： ``` pip install lxml ``` 然后，可以使用lxml库中的etree模块来解析HTML。以下是一个示例代码： ```python from lxml import etree # 构造HTML文档 html = """ <html> <body> <div class="container"> <h1>Title</h1> <ul> <li>Item 1</li> <li>Item 2</li> <li>Item 3</li> </ul> </div> </body> </html> """ # 解析HTML tree = etree.HTML(html) # 使用xpath获取标签内容 title = tree.xpath('//h1/text()') items = tree.xpath('//li/text()') # 输出结果 print(title) # ['Title'] print(items) # ['Item 1', 'Item 2', 'Item 3'] ``` 在上述代码中，我们首先构造了一个HTML文档。然后，使用etree.HTML()方法将HTML文档解析为一个ElementTree对象。接着，可以使用xpath表达式来获取所需的标签内容，例如使用'//h1/text()'获取h1标签的文本内容，使用'//li/text()'获取所有li标签的文本内容。最后，可以通过print语句输出结果。希望这能帮到你！如果有任何疑问，请随时提问。

阅读全文