python lxml解析html_Python爬虫解析html:lxml的HtmlElement对象获取和设置inner html
时间: 2024-03-08 11:50:27 浏览: 230
要使用lxml库解析HTML,首先需要导入lxml并使用lxml.html.fromstring()函数将HTML字符串转换为HtmlElement对象。然后,可以使用该对象的内置方法和属性来获取和设置inner html。
以下是一个示例代码,演示如何使用lxml获取和设置inner html:
```python
from lxml import html
# 将HTML字符串转换为HtmlElement对象
html_string = '<div><p>Hello World</p></div>'
root = html.fromstring(html_string)
# 获取inner html
inner_html = root.xpath('string()')
# 输出inner html
print(inner_html) # 输出:'<p>Hello World</p>'
# 设置inner html
new_inner_html = '<p>Goodbye World</p>'
root.text = None # 清空节点文本
root.append(html.fromstring(new_inner_html)) # 添加新的HtmlElement对象
# 获取新的inner html
new_inner_html = root.xpath('string()')
# 输出新的inner html
print(new_inner_html) # 输出:'<p>Goodbye World</p>'
```
在这个示例中,我们首先将HTML字符串转换为HtmlElement对象,然后使用`string()`方法获取inner html。接着,我们清空节点文本并添加一个新的HtmlElement对象来设置inner html。最后,我们再次使用`string()`方法获取新的inner html并输出结果。
阅读全文