python解析html提取汉字
时间: 2023-08-05 22:58:59 浏览: 171
你可以使用Python的BeautifulSoup库来解析HTML并提取汉字。下面是一个简单的示例代码:
```python
from bs4 import BeautifulSoup
def extract_chinese_from_html(html):
soup = BeautifulSoup(html, 'html.parser')
chinese_text = ''.join(soup.stripped_strings)
chinese_chars = [char for char in chinese_text if '\u4e00' <= char <= '\u9fff']
return ''.join(chinese_chars)
# 假设你有一个名为html的字符串变量,包含HTML内容
html = "<html>...</html>"
chinese = extract_chinese_from_html(html)
print(chinese)
```
这个示例代码中,`extract_chinese_from_html`函数接受一个HTML字符串作为输入,使用BeautifulSoup库解析HTML,并通过`stripped_strings`方法获取所有的文本内容。然后,它筛选出所有的汉字字符,将它们存储在一个列表中。最后,使用`join`方法将汉字字符列表转换为一个字符串,并打印出来。
请确保在使用代码之前安装了BeautifulSoup库,可以使用`pip install beautifulsoup4`命令进行安装。
阅读全文