from bs4 import BeautifulSoup不使用这个
时间: 2024-10-25 16:06:58 浏览: 10
import sys import os import urllib from bs4 import BeautifulSoup
如果你不想使用`BeautifulSoup`库来解析HTML,你可以尝试使用`lxml`库,它是一个基于`libxml2`和`lxml.etree`的高性能HTML和XML处理器,提供了类似的功能。下面是不使用`BeautifulSoup`的例子,而是直接使用`lxml`的`ElementTree`模块来解析HTML:
```python
from lxml import etree
import requests
# 获取网页源码
url = "https://www.taobao.com"
response = requests.get(url)
html_content = response.text
# 解析HTML为元素树
root = etree.fromstring(html_content.encode('utf-8'))
# 遍历元素树,查找包含汉字的节点
hanzi_nodes = root.xpath('//text()[contains(., "\u4e00-\u9fa5")]') # 匹配汉字的XPath表达式
# 提取汉字
h汉字nzi_list = [node.text for node in hanzi_nodes]
print("提取到的所有汉字字符:")
for char in h汉字nzi_list:
print(char)
阅读全文