python爬虫etree
时间: 2023-11-12 19:55:12 浏览: 98
etree是Python的lxml库下的一个包,它提供了原ElementTree API定义的接口,并且具有一些简单的增强功能。使用etree可以对HTML元素进行类似于BeautifulSoup的查找,但它主要基于XPath路径。相比之下,BeautifulSoup主要基于Selector路径。
要使用etree,首先需要安装lxml库。可以通过以下命令安装:
pip install lxml
下面是一个使用etree解析HTML的简单示例代码:
```python
import requests
from lxml import etree
Headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
Url = 'https://movie.douban.com/top250'
web_data = requests.get(Url, headers=Headers)
web_html = etree.HTML(web_data.text)
movie_name = web_html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]')
print(movie_name)
```
在上述代码中,我们首先导入了requests和etree模块。然后,定义了请求头和目标URL。通过使用requests发送GET请求获取网页内容,并将其传递给etree.HTML()函数进行解析。接下来,我们使用XPath表达式`//*[@id="content"]/div/div/ol/li/div/div/div/a/span`来查找电影名称的元素。最后,我们打印出电影名称。
关于etree的更多用法,以及XPath语法的学习,您可以参考菜鸟教程的XPath教程。
阅读全文