使用xpath爬取豆瓣电影
时间: 2023-11-09 14:48:01 浏览: 91
可以使用Python的第三方库requests和lxml来实现对豆瓣电影网站进行爬取,并使用xpath来提取所需的信息。
首先,我们需要安装requests和lxml库。可以使用以下命令进行安装:
```
pip install requests
pip install lxml
```
接下来,我们使用requests库向豆瓣电影网站发送请求,获取网页的HTML源代码:
```python
import requests
url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = response.text
```
然后,我们使用lxml库中的etree模块解析HTML源代码,并使用xpath来提取所需的信息。例如,我们可以提取电影名称、导演、主演、评分等信息:
```python
from lxml import etree
# 解析HTML源代码
tree = etree.HTML(html)
# 提取电影信息
movies = tree.xpath('//ol[@class="grid_view"]/li')
for movie in movies:
title = movie.xpath('.//span[@class="title"]/text()')[0]
director = movie.xpath('.//div[@class="bd"]/p/text()')[0].split('/')[0]
actors = movie.xpath('.//div[@class="bd"]/p/text()')[0].split('/')[1:]
actors = [actor.strip() for actor in actors]
rating = movie.xpath('.//span[@class="rating_num"]/text()')[0]
print(title, director, actors, rating)
```
这样,我们就可以成功爬取豆瓣电影网站上的电影信息了。当然,在实际应用中,还需要注意反爬虫机制等问题。
阅读全文