xpath爬取豆瓣电影top250
时间: 2023-09-02 14:07:27 浏览: 236
好的,我可以教你如何使用XPath来爬取豆瓣电影top250的信息。你可以按照以下步骤进行:
1. 打开豆瓣电影top250的页面:https://movie.douban.com/top250
2. 打开Chrome浏览器的开发者工具,在Console选项卡下输入以下代码,以获取页面HTML内容:
```
var html = document.documentElement.outerHTML;
console.log(html);
```
3. 将获取到的HTML内容保存到本地,以备后续使用。
4. 使用Python中的requests和lxml库来解析HTML内容并提取所需信息。以下是一个示例代码:
```python
import requests
from lxml import etree
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.text
# 构建HTML树
tree = etree.HTML(html)
# 提取电影名称、评分、评价人数信息
movies = tree.xpath('//div[@class="hd"]//span[@class="title"]/text()')
scores = tree.xpath('//div[@class="star"]/span[@class="rating_num"]/text()')
comments = tree.xpath('//div[@class="star"]/span[4]/text()')
for i in range(len(movies)):
print(movies[i], scores[i], comments[i])
```
这段代码会输出豆瓣电影top250中每部电影的名称、评分和评价人数。你可以根据自己的需求,使用XPath来提取其他信息。
阅读全文