xpath爬取top250前十页的电影名称,评分和链接储存在mongodb里面
时间: 2024-01-08 13:05:01 浏览: 25
首先,你需要安装pymongo库和lxml库来操作mongodb和解析html页面。在安装好后,可以使用以下代码实现你的需求。
```python
from pymongo import MongoClient
import requests
from lxml import etree
# 连接mongodb数据库
client = MongoClient()
collection = client['test']['movies']
# 爬取top250前十页
for page in range(0, 250, 25):
url = f'https://movie.douban.com/top250?start={page}'
response = requests.get(url)
# 解析html页面
html = etree.HTML(response.text)
movies = html.xpath('//div[@class="hd"]')
# 提取电影名称、评分和链接
for movie in movies:
name = movie.xpath('.//a/span[@class="title"]/text()')[0]
score = movie.xpath('.//span[@class="rating_num"]/text()')[0]
link = movie.xpath('.//a/@href')[0]
# 储存到mongodb数据库
collection.insert_one({'name': name, 'score': score, 'link': link})
```
这样,你就可以将top250前十页的电影名称、评分和链接储存在mongodb里面了。