已经将从豆瓣读书网爬取的评分和评论人数数据存储到了MongoDB中,使用pandas库对获取的数据进行转化,求中位数,求最高值和最低值,求四分卫数据
时间: 2024-02-13 13:04:44 浏览: 74
基于Python的豆瓣图书评论数据获取与可视化分析.pdf
5星 · 资源好评率100%
好的,您的问题是如何使用pandas库对MongoDB中存储的数据进行转化并进行一些统计分析。下面是一个简单的代码示例,可以帮助您完成这个任务:
```python
import pandas as pd
from pymongo import MongoClient
# 连接MongoDB数据库
client = MongoClient('localhost', 27017)
db = client['豆瓣读书']
collection = db['评分']
# 从MongoDB中读取数据
data = pd.DataFrame(list(collection.find()))
# 转化数据类型
data['评分'] = data['评分'].astype(float)
data['评论人数'] = data['评论人数'].astype(int)
# 计算中位数、最高值、最低值和四分位数
median = data['评分'].median()
max_value = data['评分'].max()
min_value = data['评分'].min()
q1 = data['评分'].quantile(0.25)
q3 = data['评分'].quantile(0.75)
print('中位数:', median)
print('最高值:', max_value)
print('最低值:', min_value)
print('四分位数:', q1, q3)
```
这段代码首先使用pandas库和pymongo库连接到MongoDB数据库,并读取了名为“评分”的集合中的数据。然后,我们将“评分”和“评论人数”两列的数据类型分别转化为float和int类型。最后,我们使用pandas中的一些统计函数来计算中位数、最高值、最低值和四分位数,并将结果打印出来。
阅读全文