存储到mongodb中豆瓣读书网中的评分和评论人数怎么进行预处理
时间: 2024-02-13 16:04:28 浏览: 74
存储到MongoDB中的数据可以通过pandas和numpy等Python库进行预处理和分析。以下是一些可能有用的预处理步骤:
1. 读取MongoDB中的数据:
```python
import pymongo
import pandas as pd
# 连接MongoDB数据库
client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["douban_books"]
collection = db["books"]
# 从MongoDB中读取数据
data = pd.DataFrame(list(collection.find()))
```
2. 数据清洗和转换:
```python
# 将评分和评论人数转换为数字类型
data['score'] = pd.to_numeric(data['score'])
data['comments'] = pd.to_numeric(data['comments'])
# 去除评分和评论人数为0的书籍
data = data[(data['score'] > 0) & (data['comments'] > 0)]
# 重新设置索引
data = data.reset_index(drop=True)
# 将书名列设置为索引列
data = data.set_index('title')
```
3. 统计和分析数据:
```python
import numpy as np
# 计算评分的平均值和标准差
mean_score = np.mean(data['score'])
std_score = np.std(data['score'])
# 计算评论人数的中位数和四分位数
median_comments = np.median(data['comments'])
q1_comments = np.percentile(data['comments'], 25)
q3_comments = np.percentile(data['comments'], 75)
# 统计评分和评论人数的分布情况
score_counts = data['score'].value_counts().sort_index()
comments_counts = data['comments'].value_counts().sort_index()
```
通过以上预处理步骤,我们可以对豆瓣读书网站中的评分和评论人数数据进行清洗、转换、统计和分析,从而得到更有用的信息。
阅读全文