从豆瓣读书网爬取出来的评论人数和评分有什么联系吗
时间: 2023-12-28 15:03:45 浏览: 128
从豆瓣读书网爬取出来的评论人数和评分之间存在一定的联系。一般来说,如果一本书的评论人数较多,那么这本书的评分更加可信;反之,如果一本书的评论人数较少,那么这本书的评分可能会受到个别用户的评分影响,评分的可信度会相对较低。但是需要注意的是,即使一本书的评论人数较多,也可能存在一些用户恶意评分的情况,因此需要综合考虑多个因素来评估一本书的评分可信度。
相关问题
已经将从豆瓣读书网爬取的评分和评论人数数据存储到了MongoDB中,求出各个评分占百分比图
好的,您可以使用MongoDB的聚合框架来实现此操作。首先,您需要使用聚合管道中的`$group`操作符按评分对文档进行分组,并计算每个分组中的文档数量。然后,您需要使用`$project`操作符计算每个评分的百分比。
以下是一个可能的聚合查询示例:
```
db.book_ratings.aggregate([
{
$group: {
_id: "$rating",
count: { $sum: 1 }
}
},
{
$project: {
_id: 0,
rating: "$_id",
percent: { $multiply: [ { $divide: [ "$count", { $sum: "$count" } ] }, 100 ] }
}
}
])
```
这个查询将按评分对`book_ratings`集合中的文档进行分组,并计算每个分组中的文档数量。然后,它将使用`$project`操作符计算每个评分的百分比,将结果文档中的评分和百分比字段分别命名为`rating`和`percent`。
您可以将此查询复制并粘贴到MongoDB的shell中运行,以获取各评分占百分比的结果。
从python爬取豆瓣读书网中的评论人数和评分怎么进行数据处理
要从豆瓣读书网中爬取评论人数和评分数据,可以使用Python的爬虫库Scrapy或BeautifulSoup来获取数据。你需要分析网站的HTML结构,找到评论人数和评分所在的标签和属性。然后可以将获取到的数据存储到本地文件或数据库中。
一旦你完成了数据的爬取,你可以使用Python的pandas库来进行数据处理和分析。你可以将数据读取到pandas的DataFrame中,然后对数据进行清洗、筛选、统计和可视化等操作。以下是一个简单的示例代码,演示如何从CSV文件中读取数据并计算出评论人数和评分的平均值:
```python
import pandas as pd
# 读取CSV文件中的数据到DataFrame中
df = pd.read_csv('books.csv')
# 计算评论人数和评分的平均值
avg_ratings = df['rating'].mean()
avg_reviews = df['reviews'].mean()
# 打印结果
print('平均评分:{:.2f}'.format(avg_ratings))
print('平均评论人数:{:.2f}'.format(avg_reviews))
```
请注意,这只是一个简单的示例代码,实际上你可能需要进行更复杂的数据处理和分析,具体取决于你的需求和数据结构。
阅读全文