利用python代码,200人对100个电影进行评分,筛选出评分大于3的频繁数据集
时间: 2024-11-24 09:41:18 浏览: 29
在Python中,你可以使用pandas库来处理这个问题。首先,假设你有一个包含评分数据的DataFrame,例如每个用户ID作为行索引,电影ID作为列名,值是用户的评分。这里是一个简单的步骤:
```python
import pandas as pd
# 假设你的数据存储在一个CSV文件里,名为'movie_ratings.csv'
df = pd.read_csv('movie_ratings.csv')
# 确保评分列是数值类型
df['rating'] = df['rating'].astype(float)
# 创建一个新的DataFrame,只保留评分大于3的记录
filtered_data = df[df['rating'] > 3]
# 对于频繁数据集,你可以使用频率分析。如果你想要找出哪些电影被评分超过某个阈值(如5次),可以先按电影ID分组,计算评分次数
frequent_movies = filtered_data.groupby('movie_id')['rating'].value_counts()
# 挑选出评分次数超过特定阈值的电影
threshold = 5 # 这里的阈值可以根据需要调整
frequent_movies = frequent_movies[frequent_movies >= threshold].reset_index()
frequent_movies.columns = ['movie_id', 'frequency']
print("评分大于3且频次大于{}的电影数据集:".format(threshold))
print(frequent_movies)
```
阅读全文