电影推荐对数据进行预处理的代码
时间: 2023-08-22 11:04:23 浏览: 144
以下是一个简单的电影推荐数据预处理的代码示例,包括数据读取、去重、缺失值填充和异常值检测等操作:
```python
import pandas as pd
import numpy as np
# 读取数据
movies = pd.read_csv('movies.csv')
ratings = pd.read_csv('ratings.csv')
# 去重
movies.drop_duplicates(inplace=True)
ratings.drop_duplicates(inplace=True)
# 缺失值填充
mean_rating = ratings['rating'].mean()
ratings['rating'].fillna(mean_rating, inplace=True)
# 异常值检测
rating_mean = ratings['rating'].mean()
rating_std = ratings['rating'].std()
ratings['rating'] = np.where(np.abs(ratings['rating'] - rating_mean) > 3 * rating_std,
rating_mean, ratings['rating'])
```
以上代码使用了pandas库进行数据读取和处理,通过drop_duplicates()方法去除重复记录,使用fillna()方法填充缺失值,使用np.where()方法对异常值进行检测和处理。需要注意的是,以上代码只是一个简单的示例,实际应用中需要根据具体的数据集和需求进行选择和应用。
阅读全文