用随机森林做电影评分预测代码
时间: 2023-10-31 18:04:11 浏览: 121
随机森林代码
以下是使用随机森林模型进行电影评分预测的代码示例:
```
# 导入所需的库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
# 读取数据
data = pd.read_csv('movie_data.csv')
# 划分训练集和测试集
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)
# 定义特征和标签列
features = ['budget', 'runtime', 'cast', 'director']
label = 'rating'
# 提取特征和标签
X_train = train_data[features]
y_train = train_data[label]
X_test = test_data[features]
y_test = test_data[label]
# 定义随机森林模型
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
# 训练模型
rf_model.fit(X_train, y_train)
# 预测测试集
y_pred = rf_model.predict(X_test)
# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print('均方误差:', mse)
```
上述代码中,首先使用 pandas 库读取电影数据,然后使用 `train_test_split` 函数将数据划分为训练集和测试集。接下来,定义特征和标签列,然后提取训练集和测试集的特征和标签。随后,定义随机森林模型,并使用训练集对其进行训练。最后,使用测试集进行预测,并计算预测结果与真实标签的均方误差。
阅读全文