TMDB数据集里的评分和票房的关系,统计推断代码
时间: 2024-01-24 07:20:11 浏览: 127
首先,我们需要导入需要的库和数据集:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 读取数据集
df = pd.read_csv('tmdb_5000_movies.csv')
```
接下来,我们可以查看数据集的基本信息:
```python
# 查看数据集前几行
df.head()
# 查看数据集信息
df.info()
# 查看评分和票房的相关性
df[['vote_average', 'revenue']].corr()
```
我们可以看到数据集的前几行和基本信息,还有评分和票房的相关系数。
接下来,我们可以使用 Seaborn 库绘制散点图来观察评分和票房之间的关系:
```python
# 绘制散点图
sns.scatterplot(x='vote_average', y='revenue', data=df)
plt.title('Relation between vote_average and revenue')
plt.show()
```
最后,我们可以使用线性回归模型来进行统计推断,判断评分与票房之间的关系:
```python
# 导入线性回归模型
from sklearn.linear_model import LinearRegression
# 创建线性回归模型对象
lr_model = LinearRegression()
# 分离自变量和因变量
X = df[['vote_average']]
y = df['revenue']
# 训练模型
lr_model.fit(X, y)
# 输出模型参数
print('截距:', lr_model.intercept_)
print('斜率:', lr_model.coef_)
```
从模型的参数可以看出,评分和票房之间存在正相关关系,评分提高 1 分钟,票房增加了 1.19 亿美元左右。
阅读全文