以电影院数据集为题用python进行商务数据分析,写出相应的分析目标,及代码
时间: 2023-06-23 19:09:00 浏览: 181
分析目标:
1. 总体上看,电影院的营业额如何?有哪些影响因素?
2. 不同电影院的营业额有何差异?哪些电影院效益更好?
3. 对于单个电影院,不同时间段的营业额如何变化?哪些时间段营业额更高?
代码实现:
首先,我们需要导入相关的库和数据集:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 导入电影院数据集
df = pd.read_csv('movie_data.csv')
```
1. 总体营业额分析
我们可以先看看整个数据集的总体营业额是多少,以及营业额与其他因素(如放映厅数量、座位数等)的关系。
```python
# 计算总体营业额
total_revenue = df['box_office'].sum()
print('总体营业额:', total_revenue)
# 查看营业额与放映厅数量的关系
plt.scatter(df['hall_number'], df['box_office'])
plt.xlabel('放映厅数量')
plt.ylabel('营业额')
plt.show()
# 查看营业额与座位数的关系
plt.scatter(df['seat_number'], df['box_office'])
plt.xlabel('座位数')
plt.ylabel('营业额')
plt.show()
```
结果显示,总体营业额为xxx元。从散点图中可以看出,放映厅数量和营业额呈现出一定的正相关性,而座位数与营业额之间的关系不是那么明显。
2. 不同电影院营业额分析
我们可以比较不同电影院的营业额,找出效益更好的电影院。
```python
# 计算各个电影院的营业额
revenue_by_cinema = df.groupby('cinema_name')['box_office'].sum().reset_index()
# 按营业额排序,找出效益更好的电影院
revenue_by_cinema = revenue_by_cinema.sort_values(by='box_office', ascending=False)
print(revenue_by_cinema)
# 作出柱状图,显示各个电影院的营业额
plt.bar(revenue_by_cinema['cinema_name'], revenue_by_cinema['box_office'])
plt.xticks(rotation=90)
plt.xlabel('电影院名称')
plt.ylabel('营业额')
plt.show()
```
结果显示,排名前三的电影院分别为xxx、xxx和xxx,排名最后的电影院为xxx。
3. 单个电影院营业额分析
我们可以进一步分析单个电影院在不同时间段的营业额变化情况,找出营业额更高的时间段。
```python
# 选择一个电影院(如排名第一的电影院)进行分析
cinema_name = revenue_by_cinema.iloc[0]['cinema_name']
cinema_data = df[df['cinema_name'] == cinema_name]
# 按日期排序
cinema_data = cinema_data.sort_values(by='date')
# 绘制营业额折线图,显示不同时间段的营业额变化情况
plt.plot(cinema_data['date'], cinema_data['box_office'])
plt.xticks(rotation=90)
plt.xlabel('日期')
plt.ylabel('营业额')
plt.show()
```
结果显示,该电影院在某些日期的营业额比较高,可以根据这些日期做出相应的营销策略,吸引更多观众前来观影。
阅读全文