用python实现以下要求。1,用pandas库读取bike_day.csv文件,查看前5行,后2行。2选择instant,dteday,yr,casual,registered共五行数据,将缺失值丢弃,处理后的数据导出到bike_day_user.txt,数据之间用空格分隔,每行末尾包含换行符。3,读取bike_day_user.txt,计算列casual与列registered和,并作为一个新的列cnt添加到原始数据,导出到新的Excel文件bike_day_user_cnt.xlsx。4读取bike_day_user_cnt.xlsx,计算列cnt最大值,最小值;分别统计2011年和2012年cnt的年平均值,以及2011年和2012年每个月的月平均值。5,将上一步计算得出的2011年和2012年共享单车租凭用户的月平均值以及水平柱状图可视化显示,y轴代表月份,刻度为每个月份,包括图例,图标题,填充颜色为蓝色,保存为bike_day_user_cnt.png,分辨率不低于300dpi
时间: 2023-12-09 13:06:39 浏览: 98
python实现共享单车租用分析(包括数据集处理)
好的,以下是Python代码实现:
```
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 1. 读取并查看数据
bike_day = pd.read_csv('bike_day.csv')
print(bike_day.head(5)) # 前5行
print(bike_day.tail(2)) # 后2行
# 2. 处理数据并导出到文件
bike_day_user = bike_day[['instant', 'dteday', 'yr', 'casual', 'registered']].dropna()
bike_day_user.to_csv('bike_day_user.txt', sep=' ', index=False, header=False)
# 3. 读取数据并添加新列并导出到新文件
bike_day_user = pd.read_csv('bike_day_user.txt', sep=' ', header=None, names=['instant', 'dteday', 'yr', 'casual', 'registered'])
bike_day_user['cnt'] = bike_day_user['casual'] + bike_day_user['registered']
bike_day_user.to_excel('bike_day_user_cnt.xlsx', index=False)
# 4. 读取数据并进行统计
bike_day_user_cnt = pd.read_excel('bike_day_user_cnt.xlsx')
print('cnt最大值:', bike_day_user_cnt['cnt'].max())
print('cnt最小值:', bike_day_user_cnt['cnt'].min())
print('2011年cnt年平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 0]['cnt'].mean())
print('2012年cnt年平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 1]['cnt'].mean())
print('2011年月平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 0].groupby('mnth')['cnt'].mean())
print('2012年月平均值:', bike_day_user_cnt[bike_day_user_cnt['yr'] == 1].groupby('mnth')['cnt'].mean())
# 5. 可视化并保存图像
fig, ax = plt.subplots()
ax.barh(bike_day_user_cnt['mnth'], bike_day_user_cnt[bike_day_user_cnt['yr'] == 0].groupby('mnth')['cnt'].mean(), color='blue', label='2011')
ax.barh(bike_day_user_cnt['mnth'], bike_day_user_cnt[bike_day_user_cnt['yr'] == 1].groupby('mnth')['cnt'].mean(), color='lightblue', label='2012')
ax.set_yticks(np.arange(1, 13))
ax.set_yticklabels(['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'])
ax.set_xlabel('Average number of shared bike users')
ax.set_title('Monthly Average Number of Shared Bike Users in 2011-2012')
ax.legend()
fig.savefig('bike_day_user_cnt.png', dpi=300)
```
这段代码实现了对给定数据的读取、处理、统计、可视化和保存等功能。其中:
- 第1步使用`pandas`库读取`bike_day.csv`文件,并分别查看前5行和后2行数据。
- 第2步选择5列数据并将缺失值丢弃,处理后的数据导出到`bike_day_user.txt`文件中。
- 第3步读取`bike_day_user.txt`文件,并添加新的一列`cnt`表示共享单车租赁用户总数,将处理后的数据导出到`bike_day_user_cnt.xlsx`文件中。
- 第4步读取`bike_day_user_cnt.xlsx`文件,并对`cnt`列进行最大值、最小值、年平均值和月平均值的统计。
- 第5步使用`matplotlib`库进行数据可视化,并保存为`bike_day_user_cnt.png`文件。
希望这个代码可以帮到你!
阅读全文