帮我写一篇共享单车数据可视化的课程设计,要求有代码
时间: 2023-08-28 10:14:00 浏览: 108
好的,以下是一份基于Python的共享单车数据可视化课程设计,包括代码和注释。希望能够帮助到你。
## 任务描述
使用Python中的pandas库和matplotlib库,对共享单车的数据集进行可视化分析。数据集中包含了某个城市中共享单车的使用情况,包括时间、骑行距离、起点和终点等信息。通过对数据集的可视化分析,探索用户骑行行为和城市骑行情况,为城市交通规划提供参考。
## 数据集
数据集的文件名为bike_sharing.csv,包含了以下列:
- 起点经度(start_lng)
- 起点纬度(start_lat)
- 终点经度(end_lng)
- 终点纬度(end_lat)
- 骑行距离(distance)
- 骑行时间(duration)
- 起始时间(start_time)
- 结束时间(end_time)
## 任务步骤
### 1. 导入所需库
```python
import pandas as pd
import matplotlib.pyplot as plt
```
### 2. 加载数据集
```python
df = pd.read_csv('bike_sharing.csv')
```
### 3. 数据预处理
3.1 将起始时间和结束时间列转换为datetime类型,并提取出日期、小时和星期信息。
```python
df['start_time'] = pd.to_datetime(df['start_time'], format='%Y-%m-%d %H:%M:%S')
df['end_time'] = pd.to_datetime(df['end_time'], format='%Y-%m-%d %H:%M:%S')
df['date'] = df['start_time'].dt.date
df['hour'] = df['start_time'].dt.hour
df['weekday'] = df['start_time'].dt.weekday
```
3.2 将骑行时间列的单位从秒转换为分钟。
```python
df['duration'] = df['duration'] / 60
```
### 4. 可视化分析
4.1 全市骑行量的时间分布
```python
# 按日期分组并计数
date_count = df.groupby('date')['distance'].count()
# 绘制折线图
fig = plt.figure(figsize=(8, 4))
plt.plot(date_count.index, date_count.values)
plt.title('Daily Bike Count')
plt.xlabel('Date')
plt.ylabel('Bike Count')
plt.xticks(rotation=45)
plt.show()
```
4.2 全市骑行量的小时分布
```python
# 按小时分组并计数
hour_count = df.groupby('hour')['distance'].count()
# 绘制柱状图
fig = plt.figure(figsize=(6, 4))
plt.bar(hour_count.index, hour_count.values)
plt.title('Hourly Bike Count')
plt.xlabel('Hour')
plt.ylabel('Bike Count')
plt.show()
```
4.3 全市骑行距离的分布
```python
# 绘制直方图
fig = plt.figure(figsize=(6, 4))
plt.hist(df['distance'], bins=20, range=(0, 10))
plt.title('Bike Distance Distribution')
plt.xlabel('Distance (km)')
plt.ylabel('Frequency')
plt.show()
```
4.4 不同用户类型的骑行量对比
```python
# 按用户类型分组并计数
user_count = df.groupby('user_type')['distance'].count()
# 绘制饼图
fig = plt.figure(figsize=(6, 4))
plt.pie(user_count.values, labels=user_count.index, autopct='%1.1f%%')
plt.title('User Type Distribution')
plt.show()
```
4.5 不同星期的骑行量
```python
# 按星期分组并计数
weekday_count = df.groupby('weekday')['distance'].count()
# 绘制柱状图
fig = plt.figure(figsize=(6, 4))
plt.bar(weekday_count.index, weekday_count.values)
plt.title('Bike Count by Weekday')
plt.xlabel('Weekday')
plt.ylabel('Bike Count')
plt.xticks(range(7), ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'])
plt.show()
```
4.6 市中心骑行热度图
```python
# 取出市中心的经纬度范围
lng_range = [121.4, 121.5]
lat_range = [31.2, 31.3]
# 取出市中心的骑行记录
center_df = df[(df['start_lng'] >= lng_range[0]) & (df['start_lng'] <= lng_range[1])
& (df['start_lat'] >= lat_range[0]) & (df['start_lat'] <= lat_range[1])]
# 绘制热度图
fig = plt.figure(figsize=(8, 6))
plt.hexbin(center_df['start_lng'], center_df['start_lat'], gridsize=50, cmap=plt.cm.Blues, bins='log')
plt.title('Bike Heatmap in City Center')
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.show()
```
## 总结
通过以上可视化分析,我们可以得到以下结论:
- 城市的共享单车骑行量在工作日和周末有明显的区别,工作日骑行量较大;
- 城市的共享单车骑行量集中在白天,尤其是上午和下午;
- 城市的共享单车骑行距离主要集中在0到2公里之间;
- 绝大多数用户是月租用户;
- 周末的骑行量较高,周一到周五的骑行量较少;
- 市中心是共享单车的重要使用区域,骑行热度较高。
以上结论可以为城市交通规划提供一些参考,比如在工作日增加一些骑行补贴活动,在市中心增加一些停车点等。