基于Pandas 的车辆数据分析
时间: 2024-11-03 20:14:51 浏览: 13
实践:基于Pandas的车型数据分析.pptx
### 基于Pandas的车辆数据分析概述
#### 实验目标
1. **理解数据分析流程**:掌握根据业务背景确定数据分析目的与需求的能力。
2. **数据清洗**:熟练使用Pandas进行数据清洗操作。
3. **数据分析与可视化**:能够利用Pandas进行数据分析并生成可视化图表。
#### 实验内容
1. **实验环境与效果预览**
- **实验难度**:中等(☆☆☆)
- **建议时长**:45分钟
- **前置知识**:
- 了解数据分析的基本流程
- 掌握Pandas数据清洗的基本知识
- 具备Pandas数据分析及可视化的基本知识
- **实验环境**:
- 系统环境:MacOS、Linux、Windows 10
- 软件环境:Python 3.6+Anaconda、Pandas
2. **数据加载**
- 使用`pd.read_csv`读取CSV文件,加载车辆数据。
- 示例代码:
```python
import pandas as pd
car_data = pd.read_csv('second_cars_info.csv', encoding='utf_8_sig')
```
3. **数据清洗**
- **处理未上牌车辆**:
- 统计未上牌车辆数量,占比极小(0.82%),直接删除。
- 分割“Boarding_time”字段为“year”和“month”。
- **处理“New_price”和“Km”字段**:
- 删除单位,保留数字,并转换为浮点类型。
- 示例代码:
```python
car_data['New_price'] = car_data['New_price'].str[:-1].astype('float')
car_data['Km'] = car_data['Km'].str[:-2].astype('float')
```
4. **数据分析**
- **车辆价格分布**:
- 使用`dataframe.hist()`绘制直方图,组距为10万元。
- **车辆销量品牌占比**:
- 统计Top10品牌,其余归类为“其他”,绘制饼图。
- **排放标准分析**:
- 统计不同排放标准的车辆数量,绘制柱形图。
- **车龄分析**:
- 统计不同年份上牌的车辆数量,绘制柱形图。
- **里程分析**:
- 将里程数分为6个范围,统计每个范围内的车辆数量,绘制柱形图。
- **折旧价格分析**:
- 计算折旧价格(`Sec_price / New_price`),按20%的间隔分箱,绘制柱形图。
- **行驶公里数与价格关系**:
- 选取特定品牌(如奥迪)的车辆,绘制行驶公里数与价格的散点图。
#### 实验结果
1. **车辆价格分布**:价格越高,交易数量急剧下降。
2. **车辆销量品牌占比**:销量前十的品牌占总销量的63%,主要包括别克、大众、奔驰、宝马等。
3. **排放标准**:国4标准最多,其次是欧4、国5、欧5。
4. **车龄**:2010年附近上牌的车辆成交最多,其次是2014年。
5. **里程**:大部分交易的二手车里程数在0到9万公里之间,7到9万公里的车辆最多。
6. **折旧价格**:成交的二手车折旧价格在原价的20%至80%之间。
7. **行驶公里数与价格**:行驶里程数与价格呈负相关,里程数越多,价格越低。
#### 扩展阅读
1. 《数据分析与可视化》,张玉宏等著;电子工业出版社.2023.
2. Pandas官方中文文档:https://www.pypandas.cn/
### 附录
- 本实验的完整源码见附件。
阅读全文