Datawhale入门：零基数据分析实战-二手车价格预测

176 浏览量更新于2024-08-30 收藏 92KB PDF 举报

在Datawhale的数据挖掘入门课程中，数据分析部分主要围绕二手车交易价格预测的实战任务进行教学。首先，参与者将学习如何导入和处理数据科学中的关键库，如pandas、numpy和scipy，以及数据可视化工具如matplotlib和seaborn。这些库在数据预处理、探索性和描述性分析中扮演着核心角色。在载入数据阶段，学生会用pandas的read_csv函数读取训练集（'used_car_train_20200313.csv'）和测试集（'used_car_testA_20200313.csv'），并通过head()和shape方法初步了解数据结构和样本数量。通过数据总览，学员会利用describe()函数获取数值型特征的统计摘要，如均值、标准差、最小值、最大值等，同时用info()检查数据类型，确保数据完整性。接着，学员需关注缺失值和异常值的检测。通过查看每列是否存在NaN值，使用缺失值可视化工具（如missingno库）识别数据缺失模式。异常值检测则可能采用统计方法（如Z-score或IQR）或可视化手段，确保分析结果的准确性。对于预测值的分布，将计算skewness和kurtosis以评估其偏斜程度和峰度。此外，还会分析预测值的频数分布，区分数值特征和类别特征。数值特征将进行分布可视化，包括直方图、核密度估计图，以及它们之间的相关性分析，通过散点图或热力图展示特征间的关系。类别特征的分析则涉及unique值的计数，以及箱线图、小提琴图和柱状图的可视化，以便了解各类别间的分布和频率。此外，会用count_plot进一步展示每个类别的频数。为了获得更全面的数据理解，学员还将使用pandas_profiling生成数据报告，此报告会汇总多种统计信息和可视化，提供深度的数据洞察。在整个过程中，通过实际操作，学员不仅掌握了数据的初步处理和探索技巧，也为后续的建模和预测奠定了坚实的基础。

Datawhale 数据挖掘入门：数据分析数据挖掘入门：数据分析笔记笔记

TASK2:数据分析

摘自 AI蜗牛车在Datawhale 数据挖掘入门：数据分析部分的讲义

赛题：零基础入门数据挖掘赛题：零基础入门数据挖掘 – 二手车交易价格预测二手车交易价格预测

地址：https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX

1 主要的内容主要的内容

载入各种数据科学以及可视化库:

数据科学库 pandas、numpy、scipy；

可视化库 matplotlib、seabon；

其他；

载入数据：

载入训练集和测试集；

简略观察数据(head()+shape)；

数据总览:

通过describe()来熟悉数据的相关统计量

通过info()来熟悉数据类型

判断数据缺失和异常

查看每列的存在nan情况

异常值检测

了解预测值的分布

总体分布概况（无界约翰逊分布等）

查看skewness and kurtosis

查看预测值的具体频数

特征分为类别特征和数字特征，并对类别特征查看unique分布

数字特征分析

相关性分析

查看几个特征得偏度和峰值

每个数字特征得分布可视化

数字特征相互之间的关系可视化

多变量互相回归关系可视化

类型特征分析

unique分布

类别特征箱形图可视化

类别特征的小提琴图可视化

类别特征的柱形图可视化类别

特征的每个类别频数可视化(count_plot)

用pandas_profiling生成数据报告

1.1 载入数据库载入数据库

import warnings

warnings.filterwarnings('ignore')

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

import missingno as msno

1.2 载入数据载入数据

## 1) 载入训练集和测试集；

Train_data = pd.read_csv('datalab/231784/used_car_train_20200313.csv', sep=' ')

Test_data = pd.read_csv('datalab/231784/used_car_testA_20200313.csv', sep=' ')

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38633475

粉丝: 3
资源: 946

Datawhale入门：零基数据分析实战-二手车价格预测

二手车交易价格预测学习笔记 — Task4

零基础入门数据挖掘 - 二手车交易价格预测-数据集

20200401零基础入门数据挖掘 – 二手车交易价格预测笔记（4）

数据挖掘笔记：二手车价格预测的EDA分析

Python数据挖掘基础：Pandas、Matplotlib、NumPy入门笔记

Jupyter代码编辑器入门：Python数据分析学习笔记

Python数据挖掘实战：入门到探索与预处理

Python数据分析入门：牛客网实战教程

Oracle OLAP入门：多维数据分析与解决方案详解

Python数据分析入门：Numpy库与数组对象解析

最新资源