数据挖掘Task2：深入EDA数据分析

140 浏览量更新于2024-08-30 收藏 1.21MB PDF 举报

"DataWhale数据挖掘学习任务2主要涵盖了数据加载、数据概况查看、缺失值、异常值和重复值的检测，以及预测值分布、数据特征分析等多个方面，旨在进行深入的数据探索分析(EDA)。这个任务适用于大数据和数据分析的学习者，帮助他们更好地理解和处理数据，为后续的数据挖掘工作打下基础。" 在数据挖掘学习中，EDA是至关重要的一步，它允许我们了解数据的特性、发现潜在模式和异常，并为模型构建提供有价值的见解。以下是该任务中涉及的知识点详解： 1. **数据加载**：使用`pandas`库中的`read_csv()`函数读取CSV文件，创建DataFrame对象，如`Train_data = pd.read_csv(path+"used_car_train_20200313.csv")`。 2. **查看数据概况**：利用`head()`函数查看数据集的前几行，`describe()`函数则提供统计摘要，包括计数、平均值、标准差、最小值、四分位数和最大值。 3. **检测缺失值**： - **判断**：使用`isnull()`和`sum()`函数组合，找出各列的缺失值数量。 - **可视化**：通过`missingno`库，可以绘制矩阵图和条形图来直观展示缺失值分布。 4. **异常值检测**：异常值通常用统计方法如Z-Score、IQR法则（四分位距法）来识别，这里提到的是“倾斜值检测”，可能指的是利用数据的偏斜程度来寻找异常值。 5. **查看预测值分布**： - **Skewness**（偏度）衡量数据分布的不对称程度，正偏度表示右尾较长，负偏度表示左尾较长。 - **Kurtosis**（峰度）反映数据分布的尖峰程度，高峰度表示数据集中在均值附近，低峰度表示数据分布更平坦。 - **频数**：计算预测值出现的次数，了解其分布情况。 6. **数据特征分析**： - **数字特征分析**： - **相关性分析**：使用`corr()`函数计算特征间的相关系数，可视化可借助`seaborn`的heatmap。 - **偏度和峰值**：通过`skew()`和`kurtosis()`函数计算并理解特征的统计特性。 - **分布可视化**：使用直方图、核密度图等展示特征分布。 - **关系可视化**：散点图、双变量核密度图、线性回归图等揭示变量间的关系。 - **类型特征分析**： - **unique分析**：检查类别特征的唯一值数量。 - **箱型图**：展示特征的四分位数，便于识别异常值。 - **小提琴图**：结合了箱型图和核密度图，呈现连续变量在不同类别下的分布。 - **柱形图**：对比不同类别下的频数。 7. **生成数据报告**：汇总以上分析结果，形成清晰的报告，用于交流和决策。在实践中，使用这些工具和方法可以深入了解数据集，识别潜在问题，预处理数据，并为模型选择和参数调整提供依据。在数据挖掘过程中，理解数据是成功的关键，因此，掌握有效的EDA技巧对于提升模型性能至关重要。

DataWhale数据挖掘学习数据挖掘学习–Task 2 数据分析数据分析

EDA数据分析数据分析2.1 数据加载2.2 查看数据概况2.3 检测缺失值、异常值、重复值2.3.1 缺失值判断2.3.2 缺失值可视化missingno矩阵查看缺失值missingno条形图查看缺失值2.3.3异常值

检测倾斜值检测2.4 查看预测值分布查看skewness和kurtosis查看具体频数2.5 数据特征分析2.5.1数字特征分析相关性分析查看几个特征的偏度和峰值每个数字特征得分布可视化数

字特征相互之间的关系可视化多变量互相回归关系可视化2.5.2类型特征分析类别特征unique分析类别特征箱型图类别特征小提琴图类别特征的柱形图可视化2.6生成数据报

数据挖掘学习任务二是对数据进行EDA–数据性探索分析。

EDA定义：

探索性数据分析（Exploratory Data Analysis，简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、

计算特征量等手段探索数据的结构和规律的一种数据分析方法。

通过EDA，我们可以更好的了解和熟悉数据集，方便接下来的机器学习或深度学习使用。

EDA一般步骤：

加载数据（必要时可以对列名重命名）加载数据（必要时可以对列名重命名）

查看数据整体概况查看数据整体概况

检测缺失值、异常值、重复值问题检测缺失值、异常值、重复值问题

了解预测值的分布概况了解预测值的分布概况

4.1 总体概况（无界约翰逊分布等）

4.2 查看skewness 和 kurtosis

4.3 查看预测值的具体频数

特征分析特征分析

5.1 特征分类

5.2 按照不同类别的方法进行分析

（1）单变量分析（与预测值的相关性等）

（2）多变量分析（变量间的关系等）

总结分析（数据报告）总结分析（数据报告）

以下以train_data数据集为样例进行数据分析分析学习。导入模块numpy、 pandas、 matplotlib、seaborn、missingno。

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

import missingno as msno

missingno：缺失值可视化包

Seaborn是基于matplotlib的Python可视化库。

2.1 数据加载数据加载

path = ""

Train_data = pd.read_csv(path+"used_car_train_20200313.csv", sep=' ')

2.2 查看数据概况查看数据概况

Train_data.shape # 数据集形状

Train_data.head().append(Train_data.tail()) # 显示前5条数据(head())和后5条数据(tail())

Train_data.describe() # 查看数据值列的汇总统计可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数等相关信息

Train_data.info() # 显示有关DataFrame的信息，包括索引dtype和列dtype，非空值和内存使用情况。

df.info()结果结果：

2.3 检测缺失值、异常值、重复值检测缺失值、异常值、重复值

2.3.1 缺失值判断缺失值判断

Train_data.isnull().sum() # 将列中的空值情况统计出来

df.isnull()

元素级别的判断，把对应的所有元素的位置都列出来，元素为空或者NA就显示True，否则就是False

结果:

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38626179

粉丝: 4
资源: 959

数据挖掘Task2：深入EDA数据分析

"Datawhale数据挖掘打卡2：数据分析与EDA，了解数据特征与处理需求

机器学习LAB2数据分析示例教程

Pandas基础与数据分析实践操作指南

DataWhale组队打卡学习营task05-1 卷积神经网络基础

Datawhale AI 夏令营机器学习 task1.pdf

Datawhale AI夏令营 AIGC方向 task01方向小白笔记

NLP学习（Datawhale AI夏令营） TASK01#Datawhale示例代码

DataWhale-学术前沿趋势分析-Task1 论文数据统计.ipynb

Datawhale-Task2数据读取和数据扩增直播(1)(1).pptx

二手车数据挖掘task2.zip

最新资源