数据分析EDA全步骤解析:从数据加载到特征分析
184 浏览量
更新于2024-08-30
收藏 139KB PDF 举报
本资源是一份关于数据分析探索性分析(EDA)的笔记,主要涵盖了从数据加载、初步观察到深入特征分析的多个步骤,旨在帮助理解数据并为后续的机器学习或深度学习任务做好准备。
在数据分析过程中,EDA是至关重要的一步,它包括以下几个关键环节:
1. **载入数学和可视化库**:使用如pandas、numpy、scipy等数据科学库进行数据处理,借助matplotlib、seaborn和plotly等可视化工具来直观呈现数据。
2. **载入数据**:将训练集和测试集导入,并进行初步观察,了解数据的基本结构和规模。
3. **数据总览**:计算数据的相关统计量,例如平均值、中位数、最大值、最小值等,同时了解各变量的数据类型。
4. **检查缺失值**:通过可视化工具(如missingno库)识别缺失值(NAN)的存在,并进一步分析其分布情况。
5. **异常值检测**:通过可视化手段如箱线图检测异常值,确保数据的质量。
6. **预测值分布**:分析目标变量的分布,包括偏度和峰度,以理解其是否符合正态分布或其他特定分布。
7. **特征分析**:对各个特征进行深入研究,包括数字特征和类别特征。
- **数字特征分布**:通过相关性分析理解特征间的关联,查看偏度和峰度以了解特征的分布形态,再通过可视化(直方图、密度图等)来展示这些特征的分布。
- **类型特征分析**:分析类别特征的分布,如unique值的数量,使用箱型图、小提琴图、柱状图等可视化方式展示类别特征的分布情况,以及各类型的频数。
8. **多变量分析**:探究特征之间的多变量关系,例如通过散点图矩阵或多变量回归分析来理解特征间复杂的关系。
9. **数据报告**:使用Pandas_profiling生成详细的数据报告,便于全面了解数据特性。
通过这些步骤,分析师能够对数据有深入的理解,找出潜在的问题,如缺失值和异常值,发现特征间的联系,并为模型选择和预处理策略提供依据。这不仅有助于提高模型的性能,也有助于在项目初期避免因数据问题导致的错误假设。
2020-01-22 上传
2020-03-24 上传
2020-12-21 上传
2023-03-04 上传
2021-01-16 上传
2021-03-19 上传
weixin_38499349
- 粉丝: 2
- 资源: 961
最新资源
- 基于深度神经网络的DST指数预测.zip
- webpage
- 行业文档-设计装置-一种利用余热烘烤纸管的装置.zip
- word-frequency:小型javascript(节点)应用程序,该应用程序读取文本文件,并按顺序输出文件中20个最常用的单词以及它们的出现频率
- dltmatlab代码-dlt:用于计算离散勒让德变换(DLT)的MATLAB代码
- php-subprocess-example:使用Symfony Process Component和异步php执行的示例
- quick-Status
- .....
- 基于webpack的前后端分离方案.zip
- crossword-composer:文字游戏的约束求解器
- 电力设备与新能源行业新能源车产业链分析:_电动化持续推进,Q1有望淡季不淡.rar
- UnraidScripts
- dltmatlab代码-DLT:http://winsty.net/dlt.html
- ant.tmbundle:TextMate对Ant的支持
- zhaw-ba-online
- CandyMachineClient