"探索性数据分析(EDA):从实际数据出发,简明直观,为数据分析带来新方向"
195 浏览量
更新于2024-01-03
1
收藏 355KB PPTX 举报
探索性数据分析(EDA)是一种数据分析方法,最早由美国统计学家John W. Tukey在1977年的《探索性数据分析》一书中提出。他认为,在进行统计建模时,应该结合数据的真实分布情况,而不应该从理论分布假定出发去构建模型。EDA重新强调了描述统计在数据分析中的重要性,并为统计学指明了新的发展方向,即与数据相结合。
EDA的主要特点是从原始数据入手,完全以实际数据为依据。传统的统计分析方法通常是先假定数据服从某种分布,然后用适应这种分布的模型进行分析和预测。然而,实际上,多数数据(尤其是实验数据)并不能保证满足理论分布的假设。因此,传统方法的统计结果常常并不令人满意,使用上受到很大的局限。而EDA则以实际数据为基础,不做过多的先验假定,通过作图、制表等形式和方程拟合、计算某些特征量等手段,探索数据的结构和规律。
EDA的分析方法从实际出发,不以某种理论为依据。传统的统计分析方法以概率论为理论基础,对各种参数的估计、检验和预测给出具有一定精度的度量方法和度量值。而在探索数据内在的数量特征、数量关系和数量变化时,EDA会选择灵活对待,使用适合数据特点和研究目的的方法。这样的方法选择能够更好地适应数据的实际情况,并且更容易应用和普及。
此外,EDA强调使用简单直观的分析工具,更易于普及。传统的统计分析方法通常比较抽象和深奥,一般人难以掌握。而EDA则更注重直观和数据可视化的方法,使分析者能够一目了然地看出数据中隐含的有价值信息,显示出其遵循的普遍规律和与众不同的突出特点。这样的分析方法能够促进发现规律,得到启发,并满足分析者的多方面要求,从而为数据分析提供了重要的贡献。
在数据类型方面,EDA可以处理不同类型的数据。结构化数据包括二分类型(如性别)、多分类型(如职业)、有序类型(如收入水平)和数值类型(如年龄、收入)。而非结构化数据则包括文本、音频、视频和图片等形式。
单变量分析是EDA的一种常见方法。通过计算变量的频率和中心趋势等统计量,可以揭示出数据的分布和整体情况。这些分析结果可以帮助我们更好地理解数据,并为后续的多变量分析提供有价值的线索。
总而言之,EDA是一种重要的数据分析方法,它以实际数据为基础,灵活对待各种分析方法,并通过简单直观的分析工具提供有价值的信息。它在当前大数据时代中具有重要的意义,可以帮助我们更好地理解和探索数据的结构和规律,为决策和预测提供有力支持。
161 浏览量
点击了解资源详情
点击了解资源详情
2021-10-11 上传
2021-10-05 上传
2023-07-30 上传
2023-03-23 上传
2021-10-14 上传
121 浏览量
是空空呀
- 粉丝: 199
- 资源: 3万+
最新资源
- Ufrayd
- cstore_fdw:由Citus Data开发的用于使用Postgres进行分析的列式存储。 在https:groups.google.comforum#!forumcstore-users上查看邮件列表,或在https:slack.citusdata.com加入我们的Slack频道。
- 正则化算法
- monaco-powershell:VSCode的Monaco编辑器+ PowerShell编辑器服务!
- ASP网上购书管理系统(源代码+论文).zip
- node-provider-service
- Gradle插件可将APK发布到Google Play-Android开发
- Uecker
- 阿里云机器学习PAI-DSW入门指南.zip
- Cardboard-Viewer:主要使用Three.js,我为Google Cardboard耳机创建了一个陀螺移动VR查看器,以查看我在克利夫兰地区使用Panono 360相机拍摄的360°全景照片和风景。 刷新页面从总共6张照片中选择一张随机照片。 要查看该应用程序,请单击链接:
- Jwg3full.github.io
- 简单的C++串口示例
- 高斯白噪声matlab代码-SPA_for_LDPC:此存储库是关于LDPC(又名低密度奇偶校验)代码的和积算法在二进制对称信道,二进制擦除信
- C/C++:二叉排序树.rar(含完整注释)
- U27fog
- godotenv:Ruby的dotenv库的Go端口(从`.env`加载环境变量。)