数据挖掘导论：中文版探索性数据分析实战

需积分: 13 181 浏览量更新于2024-07-09 收藏 1.31MB PPTX 举报

数据挖掘导论（第二版）是一本深入介绍数据挖掘基础概念和技术的教材，特别关注中文读者，强调探索性数据分析（Exploratory Data Analysis, EDA）的重要性和应用。该章节专门探讨了数据分析中的初步研究方法，旨在通过直观检查数据来发现潜在模式，从而辅助选择合适的预处理技术和数据分析技术。数据探索是EDA的核心组成部分，它是一个初步的数据分析阶段，旨在理解和评估数据的特性和结构。其作用不仅在于准备数据挖掘任务，还在于解决一些早期的数据问题，如识别异常值、理解变量之间的关系等。EDA技术最初由统计学家John Tukey提出，它重视数据的可视化呈现，因为图形和图表可以直观地揭示数据分布、趋势和相关性。在这个章节中，聚类分析和异常检测虽然重要，但未在当前部分深入讲解，它们是数据挖掘中的独立领域，会在后续章节中做详细介绍。章节内容涵盖了诸如汇总统计这样的核心分析方法，汇总统计包括频率、位置度量（如均值和中位数）以及散度度量（如方差、极差），这些度量能快速概览数据的特性，如数据的集中趋势和分散程度。此外，可视化是数据探索中的关键工具，通过图表展示数据分布、关系和异常情况，如使用Iris数据集（一种常用的多类鸢尾花数据集，来自加州大学欧文分校的机器学习库）进行实例分析。Iris数据集包含三种不同的鸢尾花类型及其四个属性（花瓣和花萼的长度和宽度），这成为展示各种统计和可视化技术的理想平台。频率和众数是度量数据集中某个值出现的常见指标，特别是对于分类属性，了解这些值的分布有助于研究人员进行进一步的分析。百分位数在有序数据中尤其有用，它可以帮助识别数据的分布点。在散布度量方面，除了方差和标准差外，还有极差、绝对平均偏差、中位数绝对偏差和四分位数极差等，这些度量对异常值的敏感性更高，适用于处理分布不均匀或存在离群值的数据。数据挖掘导论（第二版）的这一章节为读者提供了探索性数据分析的基础框架，强调了数据预处理、基本统计分析和可视化在理解数据过程中的关键作用，同时为后续的深度学习和数据挖掘技术奠定了坚实的基础。

主讲：黄剑数据分析 9

散布度量 : 极差和方差



极差是属性中最大值和最小值的差



作为散布度量，方差和标准差更可取 .



方差和标准差对离群值非常敏感，所以我们常用另

外三种度量：绝对平均偏差、中位数绝对偏差、四

分位数极差 .

剩余46页未读，继续阅读

hj_911

粉丝: 3
资源: 15

数据挖掘导论：中文版探索性数据分析实战

数据挖掘导论：分类基础、模型评估及案例分析

"广告系统数据统计分析功能需求.pptx：全面智能的网站推广数据分析

压缩包内含重要资料文件：2.pptx

数据挖掘导论（第二版）第2章：数据.pptx

数据挖掘导论（第二版）第1章：绪论.pptx

数据挖掘导论 .pptx

数据挖掘导论（第二版），中文第7章：聚类-基础.pptx

数据挖掘导论（第二版）第4章：贝叶斯分类器.pptx

数据挖掘导论（第二版）第3章：分类-基础.pptx

完整版 数据分析 数据挖掘与统计学应用 系列课程05 第五章 探索性数据分析 （共110页）.pptx

最新资源

完整版数据分析数据挖掘与统计学应用系列课程05 第五章探索性数据分析（共110页）.pptx