数据挖掘:按年龄分层的第二章概述与预处理策略

需积分: 50 5 下载量 4 浏览量 更新于2024-08-13 收藏 2.02MB PPT 举报
"《数据挖掘原理与实践》第二讲主要聚焦于数据及数据预处理,由张巍老师讲解。这一章节首先介绍了数据挖掘的基本概念,包括数据的定义——狭义上指数字,广义上则是对象及其属性的集合,属性如特征、字段等,用于刻画对象的特性。数据集则是这些对象的集合,比如电信客户信息案例中包含了客户编号、类别、行业大类、通话级别和费用等属性。 数据类型分为分类(定性)如颜色、性别,序数如成绩等级,数值(定量)如日期、温度,以及比率和长度等。数据集的特性有维度,即属性总数,这在高维数据中可能导致维度灾难,因此数据预处理中的一个重要环节就是维归约。此外,还提到了数据的稀疏性,即数据中非零值的比例较低,这在处理文本数据时尤其重要。 文本数据集的另一个特性是分辨率(或粒度),即数据在不同细节程度下的表现不同。数据预处理涉及到清理、集成、变换和归约等一系列步骤,这些步骤旨在消除噪声、处理缺失值、统一数据格式,以及降低维度,以提高数据的质量和可用性,从而为后续的数据挖掘任务提供更准确和高效的基础。整个章节内容丰富,涵盖了数据挖掘过程中基础且关键的数据预处理技术,为读者深入理解数据挖掘提供了扎实的理论基础。"