数据挖掘:维归约与属性选择实战

需积分: 50 5 下载量 145 浏览量 更新于2024-08-13 收藏 2.02MB PPT 举报
"数据挖掘原理与实践第二章ppt主要涵盖了数据预处理的多个方面,特别是维归约和属性选择。讲师张巍强调了数据预处理的重要性,并介绍了数据的基本概念,包括数据、属性、数据集以及各种属性类型。此外,还讨论了数据集的特性,如维度、稀疏性和分辨率。在维归约中,提到了启发式搜索方法,如逐步向前选择和逐步向后删除,以及判定归纳树作为属性选择的策略。" 在数据挖掘中,数据预处理是至关重要的步骤,因为它直接影响到后续挖掘结果的质量。数据预处理包括数据清理、集成、变换和归约等步骤。数据清理旨在消除数据中的噪声和不一致性,例如处理缺失值、异常值和重复值。数据集成涉及将来自不同源的数据合并到一起,而数据变换可能包括规范化、标准化或编码等操作,以使数据适合挖掘算法。 数据归约是降低数据复杂性和处理高维数据的一种手段。维归约可以通过多种方式实现,如属性选择。启发式搜索方法在这里发挥着作用,例如: 1. **逐步向前选择**:这种方法从无特征的模型开始,逐步添加最能提升模型性能的属性,直到达到预定的标准或所有属性都被考虑过。 2. **逐步向后删除**:相反,它从包含所有属性的模型开始,然后逐步删除对模型影响最小的属性,直到达到最优的属性子集。 3. **判定归纳树**:这是一种基于树结构的属性选择方法,通过构建决策树来确定哪些属性对于分类或预测最重要,从而进行属性选择。 属性类型可以分为分类的(定性的)和数值的(定量的)。分类属性如性别、颜色,它们的值只有区分作用,没有量的概念。数值属性如长度、温度,它们的值之间有差和比率。属性类型的选择会直接影响到数据处理和挖掘的算法选择。 数据集的特性对预处理也有很大影响: - **维度**:高维度数据集可能导致维度灾难,即随着维度增加,有效信息的相对稀疏性增加,使得学习和理解变得更加困难。因此,维归约是必要的,以减少不必要的属性,提高效率。 - **稀疏性**:如果数据集中大部分属性值为零,那么数据被认为是稀疏的。这在处理大规模数据时需要特别关注,因为存储和计算成本可能会非常高。 - **文本数据集**:这些数据集包含大量非结构化信息,如自然语言文本,处理它们需要特殊的预处理技术,如词干提取、停用词移除和词袋模型等。 - **分辨率(粒度)**:数据的分辨率或粒度指的是数据的详细程度。不同的粒度可能揭示不同的模式,因此在预处理中可能需要调整数据的粒度来适应特定的分析任务。 数据预处理是数据挖掘流程中的关键环节,它涉及到对原始数据的深入理解和巧妙处理,以确保后续的数据挖掘过程能够准确、有效地揭示隐藏的模式和知识。