数据挖掘：维归约与属性选择实战

需积分: 50 145 浏览量更新于2024-08-13 收藏 2.02MB PPT 举报

"数据挖掘原理与实践第二章ppt主要涵盖了数据预处理的多个方面，特别是维归约和属性选择。讲师张巍强调了数据预处理的重要性，并介绍了数据的基本概念，包括数据、属性、数据集以及各种属性类型。此外，还讨论了数据集的特性，如维度、稀疏性和分辨率。在维归约中，提到了启发式搜索方法，如逐步向前选择和逐步向后删除，以及判定归纳树作为属性选择的策略。" 在数据挖掘中，数据预处理是至关重要的步骤，因为它直接影响到后续挖掘结果的质量。数据预处理包括数据清理、集成、变换和归约等步骤。数据清理旨在消除数据中的噪声和不一致性，例如处理缺失值、异常值和重复值。数据集成涉及将来自不同源的数据合并到一起，而数据变换可能包括规范化、标准化或编码等操作，以使数据适合挖掘算法。数据归约是降低数据复杂性和处理高维数据的一种手段。维归约可以通过多种方式实现，如属性选择。启发式搜索方法在这里发挥着作用，例如： 1. **逐步向前选择**：这种方法从无特征的模型开始，逐步添加最能提升模型性能的属性，直到达到预定的标准或所有属性都被考虑过。 2. **逐步向后删除**：相反，它从包含所有属性的模型开始，然后逐步删除对模型影响最小的属性，直到达到最优的属性子集。 3. **判定归纳树**：这是一种基于树结构的属性选择方法，通过构建决策树来确定哪些属性对于分类或预测最重要，从而进行属性选择。属性类型可以分为分类的（定性的）和数值的（定量的）。分类属性如性别、颜色，它们的值只有区分作用，没有量的概念。数值属性如长度、温度，它们的值之间有差和比率。属性类型的选择会直接影响到数据处理和挖掘的算法选择。数据集的特性对预处理也有很大影响： - **维度**：高维度数据集可能导致维度灾难，即随着维度增加，有效信息的相对稀疏性增加，使得学习和理解变得更加困难。因此，维归约是必要的，以减少不必要的属性，提高效率。 - **稀疏性**：如果数据集中大部分属性值为零，那么数据被认为是稀疏的。这在处理大规模数据时需要特别关注，因为存储和计算成本可能会非常高。 - **文本数据集**：这些数据集包含大量非结构化信息，如自然语言文本，处理它们需要特殊的预处理技术，如词干提取、停用词移除和词袋模型等。 - **分辨率（粒度）**：数据的分辨率或粒度指的是数据的详细程度。不同的粒度可能揭示不同的模式，因此在预处理中可能需要调整数据的粒度来适应特定的分析任务。数据预处理是数据挖掘流程中的关键环节，它涉及到对原始数据的深入理解和巧妙处理，以确保后续的数据挖掘过程能够准确、有效地揭示隐藏的模式和知识。

巴黎巨星岬太郎

粉丝: 17
资源: 2万+

数据挖掘：维归约与属性选择实战

数据挖掘：属性类型详解与预处理关键

数据挖掘：第二讲数据预处理与有序数据解析

数据挖掘：分类数据概念分层与预处理详解

数据挖掘原理与实践 第二章 ppt

【推荐】第二章-医学数据采集与准备.ppt

第-章-具有现代特色的计算机优秀文档.ppt

数据挖掘：数值归约与数据预处理

数据挖掘：第二章 数据类型与预处理关键操作

数据挖掘：按年龄分层的第二章概述与预处理策略

数据挖掘实践：线性回归模型与数据预处理

最新资源

数据挖掘原理与实践第二章 ppt

数据挖掘：第二章数据类型与预处理关键操作