数据挖掘:维归约与属性选择实战
需积分: 50 145 浏览量
更新于2024-08-13
收藏 2.02MB PPT 举报
"数据挖掘原理与实践第二章ppt主要涵盖了数据预处理的多个方面,特别是维归约和属性选择。讲师张巍强调了数据预处理的重要性,并介绍了数据的基本概念,包括数据、属性、数据集以及各种属性类型。此外,还讨论了数据集的特性,如维度、稀疏性和分辨率。在维归约中,提到了启发式搜索方法,如逐步向前选择和逐步向后删除,以及判定归纳树作为属性选择的策略。"
在数据挖掘中,数据预处理是至关重要的步骤,因为它直接影响到后续挖掘结果的质量。数据预处理包括数据清理、集成、变换和归约等步骤。数据清理旨在消除数据中的噪声和不一致性,例如处理缺失值、异常值和重复值。数据集成涉及将来自不同源的数据合并到一起,而数据变换可能包括规范化、标准化或编码等操作,以使数据适合挖掘算法。
数据归约是降低数据复杂性和处理高维数据的一种手段。维归约可以通过多种方式实现,如属性选择。启发式搜索方法在这里发挥着作用,例如:
1. **逐步向前选择**:这种方法从无特征的模型开始,逐步添加最能提升模型性能的属性,直到达到预定的标准或所有属性都被考虑过。
2. **逐步向后删除**:相反,它从包含所有属性的模型开始,然后逐步删除对模型影响最小的属性,直到达到最优的属性子集。
3. **判定归纳树**:这是一种基于树结构的属性选择方法,通过构建决策树来确定哪些属性对于分类或预测最重要,从而进行属性选择。
属性类型可以分为分类的(定性的)和数值的(定量的)。分类属性如性别、颜色,它们的值只有区分作用,没有量的概念。数值属性如长度、温度,它们的值之间有差和比率。属性类型的选择会直接影响到数据处理和挖掘的算法选择。
数据集的特性对预处理也有很大影响:
- **维度**:高维度数据集可能导致维度灾难,即随着维度增加,有效信息的相对稀疏性增加,使得学习和理解变得更加困难。因此,维归约是必要的,以减少不必要的属性,提高效率。
- **稀疏性**:如果数据集中大部分属性值为零,那么数据被认为是稀疏的。这在处理大规模数据时需要特别关注,因为存储和计算成本可能会非常高。
- **文本数据集**:这些数据集包含大量非结构化信息,如自然语言文本,处理它们需要特殊的预处理技术,如词干提取、停用词移除和词袋模型等。
- **分辨率(粒度)**:数据的分辨率或粒度指的是数据的详细程度。不同的粒度可能揭示不同的模式,因此在预处理中可能需要调整数据的粒度来适应特定的分析任务。
数据预处理是数据挖掘流程中的关键环节,它涉及到对原始数据的深入理解和巧妙处理,以确保后续的数据挖掘过程能够准确、有效地揭示隐藏的模式和知识。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2024-05-15 上传
2022-12-01 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
巴黎巨星岬太郎
- 粉丝: 17
- 资源: 2万+
最新资源
- 火炬连体网络在MNIST的2D嵌入实现示例
- Angular插件增强Application Insights JavaScript SDK功能
- 实时三维重建:InfiniTAM的ros驱动应用
- Spring与Mybatis整合的配置与实践
- Vozy前端技术测试深入体验与模板参考
- React应用实现语音转文字功能介绍
- PHPMailer-6.6.4: PHP邮件收发类库的详细介绍
- Felineboard:为猫主人设计的交互式仪表板
- PGRFileManager:功能强大的开源Ajax文件管理器
- Pytest-Html定制测试报告与源代码封装教程
- Angular开发与部署指南:从创建到测试
- BASIC-BINARY-IPC系统:进程间通信的非阻塞接口
- LTK3D: Common Lisp中的基础3D图形实现
- Timer-Counter-Lister:官方源代码及更新发布
- Galaxia REST API:面向地球问题的解决方案
- Node.js模块:随机动物实例教程与源码解析