数据挖掘:维归约与属性选择实战
需积分: 50 8 浏览量
更新于2024-08-13
收藏 2.02MB PPT 举报
"数据挖掘原理与实践第二章ppt主要涵盖了数据预处理的多个方面,特别是维归约和属性选择。讲师张巍强调了数据预处理的重要性,并介绍了数据的基本概念,包括数据、属性、数据集以及各种属性类型。此外,还讨论了数据集的特性,如维度、稀疏性和分辨率。在维归约中,提到了启发式搜索方法,如逐步向前选择和逐步向后删除,以及判定归纳树作为属性选择的策略。"
在数据挖掘中,数据预处理是至关重要的步骤,因为它直接影响到后续挖掘结果的质量。数据预处理包括数据清理、集成、变换和归约等步骤。数据清理旨在消除数据中的噪声和不一致性,例如处理缺失值、异常值和重复值。数据集成涉及将来自不同源的数据合并到一起,而数据变换可能包括规范化、标准化或编码等操作,以使数据适合挖掘算法。
数据归约是降低数据复杂性和处理高维数据的一种手段。维归约可以通过多种方式实现,如属性选择。启发式搜索方法在这里发挥着作用,例如:
1. **逐步向前选择**:这种方法从无特征的模型开始,逐步添加最能提升模型性能的属性,直到达到预定的标准或所有属性都被考虑过。
2. **逐步向后删除**:相反,它从包含所有属性的模型开始,然后逐步删除对模型影响最小的属性,直到达到最优的属性子集。
3. **判定归纳树**:这是一种基于树结构的属性选择方法,通过构建决策树来确定哪些属性对于分类或预测最重要,从而进行属性选择。
属性类型可以分为分类的(定性的)和数值的(定量的)。分类属性如性别、颜色,它们的值只有区分作用,没有量的概念。数值属性如长度、温度,它们的值之间有差和比率。属性类型的选择会直接影响到数据处理和挖掘的算法选择。
数据集的特性对预处理也有很大影响:
- **维度**:高维度数据集可能导致维度灾难,即随着维度增加,有效信息的相对稀疏性增加,使得学习和理解变得更加困难。因此,维归约是必要的,以减少不必要的属性,提高效率。
- **稀疏性**:如果数据集中大部分属性值为零,那么数据被认为是稀疏的。这在处理大规模数据时需要特别关注,因为存储和计算成本可能会非常高。
- **文本数据集**:这些数据集包含大量非结构化信息,如自然语言文本,处理它们需要特殊的预处理技术,如词干提取、停用词移除和词袋模型等。
- **分辨率(粒度)**:数据的分辨率或粒度指的是数据的详细程度。不同的粒度可能揭示不同的模式,因此在预处理中可能需要调整数据的粒度来适应特定的分析任务。
数据预处理是数据挖掘流程中的关键环节,它涉及到对原始数据的深入理解和巧妙处理,以确保后续的数据挖掘过程能够准确、有效地揭示隐藏的模式和知识。
2021-10-14 上传
2021-10-05 上传
2024-05-15 上传
2022-12-01 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
巴黎巨星岬太郎
- 粉丝: 17
- 资源: 2万+
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析