数据挖掘:数值归约与数据预处理
需积分: 50 72 浏览量
更新于2024-08-13
收藏 2.02MB PPT 举报
"该资源是关于数据挖掘原理与实践的第二章内容,主要讨论了数值归约这一数据预处理技术。讲座由张巍主讲,涵盖了数据类型、数据预处理的重要性以及具体步骤,包括数据清理、数据集成和变换、数据归约等。此外,还提到了相似度计算的概念。"
在数据挖掘过程中,数值归约是至关重要的一步,它旨在减少数据的复杂性和大小,同时保持其关键信息。数值归约分为有参方法和无参方法。有参方法通常涉及构建模型来估算数据,如线性回归、多元回归和对数线性模型,这些方法基于特定的数学模型来简化数据。无参方法则不依赖于任何特定模型,例如直方图、聚类和选样,它们可以更灵活地处理数据,无需事先假设数据的分布。
数据的类型对于理解数据和进行预处理至关重要。数据可以是狭义的数字,也可以是广义的,包括符号、文字、图像等多种形式。属性是描述数据对象特性的元素,如样本数据集中客户的“客户类别”、“行业大类”和“通话级别”等。数据集是这些数据对象的集合,而属性的类型可以是分类的(如标称和序数)或数值的(如区间和比率),不同类型的属性处理方式会有所不同。
数据预处理是数据挖掘前的关键步骤,因为它能提高算法的效率和准确性。数据清理涉及到处理缺失值、异常值和重复值等问题;数据集成是将来自多个源的数据合并到一起,解决不一致性;数据变换可能包括标准化、归一化或者特征选择,以适应不同的算法需求。
数据集的一些特性,如维度、稀疏性和分辨率,也会影响预处理策略。维度指数据集中的属性数量,高维度可能导致“维度灾难”,需要进行维归约。稀疏性意味着数据集中大部分数据可能是零值,这在处理大规模数据时需要特别注意。分辨率或粒度则是指数据的详细程度,不同的粒度可能揭示不同的信息模式。
数值归约是数据预处理中的重要工具,用于降低数据复杂性,而数据预处理的全面性涵盖了从数据清理到数据变换的多个环节,确保数据适合后续的分析和挖掘。
2021-10-05 上传
2019-07-22 上传
2024-05-15 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
鲁严波
- 粉丝: 25
- 资源: 2万+
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程