数据挖掘：按年龄分层的第二章概述与预处理策略

需积分: 50 4 浏览量更新于2024-08-13 收藏 2.02MB PPT 举报

"《数据挖掘原理与实践》第二讲主要聚焦于数据及数据预处理，由张巍老师讲解。这一章节首先介绍了数据挖掘的基本概念，包括数据的定义——狭义上指数字，广义上则是对象及其属性的集合，属性如特征、字段等，用于刻画对象的特性。数据集则是这些对象的集合，比如电信客户信息案例中包含了客户编号、类别、行业大类、通话级别和费用等属性。数据类型分为分类（定性）如颜色、性别，序数如成绩等级，数值（定量）如日期、温度，以及比率和长度等。数据集的特性有维度，即属性总数，这在高维数据中可能导致维度灾难，因此数据预处理中的一个重要环节就是维归约。此外，还提到了数据的稀疏性，即数据中非零值的比例较低，这在处理文本数据时尤其重要。文本数据集的另一个特性是分辨率（或粒度），即数据在不同细节程度下的表现不同。数据预处理涉及到清理、集成、变换和归约等一系列步骤，这些步骤旨在消除噪声、处理缺失值、统一数据格式，以及降低维度，以提高数据的质量和可用性，从而为后续的数据挖掘任务提供更准确和高效的基础。整个章节内容丰富，涵盖了数据挖掘过程中基础且关键的数据预处理技术，为读者深入理解数据挖掘提供了扎实的理论基础。"

欧学东

粉丝: 877
资源: 2万+

数据挖掘：按年龄分层的第二章概述与预处理策略

数据挖掘总结1

基于云计算的海量数据挖掘算法分析研究.pdf

高级软件人才培训专家-C4D-第四天PPT

行业分类-设备装置-纸品的选样样本.zip

行业分类-设备装置-纸品加工效果的选样样本.zip

产品选样与封样程序培训课程.docx

论文研究-不同时间尺度选样法的洪水频率分析.pdf

电信设备-含油岩石薄片选样、制作、及信息提取.zip

专题资料（2021-2022年）产品选样及封样程序.docx

装饰材料选样表.doc

最新资源