数据挖掘:属性类型详解与预处理关键

需积分: 50 5 下载量 162 浏览量 更新于2024-08-13 收藏 2.02MB PPT 举报
在"不同的属性类型-数据挖掘原理与实践 第二章 ppt"中,讲解了数据挖掘中至关重要的数据和数据类型概念。数据,无论是狭义的数字形式,还是广义上包括符号、文字、图像或代码等多种表现形式,都是数据挖掘研究的基础。数据集则是由数据对象组成的集合,每个对象通常通过一系列属性进行刻画,这些属性是数据挖掘的核心要素。 属性被进一步分为分类属性和数值属性两种主要类型。分类属性又分为定性和序数两种: 1. 定性属性(标称):这类属性如颜色、性别或产品编号,它们仅提供足够的信息来区分不同的对象,但这些属性值本身没有实际的数值含义。例如,将对象分为A、B、C或者甲、乙、丙,只是为了分类而设。 2. 序数属性:这类属性如成绩等级(优、良、中等、及格、不及格)或年级(一年级到四年级),它们提供了对象间的顺序信息,但不涉及数量或比率关系。 数值属性则进一步细分为区间属性和比率属性: - 区间属性:这些属性值之间的差具有明确的意义,如日历日期和摄氏温度,它们可以用于量化比较和分析。 - 比率属性:这些属性值的差和比率都具有含义,比如长度、时间和速度,这些属性可以直接进行加减乘除运算。 数据集还具有特定的特性,如维度(即属性总数)、稀疏性(数据中大部分属性值为0的情况)以及文本数据集的分辨率或粒度,这会影响数据处理的效率和方法。在数据预处理阶段,对这些特性有深入理解并采取相应的技术,如维归约(针对高维度问题)、数据清理、集成和变换,以及数据归约(减少数据复杂性)和相似度计算,都是实现有效数据挖掘的关键步骤。通过理解和处理这些属性类型和数据集特性,可以提高数据挖掘的质量和效率,从而支持更精确的决策和预测。