![](https://csdnimg.cn/release/download_crawler_static/2401633/bg9.jpg)
数据挖掘第六章 聚类分析
的,并不表示任何顺序关系。
对于符号变量,最常用的计算对象
和对象
之间差异(程度)的方法就是
简单匹配方法。它的具体定义描述如公式(
#
)所示。
−
=$%&
(
#
)
其中
表示对象
和对象
中取同样状态的符号变量个数(匹配数);
为所
有的符号变量个数。
为增强
的作用,可以给它赋予一定的权值;而对于拥有许多状态的符号变
量,也可以相应赋予更大的权值。
通过为符号变量的每个状态创建一个新二值变量,能够将符号变量表示为非
对称的二值变量。对于具有给定状态的一个对象,代表一个状态的二值变量置为
;而其它的二值变量置为
。例如:要用二值变量表示地图颜色
"#
符号
变量,就需要上面所介绍的五种颜色分别创建一个二值变量。而对一个颜色为黄
色的对象,就要将代表黄色状态的二值变量设为
;而将其它二值变量设为
。
采用这种(二值变量)表达方式的对象间差异(程度)就可以利用
##
小节所
介绍的计算方法进行计算了。
(
((
(
)顺序变量
)顺序变量)顺序变量
)顺序变量
一个离散顺序变量与一个符号变量相似,不同的是(对应
个状态的)的
个顺序值是具有按照一定顺序含义的。顺序变量在描述无法用客观方法表示的主
观质量评估时是非常有用的。例如:专业等级(描述)就是一个顺序变量;它是
按照助教、讲师、副教授和教授的顺序进行排列的。一个连续顺序变量看上去就
象一组未知范围的连续数据;但它的相对位置要比它的实际数值有意义的多。例
如在足球比赛中,一个球队排列名次常常要比它的实际得分更为重要。顺序变量
的数值常常是通过对间隔数值(变量)的离散化而获得的,也就是通过将取值范
围分为有限个组而得到的。一个顺序变量可以映射到一个等级(
)
)集合上。
如:若一个顺序变量
包含
个状态,那么这些有 序的状态 就映射为
%%6%
的等级。
在计算对象间差异程度时,顺序变量的处理方法与间隔数值变量的处理方法
类似。假设变量
为一组描述
个对象顺序变量中的一个。涉及变量
的差异程
度计算方法描述如下:
第
个对象的
变量值标记为
,变量
有
个有序状态,可以利用等
级
%%6%
分别替换相应的
,得到相应的
,
7%%%8
!∈
;
由于每个顺序变量的状态个数可能 不同。 因此 有必要将每个顺序 变量的