![](https://csdnimg.cn/release/download_crawler_static/87486133/bg7.jpg)
观察式(8)低密度分割密度敏感距离公式我们可以得到, 在互近邻密度 δiδi 较小的条件
下, 两点间的距离通过指数函数的放大作用进一步增大, 从而使经过相对密度小的样本点间
的路径距离变大; 而在互近邻密度 δiδi 较大的条件下, 两点间的距离受指数函数的放大作
用影响较小, 从而使经过相对密度大的样本点间的路径距离变小.综上所述, 低密度分割密
度敏感距离测度通过样本点密度项来调整两点间的欧氏距离 d(ppk,ppk+1)d(ppk,ppk+1), 有
效降低了孤立噪声和“桥''噪声对算法聚类性能的影响.
2.4 参数确定
由于谱聚类算法中最近邻个数 kk 参数的确定和拉普拉斯矩阵特征向量的选择对算法
聚类性能的影响很大, 为此, 本文进一步给出了基于 SC 指标的 kk 近邻图 kk 值选取方法和
基于谱熵贡献率的特征向量选取方法.
1) 最近邻个数 kk 参数的确定
基于 SC 指标的 kk 近邻图 kk 值选取方法描述如下:
Wj=∑ppi∈ccj1nj(ppi−mmj)(ppi−mmj)TWj=∑ppi∈ccj1nj(ppi−mmj)(ppi−mmj)T
WB=∑j=1C(mmj−mm)(mmj−mm)TWB=∑j=1C(mmj−mm)(mmj−mm)T
mmmm 是全体样本的均值, mmjmmj, njnj 是属于第 jj 类簇 ccjccj 所有样本的均值和个
数.
SC=tr(W−1CWB)SC=tr(WC−1WB)
其中, trtr 为求解矩阵的迹函数, 为了防止 WCWC 矩阵是奇异的, 这里通常采用
SC=tr(WB)/tr(WC)SC=tr(WB)/tr(WC), SCSC 值越大聚类效果越好.
2) 特征向量的选择
本文基于谱熵贡献率的特征向量选取方法是根据核熵成分分析
[24]
的思想, 计算各特征
向量的贡献率, 从而选取前 CC 个贡献率高的特征向量.具体方法如下:
将本文算法得到的拉普拉斯矩阵 LsymLsym 进行分解得到 Lsym=LMLTLsym=LMLT,
其中 M=diag{λ1,⋯,λn}M=diag{λ1,⋯,λn}, E=(ll1,⋯,lln)E=(ll1,⋯,lln). λiλi, llilli 分别为拉普拉斯
矩阵 LsymLsym 的特征值和特征向量.计算特征向量贡献率为:
V¯¯¯¯(lli)=(λi−−√llTi1)2,i=1,⋯,nV¯(lli)=(λilliT1)2,i=1,⋯,n
由式(18)可以看出, 拉普拉斯矩阵 LsymLsym 的每个特征值及特征向量对熵估计的贡
献不同.本文选取前 CC 个对应贡献率 V¯¯¯¯(lli)V¯(lli)值最大的特征向量构造待聚类的数据矩
阵 X=[xx1,xx2,⋯,xxC]∈Rn×CX=[xx1,xx2,⋯,xxC]∈Rn×C.
2.5 算法流程
输入. nn 个样本点{xxi}ni=1{xxi}i=1n, 聚类个数 CC, 伸缩因子 ρρ, 输入数据的维度
DD, 权重 ωω, 缺省设置为 1, Parzen-window 的平滑参数 ss, 缺省设置为 3.
输出. 样本点的划分 c1,c2,⋯,cCc1,c2,⋯,cC