改进的分类变量聚类算法：基于连通分量的高效方法

7 浏览量更新于2024-09-03 收藏 191KB PDF 举报

本文主要探讨了一种创新的基于连通分量的分类变量聚类算法，针对现有分类变量相似度定义的局限性，作者提出了一个更合理的相似度概念。在这个新的框架下，作者将数据集视为一个无向图，将传统的聚类过程重新解释为寻找无向图中的连通分量问题。这种方法的优势在于，通过图论中的连通性理论，可以更好地理解和处理分类变量之间的复杂关系。在传统的聚类方法中，分类变量的相似度往往基于距离或者频率等单一维度进行计算，这可能导致某些情况下无法准确反映变量间的关联。然而，基于连通分量的聚类算法利用了图形结构，能够发现数据中隐藏的群体结构，即使这些群体的边界可能并不清晰或不遵循欧几里得距离的规则。这种方法不仅有助于提高聚类的准确性，还可能在数据噪声或非线性关系中提供更有效的解决方案。为了评估这种新算法的性能，作者还提出了针对类别归属已知数据集的一种新的聚类结果评价指标。这个指标可能包括内部一致性、轮廓系数或其他专门针对分类变量聚类的度量，以便量化算法在聚类过程中划分类别时的精确性和有效性。通过实验研究，结果表明，基于连通分量的分类变量聚类算法在聚类精度和效率上表现出色，尤其是在处理大规模分类数据集时，其优势更为明显。这项工作不仅提升了分类变量聚类的理论基础，还提供了一种实用的工具，使得数据科学家能够在处理具有分类属性的数据时，获得更加精细和有效的聚类结果。这对于许多领域，如市场细分、社交网络分析和文本挖掘等，都有着重要的实际应用价值。

第 30 卷第 1 期

Vol. 30 No. 1

控制与决策

Control and Decision

2015 年 1 月

Jan. 2015

基于连通分量的分类变量聚类算法

文章编号: 1001-0920 (2015) 01-0039-07 DOI: 10.13195/j.kzyjc.2013.1501

周红芳

, 周扬

, 张晓鹏

, 谈姝辰

(1. 西安理工大学计算机科学与工程学院，西安 710048；2. 陕西应用物理化学研究所，西安 710061)

摘要: 针对分类变量相似度定义存在的不足, 提出一种新的相似度定义. 利用新的相似度定义, 将数据集抽象为无

向图, 将聚类过程转化为求无向图连通分量的过程, 进而提出一种基于连通分量的分类变量聚类算法. 为了定量地分

析该算法的聚类效果, 针对类别归属已知的数据集, 提出一种新的聚类结果评价指标. 实验结果表明, 所提出的算法

具有较高的聚类精度和聚类效率.

关键词: 聚类；分类变量；相似度；连通分量；聚类精度

中图分类号: TP311.13 文献标志码: A

A clustering algorithm for categorical variables based on connected

components

ZHOU Hong-fang

, ZHOU Yang

, ZHANG Xiao-peng

, TAN Shu-chen

(1. School of Computer Science and Engineering，Xi’an University of Technology，Xi’an 710048，China；2. Shanxi

Applied Physics and Chemistry Research Institute，Xi’an 710061，China．Correspondent：ZHOU Hong-fang，E-mail:

zhouhf@xaut.edu.cn)

Abstract: For the insufﬁcient similarity concepts for categorical variables, a new more reasonable concept is proposed.

Firstly, a data set is organized into an undirected graph by the new deﬁnition. The clustering process is converted into the

problem of determining connected components in the undirected graph. Then a novel clustering algorithm for categorical

variables based on connected components is proposed. In order to analyze the clustering results quantitatively, a new index

is proposed for the known labels. Finally, the experimental results show that the proposed algorithm has a higher clustering

precision and faster execution speed compared with several existing ones.

Keywords: clustering；categorical variables；similarity；connected components；clustering precision

0 引引引言言言

聚类是数据挖掘的一个重要研究课题, 早期的

聚类算法采用距离来度量 2 条记录之间的相异度, 如

𝐾-means

[1]

、DBSCAN

[2]

等算法. 对于分类变量数据

集, 可以利用已有的标准化方法

[3-6]

将其转化为区间

标度变量, 从而采用传统方法进行聚类. 但分类变量

属性值之间通常不存在数量关系, 导致标准化工作具

有很大的盲目性. 因此, 采用传统方法处理分类变量

会影响聚类效果. Guha 等

[7]

提出的 ROCK 算法引入

了链接 (Link) 的概念, 从而可以利用相关的全局信息

来度量记录之间的相似度. 实验表明, 利用 ROCK 算

法对分类变量数据集进行聚类时, 所得到的聚类结果

明显优于传统聚类算法. 但它也存在一定的缺陷, 如

需要预先给定判定是否为近邻的参数 𝜃 和聚类数 𝑘.

目前, 已有一些学者提出了基于 ROCK 算法思想的

改进算法, 如 VBACC

[8]

、QROCK

[9]

、DNNS

[10]

和 GE-

ROCK

[11]

. VBACC 采用基于商品价格的相似度定义,

对于属性稀疏的商品数据集而言, 聚类效果较好, 而

对于一般分类变量数据集 (如 UCI 标准数据集) 而言,

聚类效果不及 ROCK. QROCK 认为期望得到的聚类

数 𝑘 依赖于相似度阈值 𝜃, 通过适当选择 𝜃 可以消除

参数 𝑘. 与 ROCK 算法相比, QROCK 算法速度较快, 但

收稿日期: 2013-10-29；修回日期: 2014-03-20.

基金项目: 国家自然科学基金项目(61402363, 61272284)；陕西省工业攻关项目(2014K05-49)；陕西省自然科学基础

研究计划项目(2014JQ8361)；西安市碑林区科技计划项目(GX1405)；西安市科学计划项目(CXY1339(5))；

校特色研究计划项目(116-211302).

作者简介: 周红芳(1976−), 女, 副教授, 博士, 从事数据仓库、数据挖掘等研究；周扬(1987−), 男, 硕士生, 从事数据挖

掘的研究.

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38713061

粉丝: 2
资源: 939

改进的分类变量聚类算法：基于连通分量的高效方法

基于遗传模拟退火算法的聚类算法

matlab-(含教程)基于HMRF-GMM-EM算法的医学图像分割matlab仿真

Matlab 基于肤色和眼睛定位的人脸检测算法

图论算法实战：图的表示与遍历算法的扩展与创新

【近似最优算法：破解复杂问题的秘密武器】：揭秘算法设计中的近似思想

图像处理算法揭秘：像素操作与图像变换的奥秘

Python图形算法编程实战：图形化数据处理流程全解析

MATLAB图像处理实战指南：图像处理算法与10个应用案例

图算法在Python中的精讲：深度与广度优先搜索原理及应用

【Java图循环检测】：Tarjan算法在邻接图中的实现与应用

最新资源