局部集聚特性在聚类算法中的应用研究

需积分: 9 4 浏览量更新于2024-08-11 收藏 950KB PDF 举报

"利用局部集聚特性的聚类算法的研究 (2011年)" 在数据挖掘领域，聚类分析是一种重要的无监督学习方法，用于发现数据集中的自然群体或模式，无需事先知道具体的类别信息。基于SNN（Similarity Nearest Neighbor）相似性和密度的聚类算法因其在处理不同大小和形状的簇时表现出的高效性能而被广泛采用。这类算法包括DBSCAN（Density-Based Spatial Clustering of Applications with Noise）和 Jarvis-Patrick算法等。 Jarvis-Patrick算法是一种基于单连接的聚类算法，它通过连接对象与其最近邻形成聚类。然而，这种方法存在一定的缺陷，可能会错误地将一个大的簇分割成多个小簇，或者将本应分开的簇合并在一起。另一方面，SNN密度类算法，如DBSCAN，依赖于两个关键参数：Eps（邻域半径）和MinPts（邻域内所需最少对象数）。这两个参数的选择对聚类结果的准确性至关重要，但它们的设定往往需要用户具有深入的领域知识和经验，这在实际应用中是一个挑战。针对这些问题，该研究论文提出了一个新的聚类算法，该算法着重于利用数据的局部集聚特性来指导聚类过程。局部集聚特性是指数据集中某一部分区域内的对象高度聚集，而在其他区域则相对稀疏的特征。通过识别和利用这些特性，算法可以更好地适应不同密度和形状的数据集合，从而更准确地识别出潜在的簇结构。论文中提到的算法可能包括以下几个步骤： 1. 定义局部集聚度量：首先，需要定义一种度量方式来量化数据点周围的集聚程度。这可能涉及到计算特定范围内对象的密度或连接强度。 2. 局部搜索与评估：对每个数据点进行局部搜索，找出其邻域内的对象，并根据预先定义的集聚度量判断该区域是否具有高集聚性。 3. 聚类构建：如果一个区域满足集聚条件，那么可以将这些对象视为一个潜在的簇，并继续扩展这个簇，直到没有更多的对象满足加入条件。 4. 参数自适应：通过局部集聚特性，算法可能能够自动调整其行为，以适应数据集的变化，减少了人工设定参数的需要。通过实验验证，这种利用局部集聚特性的聚类算法在处理不同密度和形状的数据集时表现出了良好的效果，提高了聚类的质量和准确性。这种方法强调了数据分析的局部特性，使得聚类结果更加符合数据的内在结构，有助于提升数据挖掘的效率和应用价值。关键词：数据挖掘，聚类分析，局部集聚特性，SNN密度这篇论文的贡献在于提出了一种新的聚类策略，它不仅改进了现有的聚类算法在处理复杂数据集时的局限性，而且为数据挖掘领域的聚类研究提供了新的思路。通过利用数据的局部集聚特性，该算法有望在实际应用中提供更精确、更具适应性的聚类结果。

第

３２

卷第

５

期

河北科技大学学报

Ｖｏｌ．３２

，

Ｎｏ．５

２０１１

年

１０

月

ＪｏｕｒｎａｌｏｆＨｅｂｅｉＵｎｉｖｅｒｓｉｔ

ｙ

ｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏ

ｇｙ



Ｏｃｔ．２０１１

文章编号：

１００８１５４２

（

２０１１

）

０５０４６６０５

利用局部集聚特性的聚类算法的研究

牛习现

１

，赵立川

２

（

１．

河北青年管理干部学院信息技术与传播系，河北石家庄

０５００３１

；

２．

河北科技大学后勤集团，河

北石家庄

０５００１８

）

摘

要：基于

ＳＮＮ

相似性和密度的聚类算法是当前主要的无监督聚类方法之一，该类算法在发现

不同大小形状簇的聚类过程中都取得了较好的结果。但是该类算法也存在局限性，如

ＪａｒｖｉｓＰａｔ

ｒｉｃｋ

算法通过单连结的方式发现簇，可能分割真正的簇或者合并应该保持分离的簇，而

ＳＮＮ

密度

类算法的

Ｅ

ｐ

ｓ

，

ＭｉｎＰｔｓ

参数的确定对用户来说是比较困难的。针对该类问题，本文对聚类过程中

的局部集聚特征进行了分析和定义，提出了利用数据的局部集聚特征来控制聚类过程的的聚类算

法。通过验证，该算法对发现不同密度以及任意形状的数据集合的聚类分析问题是有效的，突出了

数据分析的局部集聚特征，改进了数据聚类的质量。

关键词：数据挖掘；聚类分析；局部集聚特性；

ＳＮＮ

密度

中图分类号：

ＴＰ３０１

文献标志码：

Ａ

Ｒｅｓｅａｒｃｈｉｎｃｌｕｓｔｅｒｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｂａｓｅｄｏｎｌｏｃａｌ

ａ

ｇｇ

ｌｏｍｅｒａｔｉｖｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ

ＮＩＵＸｉｘｉａｎ

１

，

ＺＨＡＯＬｉｃｈｕａｎ

２

（

１．Ｆａｃｕｌｔ

ｙ

ｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏ

ｇｙ

ａｎｄＰｒｏ

ｐ

ａ

ｇ

ａｔｉｏｎ

，

ＨｅｂｅｉＹｏｕｔｈＡｄｍｉｎｉｓｔｒａｔｉｖｅＣａｄｒｅｓＣｏｌｌｅ

ｇ

ｅ

，

Ｓｈｉ

ｊ

ｉａｚｈｕａｎ

ｇ

Ｈｅｂｅｉ

０５００３１

，

Ｃｈｉｎａ

；

２．Ｌｏ

ｇ

ｉｓｔｉｃｓＧｒｏｕ

ｐ

，

ＨｅｂｅｉＵｎｉｖｅｒｓｉｔ

ｙ

ｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏ

ｇｙ

，

Ｓｈｉ

ｊ

ｉａｚｈｕａｎ

ｇ

Ｈｅｂｅｉ０５００１８

，

Ｃｈｉｎａ

）

Ａｂｓｔｒａｃｔ

：

ＴｈｅＳＮＮｓｉｍｉｌａｒｉｔ

ｙ

ａｎｄｄｅｎｓｉｔ

ｙ

ｂａｓｅｄｃｌｕｓｔｅｒｉｎ

ｇ

，

ａｓｏｎｅｏｆｔｈｅｍｏｓｔｉｍ

ｐ

ｏｒｔａｎｔｕｎｓｕ

ｐ

ｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎ

ｇ

ｍｅｔｈｏｄ

，

ｈａｓ

ｂｅｅｎ

ｐ

ｒｏｖｅｄｔｏ

ｐ

ｒｏｄｕｃｅ

ｇ

ｏｏｄｒｅｓｕｌｔｓｉｎｆｉｎｄｉｎ

ｇ

ｃｌｕｓｔｅｒｓｏｆｖａｒｉｏｕｓｓｉｚｅｓａｎｄｓｈａ

ｐ

ｅｓ．Ｂｕｔｔｈｅｓｅａｌ

ｇ

ｏｒｉｔｈｍｓｓｔｉｌｌｈａｖｅｓｏｍｅｌｉｍｉｔａ

ｔｉｏｎｓ．Ｆｏｒｅｘａｍ

ｐ

ｌｅ

，

ＪａｒｖｉｓＰａｔｒｉｃｋｓｃｈｅｍｅｏｆｆｉｎｄｉｎ

ｇ

ｃｌｕｓｔｅｒｓｂ

ｙ

ｓｉｎ

ｇ

ｌｅｌｉｎｋ

，

ｍａ

ｙ

ｓｅ

ｐ

ａｒａｔｅｒｅａｌｃｌｕｓｔｅｒｓｏｒｍｅｒ

ｇ

ｅｃｌｕｓｔｅｒｓｗｈｉｃｈ

ｓｈｏｕｌｄｂｅｋｅ

ｐ

ｔｓｅ

ｐ

ａｒａｔｅｄｉｎｃｅｒｔａｉｎｓｉｔｕａｔｉｏｎｓ

，

ａｎｄｔｈｅｄｅｔｅｒｍｉｎａｔｉｏｎｏｆＥ

ｐ

ｓａｎｄＭｉｎＰｔｓ

，

ｔｈｅ

ｐ

ａｒａｍｅｔｅｒｓｏｆＳＮＮｄｅｎｓｉｔ

ｙ

ｍｅｔｈ

ｏｄ

，

ｉｓｈａｒｄｆｏｒｕｓｅｒｓ．Ｔｏｄｅａｌｗｉｔｈｔｈｅｓｅ

ｐ

ｒｏｂｌｅｍｓ

，

ｔｈｅ

ｐ

ａ

ｐ

ｅｒ

ｇ

ｉｖｅｓａｎａｌ

ｙ

ｓｉｓａｎｄｄｅｆｉｎｉｔｉｏｎｏｆｌｏｃａｌａ

ｇｇ

ｌｏｍｅｒａｔｉｖｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ

ｐ

ｒｅｓｅｎｔｅｄｉｎｃｌｕｓｔｅｒｉｎ

ｇｐ

ｒｏｃｅｄｕｒｅ

；

ｔｈｅｎ

ｐ

ｒｏ

ｐ

ｏｓｅｓａｎｅｗｃｌｕｓｔｅｒｉｎ

ｇ

ａｌ

ｇ

ｏｒｉｔｈｍｗｈｉｃｈｕｓｅｌｏｃａｌ

ｇ

ａｔｈｅｒｉｎ

ｇ

ｆｅａｔｕｒｅｓｔｏｃｏｎｔｒｏｌｃｌｕｓｔｅ

ｒｉｎ

ｇｐ

ｒｏ

ｇ

ｒｅｓｓ．Ｔｈｅａｌ

ｇ

ｏｒｉｔｈｍｃａｎｗｏｒｋｗｅｌｌｉｎｆｉｎｄｉｎ

ｇ

ｄｉｆｆｅｒｅｎｔｓｉｚｅａｎｄｄｅｎｓｉｔ

ｙ

ｃｌｕｓｔｅｒｓ

，

ｈｉ

ｇ

ｈｌｉ

ｇ

ｈｔｉｎ

ｇ

ｔｈｅｌｏｃａｌｆｅａｔｕｒｅｓｏｆｄａｔａ

ａｎａｌ

ｙ

ｓｉｓａｎｄｉｍ

ｐ

ｒｏｖｉｎ

ｇ

ｔｈｅ

ｑ

ｕａｌｉｔ

ｙ

ｏｆｄａｔａｃｌｕｓｔｅｒｓ．

Ｋｅ

ｙ

ｗｏｒｄｓ

：

ｄａｔａｍｉｎｉｎ

ｇ

；

ｃｌｕｓｔｅｒｉｎ

ｇ

；

ｌｏｃａｌａ

ｇｇ

ｌｏｍｅｒａｔｉｖｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓ

；

ＳＮＮｄｅｎｓｉｔ

ｙ

收稿日期：

２０１１０４０２

；修回日期：

２０１１０８２８

；责任编辑：张

军

作者简介：牛习现（

１９７２

），男，河北赞皇人，讲师，硕士，主要从事数据挖掘、网络管理方面的研究。

聚类分析是人类的基本概念性活动之一，而人类自发的聚类分析过程通常是基于相对较少的选择属性

进行的，并且不能排除人的偏见。因此当分析的对象集合是由相当数量的定量属性来修饰定义，并且想要获

得无人为偏见干扰的分析结果时，就不可避免地使用了数学工具。但是数学工具的使用也具有局限性，因为

数学工具的选择和解决方案都是由人选择和决定的，有特定的倾向性

［

１

］

。聚类分析是数据挖掘的方法之一，

用来在无标识的数据集合中发现其内在结构和联系，将对象按照某方面的相似性进行组织分组的过程，因此

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38636461

粉丝: 5
资源: 894

局部集聚特性在聚类算法中的应用研究

聚类算法研究，集合了多种聚类算法，并在一个系统中实现

fcm聚类算法研究fcm聚类算法，fcm聚类算法，

谱聚类算法研究谱聚类算法研究.pdf

基于核函数的层次聚类算法 (2011年)

一种鲁棒的子空间聚类算法 (2011年)

改进的基于密度的航迹聚类算法 (2011年)

一种改进的模糊C均值聚类算法 (2011年)

谱图聚类算法研究进展 (2011年)

一种基于粗糙集的K-means聚类算法 (2011年)

一种带克隆选择的粒子群动态聚类算法 (2011年)

最新资源