改进的最近邻优先聚类算法：基于数据分区的PNNAF

下载需积分: 10 | PDF格式 | 386KB | 更新于2024-09-17 | 49 浏览量 | 举报

"基于数据分区的最近邻优先聚类算法" 在数据挖掘领域，聚类是一种常用的技术，用于发现数据中的自然群体或模式，而无需预先知道这些群体的结构。最近邻优先吸收（NNAF）算法是聚类方法中的一种，它的主要优点在于能够快速执行聚类，并且对噪声点具有较好的处理能力。然而，当数据分布的密度不均匀，或者聚类之间的距离差距较大时，NNAF算法可能会导致聚类质量下降。针对NNAF算法的局限性，文章提出了基于数据分区的NNAF算法，即PNNAF算法。数据分区是一种策略，它将大规模数据集划分为多个小的、更易管理的部分，以便于在聚类过程中提高效率并优化结果。PNNAF算法利用这种分区策略，旨在改善NNAF在处理非均匀数据分布时的性能。在PNNAF算法中，首先对数据进行预处理，根据特定标准（如空间距离或属性相似度）将数据划分到不同的分区。每个分区内的数据点相对集中，这有助于减少在聚类过程中的计算复杂性。然后，算法在每个分区内部进行NNAF操作，找到最近邻并进行吸收，形成初步的聚类。最后，通过跨分区的聚类合并，进一步优化聚类结构，以适应数据密度和聚类间距离的变化。该算法的优势在于，通过数据分区，它可以更好地应对数据分布不均的问题，尤其是在处理高维和大规模数据集时，提高了聚类的速度和准确性。同时，由于考虑了分区内的局部信息，PNNAF能够更好地识别和处理噪声点，从而提升聚类的质量。此外，文章还可能讨论了算法的具体实现细节，如分区策略的选择、聚类合并的条件以及性能评估指标等。这些内容对于理解PNNAF算法的工作原理和技术细节至关重要，有助于在实际应用中选择合适的聚类方法。基于数据分区的最近邻优先聚类算法（PNNAF）是对传统NNAF算法的一种改进，它通过数据分区优化了聚类过程，特别是在处理非均匀数据分布时，能够提供更高质量的聚类结果。这项工作对于数据挖掘领域的研究和实践具有重要意义，因为它为处理复杂和大规模数据集提供了新的思路和工具。

计算机科学２００５＂４０１．３２Ｎ０．１２

基于数据分区的最近邻优先聚类算法

王鑫王洪国张建喜谷建军

（山东师范大学信息管理学院

济南２５００１４）

摘要聚类是教据舵掘领域的一十重要研究方向。最近邻优先吸收（ＮＮＡＦ）算法可以快速进行聚类并且能有效处

理噪声点，但当数据密度和聚类间的距离不均匀时聚类质量较差。本文在分析ＮＮＡＦ算法不足的基础上，提出了一

种基于数据分ｌｇ．的ＮＮＡＦ算法一ＰＮＮＡＦ算法，较好地改善了聚类质量。

美键词数据挖掘．聚类，数据分区，最近邻优先吸收

Ａ

Ｄａｔａ－Ｐａｒｔｉｔｉｏｎｉｎｇ－Ｂａｓｅｄ

Ｎｅａｒ∞ｔ－Ｎｅｉｌｇｈｂｏｒｓ－ｎ＇ｓｔ

Ｃｌｕｓｔｅｒｉｎｇ

Ａｌｇｏｒｉｔｈｍ

ＷＡＮＧ

Ｘｉｎ

ＷＡＮＧ

Ｈｏｎｇ。Ｇｕｏ

ＺＨＡＮＧ

ＪｉａｒｒＸｉ

ＧＵ

ＪｉａｒｒＪｕｎ

（Ｉｎｆｏｒｍａｔｉｏｎ

Ｍａｎａｇｅｍｅｎｔ

Ｓｃｈｏｏｌ

ｏｆ

Ｓｈａｎｄｏｎｇ

Ｎｏｒｍａｌ

Ｕｎｉｖｅｒｓｉｔｙ，Ｊｉｎａｎ

２５００１４）

Ａｂｓｔｒａｃｔ

Ｃｌｕｓｔｅｒｉｎｇ

ｉｓ

８ｎ

ｉｍｐｏｒｔａｎｔ

ｒｅｓｅａｒｃｈ

ｄｉｒｅｃｔｉｏｎ

ｉｎ

ｔｈｅ

ｆｉｅｌｄ

ｏｆ

Ｄａｔａ

Ｍｉｎｉｎｇ．Ｔｈｉｓ

ｐａｐｅｒ

ａｎａｌｙｓｅｓ

ｔｈｅ

Ｎｅａｒｅｓｔ

Ｎｅｉｇｈｂｏｒｓ

Ａｂｓｏｒｂｅｄ

Ｆｉｒｓｔ（ＮＮＡＦ）ｃｌｕｓｔｅｒｉｎｇ

ａｌｇｏｒｉｔｈｍ．Ｔｈｉｓ

ａｌｇｏｒｉｔｈｍ

ｃａｎ

ｃｌｕｓｔｅｒ

ｑｕｉｃｋｌｙ

ｗｉｔｈ

ｎｏｉｓｙ．Ｈｏｗｅｖｅｒ，

ｃｌｕｓｔｅｒｉｎｇ

ｑｕａｌｉｔｙ

ｗｉｌｌ

ｄｅｇｎｄｅ

ｗｈｅｎ

ｔｈｅ

ｃｌｕｓｔｅｒ

ｄｅｎｓｉｔｙ

ａｎｄ

ｄｉｓｔａｎｃｅ

ｂｅｔｗｅｅｎ

ｃｌｕｓｔｅｒｓ

ａｒｅ

ｎｏｔ

ｅＶｅｌｌ

Ｉｎ

ｔｈｉｓ

ｐａｐｅｒ，ａ

Ｎｅａ—

ｒｅｓｔ－ＮｅｉｇｈｂｏｒｗＦｉｒｓｔ

ｃｌｕｓｔｅｒｉｎｇ

ａｌｇｏｒｉｔｈｍ

ｂａｓｅｄ

Ｏｉｌ

ｄａｔａ

ｐａｒｔｉｔｉｏｎｉｎｇ

ｉｓ

ｐｍｐｏｓｅｄ．Ｔｈｅ

Ｄｅｗ

ａｌｇｏｒｉｔｈｍ

ｉｍｐｒｏｖｅｓ

ｔｈｅ

ｑｕａｌｌ—

ｔｙ

ｏｆ

ｃｌｕｓｔｅｒｉｎｇ．

Ｋｅｙｗｏｒｄｓ

Ｄａｔａ

Ｍｉｎｉｎｇ，Ｃｌｕｓｔｅｒｉｎｇ，风ｔａ

ｐａｒｔｉｔｉｏｎｉｎｇ，Ｎｅａｒｅｓｔ

ｎｅｉｇｈｂｏｒ

ｆｉｒｓｔ

１引言

近ｌＯ年来，数据挖掘Ⅲ逐渐成为数据库和人工智能等研

究领域的一个热点。聚类（Ｃｌｕｓｔｅｒｉｎｇ）是数据挖掘中重要的

研究课题之一。所谓聚类，就是将物理或抽象对象的集合组

成为由类似的对象组成的多个类或簇的过程。由聚类所生成

的簇是一组数据对象的集合，同一簇中的对象尽可能相似，而

不同簇中的对象尽可能相异。

１．１相关工作

迄今为止，数据库研究人员已经提出了许多聚类算法，主

要有以下几类：划分方法｛主要有Ｋ－Ｍｅａｎｓ口］，Ｋ－Ｍｅｄｉｏｄａ

（ＰＡＭ）以及它们的变种ＣＬＡＲＡ和ｃＩＡＲＡＮＳ。层次方法：

主要有ＢＩＲＣＨ算法口］、ＣＵＲ群４］算法、最短距离法和ＣＨＡ－

ＭＡＬＥＯＮ算法等。基于密度的方法ｌ主要有ＤＢＳＣＡＮ［”，

ＯＶＨＣＳ，ＤＥＮＣＬＵＥ等。基于网格的方法Ｉ主要有ＳＴＩＮＧＬ“

方法，Ｗａｖｅ

Ｃｌｕｓｔｅｒ算法，ＣＬＩＱＵＥ算法。基于模型的方法：

典型的基于模型的聚类方法有神经网络方法和统计的方法。

１．２本文的工作

首先介绍了最近邻优先吸收算法ＮＮＡＦ（Ｎｅａｒｅｓｔ

Ｎｅｉｇｈ—

ｂｏｒｓ

Ａｂｓｏｒｂｅｄ

Ｆｉｒｓｔ）的基本思想，分析其不足；然后针对这些

不足提出了基于数据分区（ｄａｔａ－ｐａｒｔｉｔｉｏｎｉｎｇ）的最近邻优先吸

收算法一ＰＮＮＡＦ算法；接着对新算法进行分析，最后得出了

结论。

２最近邻优先吸收（ＮＮＡＦ）算法

ＮＮＡＦ算法是基于“同类相近”的思想提出的一种改进

的最短距离聚类算法。最短距离法又称最近邻连接法，其基

本思想是把两个类的距离定义为两类中距离最近的元索之间

的距离。并依此逐次选择最“靠近”的类聚集，直到满足终止

条件。

ＮＮＡＦ（Ｎｅａｒｅｓｔ

Ｎｅ曙ｈｂｏｒｓ

Ａｂｓｏｒｂｅｄ

Ｈｒｓｔ）算法的基本

思想是：空间中的每一点和与之最近的点属于同一类的可能

性最大。如果两个距离最近的点之间的距离小于Ｊ（用户输

人的距离阐值），那幺就认为它们属于同一类。当某一聚类所

包含的元素个数大于ｑ（用户输人的数量阈值）时，则该类数

据成为一个真正的聚类；否则为噪声数据集合。

定义１设Ｖ是高维数据空间中的点集合，ｖ一｛ｍ，血，

…，Ａ｝，Ｐ－∈ＶｔＰｚＣ－Ｖ，Ｐｌ和ｐ２之间的距离记为Ｄ（ｐ，，血）；

给定距离罔值ｄ，ｄ２＞Ｏ，则：

】）如果Ｄ（Ａ，Ａ）＜Ｄ（Ａ，Ａ）＜…＜Ｄ（Ａ，Ａ），则称Ａ

为距离Ｐ。最近的点，即ｍ为ｍ的最近邻，记为ＭＮ（Ｐｔ）一

Ｐ２’

２）如果ＭＮ（ｐ１）＝血，并且Ｄ（向，声２）≤ｄ，那么Ｐｚ与Ａ

属于同一类。即：当Ｐｔ点属于第一类，而伽尚没有归类时，

则把Ｐ。点也归为第一类；当Ｐ－尚没有归类，而Ｐｚ点属于第

一类时，则把Ａ点也归为第一类；当芦，点属于第一类，而加

属于第二类时，则把第一类和第二类合并为一个新类，并把

血，声ｚ点和分别属于原第一类和第二类的所有点都归于这个

新类。

定义２设Ｖ＝｛Ａ，Ｐｚ，…，Ｐ。｝是一任意空间点集，点声，

∈Ｖ，Ｐ＾∈Ｖ。

１）Ｖ中任一点Ａ都存在一个五元组的属性集合（Ｄｉｒ，

Ｄｉｓｔａｎｃｅ，ａｕｓｔｅｒ，Ｎｅ堙ｈｂｏｒｓ，Ａｎｔｉ－Ｎｅｉ助ｂｏｒｓ），其中，Ｄｌｒ表

示点声。的坐标；Ｄｉｓｔａｎｃｅ表示点ｍ到其最近邻点之间的距

离；Ｃｌｕｓｔｅｒ表示点卢。的类别；Ｎｅｉ斯ｂｏｒｓ表月≮点Ｐ，的最近邻

点的集合；ＡｎｔｂＮｅｉ曲ｂｏｒｓ表示以点卢，为最近邻点的点集

王矗硕士研究生，研究方向：数据挖掘．知识发现。主洪闺博士后，教授，硕士生导师。张建喜硕士研究生。谷建军顾十研究生

·１

８８－

　万方数据

下载后可阅读完整内容，剩余5页未读，立即下载

huhuateng

粉丝: 6

改进的最近邻优先聚类算法：基于数据分区的PNNAF

时间序列数据的异常检测：分区加速与聚类方法

电商仓储拣选优化：基于改进K-Means聚类策略

CURE聚类算法详解与实现

基于数据挖掘的数据聚类分析研究.pdf

基于不同数据密度类型的扩展亲和力传播聚类方法

毕业设计源码-基于Spark的Kmeans聚类算法优化.zip

KNN_KNN分类_聚类_

CURE聚类算法的实现.pdf

CURE聚类算法的实现 (2).pdf

基于大数据的高维数据挖掘探究.pdf

最新资源