分层自适应快速K-means算法：图像数据库的高效聚类方法

需积分: 8 84 浏览量更新于2024-09-09 收藏 1.26MB PDF 举报

本文档深入探讨了一种创新的分层自适应快速K-means算法（Hierarchical Adaptive Fast K-means，简称HAFKM），该算法在图像数据库分类聚类领域具有重要意义。HAFKM的核心思想是构建一棵非平衡的聚类树结构，通过层次化的方式对数据进行组织。首先，算法利用分层策略对数据进行递归划分，形成树状结构，其中根节点代表整个数据库，而后续的子树根据CEC（Cluster Evaluation Criterion，聚类评价标准）进行自适应分支选择，确保每个子树的分支数量能够根据数据的复杂性和特性动态调整。在聚类过程中，HAFKM特别设计了一种判别函数（cost-function），它在每层聚类中直接基于颜色直方图进行操作，依据颜色等级进行精确的聚类。这种方法显著减少了计算复杂性，使得整个聚类过程能在整棵树上迅速进行。值得一提的是，通过CEC的有效应用，HAFKM能够准确地判断聚类的数量，避免了过度或不足的聚类导致的性能下降。实验结果显示，HAFKM算法因其高效的逐层聚类策略和自适应的分支决策机制，能够在大型数据库环境中快速、高效地实现图像数据的分类和聚类。这对于处理大规模图像数据集具有很高的实用价值，特别是在处理实时性要求高的应用场景中。此外，本文的研究还涉及到多个作者的合作，包括张晓琳教授（数据库理论与技术、图像处理）、崔宁宁硕士（图像处理）、杨涛硕士研究生（图像处理）以及李洁副教授（系统自动化），他们的研究团队共同开发了这一创新算法，并获得了国家自然科学基金项目的资助（61164018）。总结来说，这篇论文提供了一种新颖的HAFKM算法，它在图像数据库的高效分类聚类方面展现出了显著的优势，对于提高大数据处理的效率和精度具有实际应用价值。

　　收稿日期：２０１４０９２３；修回日期：２０１４１１０３　　基金项目：国家自然科学基金资助项目（６１１６４０１８）

　　作者简介：张晓琳（１９６６），女，内蒙古包头人，教授，博士，主要研究方向为数据库理论与技术、图像处理研究（ｚｈａｎｇｘｌ＠ｉｍｕｓｔ．ｃｎ）；崔宁宁

（１９８８），男，河北邯郸人，硕士，主要研究方向为图像处理；杨涛（１９８９），男，安徽滁州人，硕士研究生，主要研究方向为图像处理；李洁（１９６５），

男，内蒙古包头人，副教授，主要研究方向为系统自动化．

一种分层自适应快速Ｋｍｅａｎｓ算法



张晓琳，崔宁宁，杨　涛，李　洁

（内蒙古科技大学信息工程学院，内蒙古包头０１４０１０）

摘　要：提出一种分层自适应快速Ｋｍｅａｎｓ（ｈｉｅｒａｒｃｈｉｃａｌａｄａｐｔｉｖｅｆａｓｔＫｍｅａｎｓ，ＨＡＦＫＭ）算法对图像数据库分类

聚簇。ＨＡＦＫＭ根据提出的分层策略构建一棵非平衡聚类树，通过自适应的方法ＣＥＣ（ｃｌｕｓｔｅｒｅｖａｌｕａｔｉｏｎｃｒｉｔｅｒｉｏｎ）

确定了除根节点外的每棵子树的分支数目，而在聚类树的每一层聚类中使用一种提出的判别函数（ｃｏｓｔｆｕｎｃ

ｔｉｏｎ

）在颜色直方图上根据颜色等级直接聚类，从而可以在整棵树上快速聚类。实验表明，ＨＡＦＫＭ算法通过在非

平衡树上逐层聚类，并且通过ＣＥＣ准确判断聚类数目，可以快速、高效地实现数据库的分类聚簇。

关键词：ＨＡＦＫＭ；Ｋｍｅａｎｓ算法；分层聚类；自适应；大数据库；聚类树

中图分类号：ＴＰ３０１．６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０２０４２１０３

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０２．０２３

ＨｉｅｒａｒｃｈｉｃａｌａｄａｐｔｉｖｅｆａｓｔＫｍｅａｎｓａｌｇｏｒｉｔｈｍ

ＺｈａｎｇＸｉａｏｌｉｎ，ＣｕｉＮｉｎｇｎｉｎｇ，ＹａｎｇＴａｏ，ＬｉＪｉｅ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＩｎｎｅｒＭｏｎｇｏｌｉａＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｂａｏｔｏｕ０１４０１０，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｐｕｔｆｏｒｗａｒｄａｍｅｔｈｏｄｏｆｈｉｅｒａｒｃｈｉｃａｌａｄａｐｔｉｖｅｆａｓｔＫｍｅａｎｓ（ＨＡＦＫＭ）ｃｌａｓｓｉｆｙｉｎｇａｎｄｃｌｕｓｔｅｒｉｎｇｆｏｒｉｍ

ａｇｅｄａｔａｂａｓｅ．ＡｃｃｏｒｄｉｎｇｔｏｔｈｅｐｒｏｐｏｓｅｄＨＡＦＫＭａｌｇｏｒｉｔｈｍ．ｔｈｉｓｐａｐｅｒｂｕｉｌｔａｕｎｂａｌａｎｃｅｄｃｌｕｓｔｅｒｉｎｇｔｒｅｅ

，ａｎｄｄｅｔｅｒｍｉｎｅｄｅｖ

ｅｒｙｓｕｂｔｒｅｅｂｒａｎｃｈｎｕｍｂｅｒｅｘｃｅｐｔｔｈｅｒｏｏｔｎｏｄｅ，ｔｈｒｏｕｇｈｔｈｅｍｅｔｈｏｄｏｆａｄａｐｔｉｖｅＣＥＣ（ｃｌｕｓｔｅｒｅｖａｌｕａｔｉｏｎｃｒｉｔｅｒｉｏｎ）．Ｉｎｅａｃｈ

ｌａｙｅｒｏｆｔｈｅｃｌｕｓｔｅｒｉｎｇｔｒｅｅｉｔｕｓｅｄａｐｒｏｐｏｓｅｄｃｏｓｔｆｕｎｃｔｉｏｎｔｏｃｌｕｓｔｅｒｏｎｔｈｅｃｏｌｏｒｌｅｖｅｌｈｉｓｔｏｇｒａｍｄｉｒｅｃｔｌｙ，ａｎｄｔｈｅｎｃｏｕｌｄｆａｓｔ

ｃｌｕｓｔｅｒｄａｔａｂａｓｅｉｎｔｈｅｗｈｏｌｅｔｒｅｅ．ＥｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔＨＡＦＫＭｃａｎｃｌｕｓｔｅｒｌａｙｅｒｂｙｌａｙｅｒｉｎｔｈｅｕｎｂａｌａｎｃｅｄｔｒｅｅ，ａｎｄ

ｔｈｒｏｕｇｈＣＥＣｄｅｔｅｒｍｉｎｅｔｈｅｃｏｒｒｅｃｔｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓ．Ｉｔｃａｎｒｅａｌｉｚｅｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｄａｔａｂａｓｅｆａｓｔａｎｄｅｆｆｉｃｉｅｎｔｌｙｉｎｔｈｅ

ｅｎｄ．

Ｋｅｙｗｏｒｄｓ：ＨＡＦＫＭ；Ｋｍｅａｎｓａｌｇｏｒｉｔｈｍ；ｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒ；ａｄａｐｔｉｖｅ；ｂｉｇｄａｔａｂａｓｅ；ｃｌｕｓｔｅｒｉｎｇｔｒｅｅ

　引言

随着信息技术和多媒体技术的高速发展，产生了大量的多

媒体信息，其中包括大量的图像信息。计算机视觉已经成为一

个热门研究领域，为了保护和管理这些数据，需要将这些信息

存储在大的图像数据库中。因此，如何能在越来越大容量的数

据库中快速高效地查询出使用者需要的图像显得尤为重

要

［１，２］

。

聚类分析在分析一个给定数据库的潜在结构中起着不可

或缺的作用，它被广泛地应用于工程和科学领域

［３］

，如模式识

别、图像处理和检索。聚类分析的首要目标就是根据相似性把

给定的一系列模式类型分割成具有相同类型的聚类簇。更直

观地讲，同一簇中的类型模式相较于其他簇具有更高的相似

性。聚类分析具有很强的实验性，Ｋｍｅａｎｓ是一个典型的聚类

算法，但是Ｋｍｅａｎｓ算法的最大局限性在于聚簇的数目是预先

设定和固定的。选择合适的ｋ值至关重要，它需要对数据有较

好的先验知识，而且最坏的情况就是去猜测聚簇数目。为此，

研究者们进行了大量的研究来改进

Ｋｍｅａｎｓ算法。Ｌａｓｚｌｏ等

人

［４］

提出采用遗传算法来确定聚簇中心，以ｋ为初始遗传基因

来优化寻找最优ｋ值。Ｓｔｅｉｎｌｅｙ等人

［５］

提出１２个步骤，用于评

价

Ｋｍｅａｎｓ算法的初始化，并且引入了推荐环节确保最优训

练。Ｃｈａｋｒａｂａｒｔｉ等人

［６］

提出一种渐进式的分层聚类算法和一

种渐进式的Ｋｍｅａｎｓ聚类算法；Ｌｉｎ等人

［７，８］

提出了基于颜色

直方图的Ｋｍｅａｎｓ算法（ＣＨＫＭ）和基于Ｋｍｅａｎｓ的自适应颜

色直方图算法（ＡＣＨＫＭ）。本文提出一种分层自适应快速Ｋ

ｍｅａｎｓ算法，通过ＣＥＣ判断准则，不仅克服了Ｋｍｅｎａｓ算法固

有的对于聚类数目的局限性，而且采用了在图像颜色直方图上

快速聚类的方法，实现了分层的快速收敛。

　相关工作

Ｋｍｅａｎｓ算法是一种基于划分的聚类方法

［９］

，对于包含有

Ｎ个数据的集合｛ｘ

１，

，ｘ

２

，…，ｘ

Ｎ

｝，将其聚类划分到ｋ个互斥子

集Ｃ

ｉ

（ｉ＝１，２，…，ｋ），其聚类准则函数为聚类误差平方和

（ｍｅａｎｓｑｕａｒｅｅｒｒｏｒ，ＭＳＥ）函数Ｆ

ＭＳＥ

。

Ｆ

ＭＳＥ

＝

∑

ｋ

ｉ＝１

∑

ｘ

ｔ

∈

Ｃ

ｉ

‖

ｘ

ｔ

－ｃ

ｉ

‖

２

（１）

其中：ｘ

ｔ

是子集Ｃ

ｉ

中第ｔ个数据元素，ｃ

ｉ

是子集Ｃ

ｉ

的聚类中

心。

Ｋｍｅａｎｓ聚类算法的实质就是通过重复迭代确定最优ｋ

个聚类中心，将全部个体分配到离它距离最近的聚类中心，使

聚类误差平方和

Ｆ

ＭＳＥ

最小的过程。

Ｋｍｅａｎｓ算法的主要思想如下：

第３３卷第２期

２０１６年２月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．２

Ｆｅｂ．２０１６

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_39840515

粉丝: 447
资源: 1万+

分层自适应快速K-means算法：图像数据库的高效聚类方法

云计算中多源信息资源平台兼容性路由算法.pdf

改进k-means算法

二分k-means聚类算法

3d打印自适应分层算法

matlab写一份stl自适应分层算法代码

matlab写一份stl自适应分层算法代码，并可以显示出来

能换一种方法聚类吗，出来k-means和SpectralClustering聚类方法

近两年的多目标优化算法

请逐一介绍PID控制算法、LQR控制算法、分层模糊控制法和卡尔曼滤波算法

Stein分层阈值算法

最新资源