DCHT：一种基于层次树的高效密度聚类算法

下载需积分: 5 | PDF格式 | 371KB | 更新于2024-08-12 | 131 浏览量 | 举报

"胡学钢、王东波和吴共庆在2008年发表于《合肥工业大学学报(自然科学版)》的文章中提出了一种名为DCHT（Density Clustering Based on Hierarchical Tree）的高效密度聚类算法。该算法旨在解决传统基于密度的聚类方法存在的问题，如时间复杂度高、参数调整困难以及对输入顺序敏感等。DCHT算法利用层次树来表示子聚类信息，并动态调整密度参数，通过分析密度探测树中的相邻子聚类来确定最终的聚类结果。研究显示，DCHT算法适用于处理大规模、高维数据集，并且具备动态参数调整和减少输入顺序影响的优势。" 在数据挖掘领域，聚类是一种无监督学习方法，用于发现数据集中的自然分组或模式。基于密度的聚类算法，如DBSCAN（Density-Based Spatial Clustering of Applications with Noise），以其对任意形状聚类的识别能力和对噪声数据的处理能力而受到关注。然而，这类算法通常面临一些挑战，包括计算时间长、需要手动设置参数（如最小密度阈值和邻域半径）以及对输入数据顺序敏感，这些问题可能影响聚类效果。 DCHT算法针对这些挑战进行了创新。它采用层次树结构来存储和组织数据，这种结构能够有效地压缩数据并减少计算复杂性。层次树中的每个节点代表一个潜在的子聚类，节点间的连接表示了数据点之间的密度关系。通过自底向上的方式构建层次树，DCHT可以逐步合并低密度区域，逐渐形成高密度的聚类。在构建过程中，算法动态地调整密度参数，使得聚类结果更加稳定且不受初始参数设定的影响。此外，DCHT算法通过分析树结构中的相邻子聚类来确定最终的聚类簇，这降低了对输入顺序的敏感性。这意味着即使数据的排列顺序变化，算法也能保持一定的稳定性，从而提高聚类的可重复性和可靠性。实验结果证明，DCHT在处理大规模、高维数据集时表现出优越的性能。它不仅能够快速找出聚类，而且通过动态参数调整，能够适应不同的数据分布和噪声水平。这一特性对于现实世界中的大数据分析任务尤其有价值，因为这些任务往往需要处理复杂的、非结构化的数据，且数据的噪声和维度是常态。 DCHT算法是基于密度聚类的一种改进方法，它克服了传统方法的一些局限性，特别是在处理大规模、高维数据时的效率和鲁棒性。这种算法对于数据挖掘和机器学习领域的研究和应用具有重要的理论和实践意义。

第

卷第

期

2008

年

月

合月巴工业大学学报(自然科学版)

JOURNAL

HEFEI

UNlVERSITY

TECHNOLOGY

31 No. 2

Feb.

2008

一种基于层次树的高效密度聚类算法

胡学钢，

王东波，

吴共庆

(合肥工业大学计算机与信息学院，安徽合肥

230009)

摘

要:基于密度的聚类算法具有挖掘任意形状聚类和处理"噪声"数据等优势，同时也存在时间消耗大、参数

问题局限及输入顺序敏感等缺陆。为此，文章提出一种基于层次树的密度聚类算法

DCHTCDensity

Cluste-

ring

sed

Hierarchical Tree)

，以层次树描述子聚类信息，动态调整密度参数，基于密度探测树结构中相邻

子聚类得到最终的聚类簇。理论分析和实验结果表明，该算法适用于大规模、高维数据，并具有动态调整参数

和屏蔽输入顺序敏感性的优点。

关键词:数据挖掘;聚类;基于密度聚类;输入顺序敏感性

中图分类号

:TP181

文献标识码

文章编号

:1003-5060(2008)02-0187-05

A high-efficiency density clustering algorithm based

a hierarchical tree

gang

WANG

Dong-bo

Gong-qing

(School

mputer

and

Infon

丑

ation

，

Hefei

University

Technology

Hefei

230009

China)

Abstract:

Density-based

clustering

methods

have

the

advantages

such

clustering

with

arbitrary

shapes

and

handling

noise,

which

also

have

disadvantages

its

long

time

consumption

parameter

tuning

and

sensitivity

input

order.

this

paper

, a

new

clustering

algorithm

called

DCHT

(Density

Clustering

Based

Hierarchical

Tree)

presented

that

constructs

a hierarchical

tree

describe

the

sub-clusters.

The

natural

clusters

are

discovered

tuning

density

parameter

dynamically

and

detec-

ting

adjacent

sub-clusters

the

tree.

Both

theoretical

analysis

and

experimental

results

indicate

that

the

DCHT

algorithm

with

the

advantages

tuning

parameter

dynamically

and

shielding

the

sensitivity

input

order

suitable

for

mining

larg

scaled

and

high

dimensional

database.

Key

words:data

mining;

clustering;

density-based

clustering;

sensitivity

input

order

。引

士一同

聚类分析作为数据挖掘领域中的重要研究课

题，在模式识别、图像处理、市场研究以及生命科

学等众多学科领域有着广泛地应用。伴随信息技

术的飞速发展，对海量高维数据进行无指导学习

和知识获取的现实需求，呼唤高性能的聚类算法。

聚类分析作为活跃的数据挖掘分支，专家们

进行了大量的研究，提出了很多算法，其中以

DB

SCAN

为代表的基于密度的聚类算法具备挖掘任

意形状聚类及处理噪声

(noise)

数据等方面的优

势性能。但该类算法缺陷是:①区性时间开销

大，特别当数据规模较大时，反复的区域探测极为

耗时;②参数问题的局限，对聚类结果产生直接

影响的密度参数

Eps

需要用户来指定;③对数

据的输入顺序极其敏畸-妻现在算法对共享数据

的处理往往采用简直

、.'\...c:

右"策

略[1]因而难以保证

丢失簇间的连接信

针对

DBSC

Al'

许多改进工作。主

(1)文献

[2J

等

树崎、

占斟撤

离乐

←

?苦饷岳飞

与农斗{卢

注

zpw

JÌ!f

;x,

收稿日期

:2007-01-27;

修改日期:

2007-04-16

基金项目;安徽省自然科学基金资助项目

(05042020

;合肥工业大学科研发展基金资

划项目

(2005jq1012)

作者简介:胡学钢(1

961

一)

，男，安徽当涂人，合肥工业大学教授，硕士生导师.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38577378

粉丝: 4

DCHT：一种基于层次树的高效密度聚类算法

聚类算法研究_孙吉贵.pdf

一种新的基于网格的聚类算法* (2008年)

网格密度与空间划分树的高效聚类算法：理论与应用

基于密度的多尺度聚类算法DBMAC-DBMAC-II实现与评估

基于距离和密度的聚类和孤立点检测算法 (2008年)

一种提高DBSCAN聚类算法质量的新方法 (2008年)

面向新产品开发市场定位的一种聚类算法* (2008年)

fast-unfolding社团聚类算法Python代码包

公路收费系统数据挖掘中的聚类算法.pdf

K均值算法聚类分析及其在人力资源管理中的应用 (2008年)

最新资源