【免费】3种聚类算法性能比较分析.pdf_三种聚类算法的对比试验

聚类算法

1星需积分: 0 188 浏览量更新于2023-07-06 评论 1 收藏 122KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

　 [收稿日期] 2009 03 19

　 [作者简介] 张丽芳

(

1981

)

, 女 , 2003 年大学毕业 , 硕士 , 助教 , 现主要从事数据分析方面的研究工作。

3 种聚类算法性能比较分析

　　张丽芳

(

长江大学信息与数学学院数学系 , 湖北荆州 434023

)

[摘要] 对 3 种著名的聚类算法进行了对比分析 , 在多类高维 UCI 数据集上进行了试验 , 最后对试验结果

进行了分析。　　

[关键词] 聚类 ; K2MEANS 算法 ; COBWEB 算法 ; DENCLU E 算法

[中图分类号] TP311 [文献标识码] A 　　 [文章编号] 1673 1409

(

2009

)

02 N250 02

1 　3 种算法简介

聚类算法众多 , 其中著名的算法有 K2MEANS 算法、COBWEB 算法和 DENCLU E 算法。

K2MEANS 算法最早由 MacQueen 提出来的。在这个算法中 , 每个类用该类中现有对象的平均值表

示。K2M EANS 算法非常简单 , 在解决一些实际问题时 , 也很容易完成。该算法在处理致密型和超球体

型的聚类中效果很好。由于其时间复杂度是 O

(

Nkt

) (

其中 , N 为样本数; k 为聚类数; t 为迭代次数

)

, 因

此对处理大型数据集也是相对可伸缩和高效率的

[1 ]

。

COBWEB 算法是一个通用且简单的增量式的概念聚类算法。COBWEB 算法用分类树的形式来表现

层次聚类。为了利用分类树来对一个对象进行分类 , 需要利用一个匹配函数来寻找“最佳的路径”,

COBWEB 算法用了一种启发式的评估衡量标准 , 将分类效用 CU

(

category utility

)

来指导树的建立过

程。该算法能够自动调整类的数目的大小 , 而不像其他算法那样自己设定类的个数 , 但 COBWEB 算法

中的 2 种操作对于记录的顺序很敏感 , 为了降低这种敏感性 , 该算法引入 2 个附加操作 : 合并和分解。

可以根据 CU 值来确定合并和分解操作 , 从而达到双向搜索的目的。COBWEB 算法的缺点是 : ①它假

设每个属性上的概率分布是彼此独立的 , 由于属性间经常是相关的 , 这个假设并不总是成立。这给该方

法带来一定的局限性。②聚类的概率分布表示更新和存储聚类相当繁复 , 因为时间和空间复杂度不只依

赖于属性的数目 , 还取决于每个属性的值的数目 , 所以当属性有大量的取值时情况变得很复杂。③分类

树对于偏斜的输入数据不是高度平衡的 , 它可能导致时间和空间复杂性的剧烈变化

[2 ]

。

DENCLUE

(

Density2based Clustering

)

算法是一个基于一组密度分布函数的聚类算法。DENCLUE 算

法的优点是 : ①它有一个坚实的数学基础 , 概括了其他的聚类方法 , 包括基于分割的、层次的以及基于

位置的方法。②对于有大量“噪声”的数据集合 , 它有良好的聚类特性。③对高维数据集合的任意形状

的聚类 , 它给出了简洁的数学描述。④它使用了网格单元 , 只保存实际包含数据点的网格单元的信息。

它以一个基于树的存取结构来管理这些单元 , 因此比其他算法

(

如 DBSCAN 算法等

)

的速度要快。

DENCLU E 算法的缺点是 : 要求对密度参数

和噪声阈值

进行仔细的选择 , 因为这样的参数选择可能

明显地影响聚类结果的质量 , 即对参数比较敏感

[3 ]

。

2 　3 种算法试验

211 　试验数据

表 1 　数据集 Glass 的描述表

数据集样本总数类别数属性数

Glass 214 6 9

　　本试验所使用的数据集 Glass 从 UCI 数据库

(

国际通用机器学习训练数据库

)

中获得 , 该数据集

的详细描述见表 1。从表 1 中可看出 , 该数据集是多

类高维数据。

·052·

长江大学学报

(

自然科学版

)

2009 年 6 月第 6 卷第 2 期 : 理工

Journal of Yangtze University ( Nat Sci Edit) 　Jun12009 , Vol16 No12 : Sci & Eng

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

liu4006

2015-07-16

点了半天都没下载下来，积分还被扣了

topmast

粉丝: 2
资源: 4

会员权益专享

3种聚类算法性能比较分析.pdf

评论1

会员权益专享

最新资源

3种聚类算法性能比较分析.pdf

评论1

常用聚类算法原文（DBSCAN等）

数据挖掘中聚类分析算法性能分析.pdf

论文研究-基于数据集压缩的聚类算法性能优化研究.pdf

论文研究-三种谱聚类算法及其应用研究.pdf

端到端对抗注意力网络多模式聚类算法

基于概率模型的聚类算法：高斯混合模型（GMM）

机器学习学习笔记.pdf

机器学习中的加速一阶优化算法pdf

shane cook cuda并行程序设计 gpu编程指南.pdf

多目标智能优化算法及其应用pdf 下载

人工智能模型与算法 pdf

机器学习实战 python3 pdf

机器学习数学理论 pdf

machine learning with pytorch and scikit-learn pdf

白话机器学习的数学 pdf

模式识别 边肇祺 第二版 pdf

the art of r programming pdf

神经网络设计原书第二版pdf

论文研究-图聚类算法的评价模型.pdf

论文研究-一种基于A-means聚类算法的SweepCoverage机制.pdf

会员权益专享

最新资源

模式识别边肇祺第二版 pdf