模糊与非模糊聚类算法在数据挖掘中的对比分析

PDF格式 | 535KB | 更新于2025-01-16 | 110 浏览量 | 举报

"该研究对比了基于划分的模糊聚类和非模糊聚类方法在数据聚类中的表现，主要探讨了模糊c-均值（FCM）、Gustafson-Kessel（GK）和k-均值（KM）算法。通过对不同现实世界数据集的实验，如肝脏疾病和葡萄酒数据，研究分析了三种算法的性能，并将其结果与UCI机器学习仓库的标准结果进行了比较。结果显示，k-均值算法在效率上优于模糊c-均值算法。" 在数据挖掘领域，聚类是核心任务之一，它旨在无监督地将相似数据分组到一起。基于划分的聚类算法，如k-均值和模糊c-均值，是这类任务中最常用的。k-均值算法是一种非模糊方法，通过迭代优化过程，使得每个数据点尽可能接近其所属簇的质心。而模糊c-均值则允许数据点同时属于多个簇，具有更灵活的边界定义，能够处理不清晰或重叠的类别。 Gustafson-Kessel算法是另一种划分方法，它扩展了k-均值，考虑了数据点之间的协方差，因此能更好地处理非球形分布的簇。然而，这种算法在处理大规模数据集时可能会遇到计算复杂性问题。在研究中，模糊c-均值和k-均值算法都采用了欧几里得距离作为相似度度量。尽管模糊c-均值在处理模糊边界时更具优势，但实验表明，对于特定数据集，k-均值可能提供更快的收敛速度和更稳定的聚类结果。数据挖掘的目标是发现隐藏在大量数据中的模式和规律，聚类分析是其中的关键步骤。分类和聚类都是数据分析的分支，但聚类更侧重于发现数据的自然分组，而分类通常涉及已知类别的样本预测。在实际应用中，选择合适的聚类算法取决于数据特性、目标和计算资源。例如，如果数据边界清晰，k-均值可能是理想选择；而当数据类别存在模糊性时，模糊c-均值可能更为合适。此外，算法的效率也是考虑因素，特别是在处理大数据集时。总结来说，该研究强调了对不同聚类方法的理解和比较的重要性，以便在具体应用中做出最佳选择。在选择聚类算法时，需要综合考虑数据的特性、算法的性能以及预期的聚类结果。通过这样的比较研究，可以为数据科学家和研究人员提供有价值的指导，帮助他们在实际项目中更有效地进行数据聚类。

Egyptian Informatics Journal（2016）17，183

开罗大学

埃及信息学杂志

www.elsevier.com/locate/eij

www.sciencedirect.com

原创文章

模糊与非模糊分类方法

B. Simhachalam

a，

，

G. 格涅桑

湾

印度安得拉邦维萨卡帕特南

GITAM

大学数学系，邮编：

530045

印度安得拉邦

Rajahmundry Adikavi Nannaya

大学数学系

533296

接收日期2015年7月27日;修订日期2015年9月23日;接受日期2015年10月30日

2015年11月29日在线发布

摘要在数据聚类中，基于划分的聚类算法是一种应用广泛的聚类算法。在各种划分

算法中，模糊算法、模糊c-均值（FCM）、Gustafson-Kessel（GK）和非模糊算法、k-

均值（KM）是最流行的方法。k-means和Fuzzyc-Means使用标准的欧几里得距离度

量，在这项工作中，这些算法与不同的著名的现实世界的数据集，肝脏疾病和葡萄

酒从UCI仓库的比较研究。基于聚类输出准则分析了三种算法的性能将结果与从储存

库获得的结果进行了比较结果表明，此外，实验结果表明，k-means优于模糊c-Means

和因此，k-means算法的效率优于模糊c-Means算法和

2015制作和主办由Elsevier B.V.代表计算机与信息学院

开罗大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http：//creativecommons.

org/licenses/by-nc-nd/4.0/）。

1. 介绍

许多组织在其数据库中生成并存储大量数据从数据库

中提取最有用的知识的方法被称为数据挖掘或

通讯作者。联系电话：+91 9866118074。

电子邮件地址：drbschalam@gmail.com（B.Simhachalam），

prof. ganesan@yahoo.com（G. Ganesan）。

开罗大学计算机和信息系负责同行审查。

数据库知识发现（KDD）。数据挖掘是一个分析过

程，发现数据集之间有效的，未被怀疑的关系，并将

数据转换为用户可以理解和有用的结构。

数据分析包含几种用于处理数据的技术和工具。

分类或聚类是数据分析中它是一种多变量分析技术，

将数据集划分为数据集中的组（类或簇），使得最不

可辨别的对象属于同一组，而可辨别的对象属于不同

的组。聚类方法被用作许多领域中的常用技术，例如

模式识别、机器学习、图像分割、医学诊断和生物信

息学[5]。

http://dx.doi.org/10.1016/j.eij.2015.10.004

1110-8665

2015制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一个在CC BY-NC-ND许可证下的开放

获取文章（http：//creativecommons.org/licenses/by-nc-nd/4.0/）。

制作和主办：Elsevier

关键词

模糊c-均值算

法;

Gustafson–Kessel;

基于划分的聚类

下载后可阅读完整内容，剩余5页未读，立即下载

cpongm

粉丝: 6

模糊与非模糊聚类算法在数据挖掘中的对比分析

模糊聚类分析的两种方法

基于划分的模糊聚类算法

模糊聚类分析方法

基于模糊聚类的属性图划分方法

基于高阶模糊算法及模糊聚类的模糊预报

基于范数的高效多维数据模糊聚类方法

模糊聚类算法研究：基于划分的方法

FCM聚类算法：基于划分的高效数据聚类方法介绍

基于模糊均值的HCM数据分类与聚类方法研究

模糊聚类论文_模糊聚类_模糊聚类算法_聚类论文_

最新资源