提升效率:FBK-means:平衡数据的快速聚类算法

需积分: 10 2 下载量 80 浏览量 更新于2024-08-09 1 收藏 612KB PDF 举报
本文主要探讨了一种名为"快速平衡 k-均值 (FBK-means)"的创新聚类算法,针对在处理大规模数据集时k-means算法计算效率低下的问题。聚类分析作为统计分析、机器学习、模式识别、数据挖掘、图像分析以及生物信息学等领域的重要工具,其目的是将数据集划分为具有相似特征的组或簇。k-means算法凭借其简单性和广泛使用,成为了基础聚类算法之一。 然而,k-means算法的一大局限在于其对大数据集的处理能力有限,尤其是在数据分布不均匀(即不平衡数据)的情况下,可能导致算法收敛缓慢或者陷入局部最优。FBK-means算法正是为了克服这些缺点而设计的。它结合了蜜蜂算法和遗传算法(Bee algorithm and GA algorithm),通过引入智能搜索策略,提高了算法的全局优化能力和搜索效率。 该算法的工作原理涉及到迭代过程,首先通过初始化阶段选择合适的聚类中心,然后分配数据点到最近的中心,接着调整聚类中心的位置,直到达到一定的停止条件,如迭代次数达到预定值或聚类中心不再发生变化。与传统的k-means相比,FBK-means能够在保持聚类质量的同时,显著减少计算时间,特别是在数据分布较为均衡时,性能优势更为明显。 作者们分别来自埃及阿西yt大学计算机科学系,他们通过对现有算法进行改进和优化,旨在提供一个适用于实际应用的高效解决方案。他们的研究成果发表在《国际先进计算机科学与应用杂志》(IJACSA)上,表明了FBK-means算法对于提高大数据集上的聚类效率具有显著的实际价值。 总结来说,这篇论文的核心贡献在于提出了一种新的聚类算法,它不仅解决了k-means在大数据集和不平衡数据上的挑战,还展示了在实际问题中的高效性和准确性,为研究人员和实践者提供了处理大规模数据聚类问题的一个强大工具。随着大数据时代的持续发展,这种高效的聚类算法有望在众多领域中得到广泛应用。