动态遗传算法驱动的高效聚类新策略

0 下载量 37 浏览量 更新于2024-08-27 收藏 433KB PDF 举报
在信息技术领域,聚类分析是一种常用的数据挖掘技术,其目标是将相似的数据对象分组成若干个簇,每个簇内的数据具有较高的相似度,而簇间差异较大。然而,确定合适的聚类数目(也称为“肘部法则”或“轮廓系数”)始终是聚类分析中的一个关键挑战。针对这一问题,本文介绍了一种创新的聚类方法——基于动态遗传算法的聚类新方法(Dynamic Genetic Clustering Algorithm, DGCA)。 首先,传统聚类算法,如K-means,对于初始聚类中心的选择非常敏感,这可能导致不同的初始化会导致不同的结果。为了克服这个问题,DGCA引入了最大属性值范围划分法。这种方法利用数据的自然特征,通过识别每个属性的最大值和最小值范围,来确定初始聚类中心的位置,从而减少对初始值的依赖。 其次,DGCA采用了一种独特的两阶段动态选择和变异策略。在第一阶段,算法根据当前种群中各个簇的大小动态调整选择概率,使得适应度高的个体(即更接近最优聚类结构的个体)在下一轮迭代中被选中的概率更高。这种策略鼓励算法在不同的聚类数目上进行并行搜索,寻找潜在的最优解决方案。 在第二阶段,随着搜索的进行,变异率会随着种群内聚类数目的一致性变化而调整。这意味着当聚类数目接近最优时,变异率会降低,确保算法在接近最优解的区域进行精细化搜索;反之,当聚类数目远离最优时,变异率增加,有助于探索更多的可能性。 通过这种动态调整策略,DGCA能够在搜索过程中不断优化聚类中心的位置,同时自动找到最佳的聚类数目,避免了手动选择簇数的繁琐和主观性。作者通过对七组不同数据集的实验验证,证明了该方法能够有效地实现数据集的全局最优划分,找到既满足聚类内部紧密度又保持聚类间差异性的理想聚类方案。 基于动态遗传算法的聚类新方法提供了一种有效且自动化的聚类分析框架,对于解决聚类数目确定难题具有显著优势,有助于提高聚类分析的准确性和效率。在未来的信息技术和数据分析中,这种方法有望得到广泛应用。