改进遗传K-Means算法在聚类分析与Web日志挖掘中的应用

需积分: 14 13 下载量 11 浏览量 更新于2024-08-01 2 收藏 2.41MB PDF 举报
"这篇硕士学位论文主要探讨了基于遗传算法的k-means聚类方法,针对k-means算法的局限性,如对初始值敏感和易陷入局部最优的问题,提出了一种改进的遗传k-means算法,旨在提高聚类效率和全局优化能力。论文作者为金微,指导教师为陈慧萍,专业为通信与信息系统。" 在数据挖掘领域,聚类分析是一项关键任务,它无需预先知识,能将数据自动分为相似的组,以便揭示数据的内在结构和模式。k-means算法因其简单高效而在聚类中广泛应用,但其对初始中心点的选择非常敏感,可能导致不佳的聚类结果。为克服这一缺陷,研究者引入了遗传算法,这是一种模拟自然选择和遗传机制的全局优化算法,具备良好的全局搜索能力和并行性。 基于遗传算法的k-means聚类方法(GKmA)结合了两种算法的优点,遗传算法负责全局搜索,k-means则负责局部优化。然而,GKmA的收敛速度相对较慢。论文提出了一种改进的GKmA算法,允许个体包含空类,并增加了增量式操作,这使得类中心和目标函数的计算可以更高效,从而提升了算法的收敛速度。 为了验证算法的效果,作者设计了一个聚类分析系统,并通过实验对比了改进后的GKmA与原版GKmA以及标准k-means算法的性能。实验结果表明,改进的GKmA在收敛效果和速度上均优于传统方法,特别是在变异概率较小的情况下,优势更为显著。此外,论文还提出了将改进的GKmA应用于Web日志挖掘的用户聚类系统,以减少初始值对结果的影响,寻找全局最优解,进而提供个性化的Web服务和站点优化建议。 关键词涵盖了数据挖掘、聚类分析、遗传算法、k-means算法以及基于遗传算法的k-means聚类方法,这些都是论文研究的核心内容。通过这项工作,不仅深化了对聚类算法优化的理解,也为实际应用提供了有价值的解决方案。