大数据分析下的自动近邻传播聚类算法研究

需积分: 5 0 下载量 75 浏览量 更新于2024-07-09 收藏 1.94MB PDF 举报
"这篇硕士论文探讨了一种名为基于密度商分的自动近邻传播聚类算法,该算法属于无监督学习中的聚类方法,适用于大数据分析。论文作者为李俊,指导教师为王雷春副教授,研究方向为大数据分析,于2019年在湖北大学完成。近邻传播聚类(AP)算法是此研究的基础,它无需预先设定聚类中心和簇的数量,但面临处理噪声数据、过度分割问题以及对大规模高维数据的处理效率问题。" 正文: 随着数据科学的迅速发展,海量数据的涌现为各个领域的信息提取带来了新的挑战。无监督聚类算法作为数据分析的重要工具,能够在未标记的数据中发现潜在的结构和模式。基于中心点的聚类算法,如近邻传播聚类(Affinity Propagation, AP),因其不需要预先设定聚类数量和中心点的特性,在模式识别、市场分析、医疗诊断、图像处理和信息检索等领域有着广泛应用。 AP算法的工作原理是通过数据点之间的相似度传播来确定类别的形成,其优势在于能够自适应地找到合适的簇数。然而,它也存在一些固有问题。首先,当数据集中包含噪声点时,AP算法的聚类精度可能会降低,且算法运行效率不高。其次,AP算法可能过于敏感,导致数据过度分割,即原本属于同一簇的数据点被错误地分配到不同的簇中。最后,对于大规模、高维度的数据集,标准的AP算法往往表现不佳,处理效率和效果均不理想。 为解决这些问题,论文提出了基于密度商分的自动近邻传播聚类算法。密度商分是一种评估数据点周围环境密度的方法,它可以更好地识别噪声点并调整簇的边界。结合密度商分的概念,新的算法旨在提高聚类的精度,减少对噪声的敏感性,同时优化对大规模高维数据的处理能力,以适应复杂多样的现代数据环境。 论文可能详细阐述了新算法的设计思路、实现过程、性能评估和实证分析。这包括算法的改进策略,如如何利用密度商分来改进邻近关系的判断,以及如何优化算法的计算复杂性和稳定性。此外,论文可能还对比了改进后的算法与标准AP算法以及其他流行聚类算法(如K-means, DBSCAN等)的性能,通过实验结果验证了新算法的有效性和优越性。 这篇研究为无监督聚类算法的改进提供了一个新的视角,特别是对于应对大数据时代复杂性挑战的聚类方法。通过结合密度商分,自动近邻传播聚类算法有望在处理噪声数据、避免过度分割以及处理大规模高维数据方面展现出更强的适应性和准确性,从而在实际应用中产生更大的价值。