流形结构下改进的近邻传播聚类算法

需积分: 36 11 下载量 107 浏览量 更新于2024-09-08 2 收藏 2.05MB PDF 举报
本文主要探讨了一种改进的近邻传播聚类算法,该算法针对传统近邻传播算法在无先验知识条件下的参数选择问题和处理复杂或高维数据时的数据信息重叠问题进行了优化。首先,对于参数选择,作者提出利用Silhouette聚类有效性指标来指导,这种方法能够确保算法在缺乏明确初始分类的情况下,更准确地确定合适的聚类数量和邻域大小,从而避免了对算法性能的影响。 其次,针对高维数据中的冗余信息和复杂结构,作者结合了局部保持投影方法与近邻传播算法。局部保持投影技术旨在保留数据内在的非线性结构,通过在数据空间中进行降维操作,有效地减少了数据间的冗余信息。这样做的好处是提高了聚类的效率和准确性,同时保持了数据的原始特性。 在实现上,算法依赖于流形结构中的邻域选择,即根据样本点在低维嵌入空间中的相互关系来决定其邻居,而非简单的欧氏距离。这种基于流形距离的选择方法更好地捕捉了数据之间的局部依赖关系,从而提高了聚类的效果。 通过仿真结果,文章展示了所提算法相较于传统近邻传播算法在聚类精度、鲁棒性和效率上的显著优势。实验表明,新的算法在保持非线性结构的同时,有效地解决了数据冗余问题,适用于各种复杂的数据集,特别是在高维数据集上表现更为出色。 这篇论文提供了一种实用且高效的聚类方法,它通过结合Silhouette评估、局部保持投影和流形结构邻域选择策略,优化了近邻传播算法,使之在处理实际问题时具有更强的适应性和性能。这对于数据挖掘和机器学习领域的研究人员来说,是一个有价值的改进策略。