改进的SNN算法:解决大规模混合属性数据聚类

6 下载量 51 浏览量 更新于2024-08-29 收藏 1.89MB PDF 举报
"改进的共享最近邻聚类算法(SNN)是一种无监督机器学习方法,用于发现数据中的自然簇,尤其在处理大小不同、形状各异及密度差异显著的数据集时表现出色。原始SNN算法的优点在于它能识别变密度簇,通过共享最近邻的数量作为相似度衡量标准,有效地应对高噪声和高维数据。然而,其主要缺点包括: 1. 时间复杂度问题:SNN的时间复杂度为O(n^2),对于大规模数据集,这种计算成本过高,限制了其在实际应用中的效率。 2. 参数阈值选择困难:原始算法缺乏明确的参数阈值选择策略,这在实际应用中可能导致聚类效果不稳定。 3. 数据类型局限:SNN仅适用于数值型数据,无法处理混合属性数据集。 针对这些问题,本文提出了一种改进的SNN算法。改进主要包括两个方面: 首先,通过引入一趟聚类算法的思想,将数据集近似划分为互不重叠的子集,仅计算同一子集内的点对相似度,从而显著降低了时间复杂度,使之变为近似线性,有利于处理大规模数据集。 其次,针对混合属性数据集,改进后的算法扩展了处理能力,不仅限于数值数据,也能够处理分类属性,提升了算法的适用范围。 此外,文章还关注了算法的优化细节,如在“去噪”、孤立点检测和代表点选择等方面进行了改进,提高了聚类的精度和效率。然而,虽然改进了计算效率,文献[8]提到的网格技术在设定网格个数M时并未提供具体指导,这是未来研究的一个方向。 改进的SNN算法通过优化计算策略和扩展数据类型处理能力,成功地解决了原始算法在大规模和高维数据处理上的瓶颈,实验证明其在处理各种复杂数据集时具有良好的性能。然而,进一步优化参数设置和细化算法细节仍有待研究,以提升算法的普适性和稳定性。"