新型相似性度量在聚类算法中的应用与优势

需积分: 43 20 下载量 120 浏览量 更新于2024-09-13 2 收藏 637KB PDF 举报
“聚类算法中相似性度量方法的研究,赖桃桃,冯少荣,厦门大学计算机科学系,2008年” 在聚类算法中,相似性度量方法是至关重要的,因为它决定了数据点如何被聚集到同一类别中。传统的聚类算法如k-means通常依赖于欧氏距离作为相似性的基础,但欧氏距离在处理高维数据或非线性分布数据时可能存在局限性。文章作者赖桃桃和冯少荣针对这一问题进行了深入研究,并提出了一种新的相似性计算方法。 欧氏距离是基于两点之间直线距离的度量,适用于数据在各维度上具有相同权重的情况。然而,当数据集中存在异常值或者不同特征的重要性不同时,欧氏距离可能会导致错误的聚类结果。为了解决这些问题,作者在对已有相似性度量方法进行广泛研究的基础上,开发出了一种新的度量方法,强调了更好的可解释性。 新的相似性计算方法旨在更好地反映数据点之间的内在关系,可能涉及到对不同特征权重的调整、考虑数据的分布特性或使用非线性变换等策略。通过对这种方法的分析,作者证明了其在理解和解释聚类结果方面优于传统欧氏距离。 为了验证新方法的有效性,作者将其应用到经典的k-means聚类算法中,并与使用欧氏距离的方法进行了对比。实验在UCI(University of California, Irvine)机器学习仓库的数据集上进行,这些数据集通常用于测试和评估聚类算法的性能。实验结果显示,采用新相似性度量的k-means算法获得了更稳定且准确的聚类结果,这表明新方法对于处理各种复杂数据集具有更强的适应性和鲁棒性。 文章的关键词包括“相似性”、“度量方法”和“聚类算法”,这表明其主要关注的是如何改进聚类算法的核心——相似性计算,以提高聚类质量和效率。通过这种新的度量方法,聚类算法可以更好地捕捉数据的内在结构,从而在数据挖掘、模式识别和数据分析等领域提供更准确的洞察。 这项研究不仅提出了一个改进的相似性度量方法,还通过实验证明了其在聚类算法中的优越性,特别是在处理复杂数据集时。这对于提升聚类算法的整体性能和适用范围具有重要意义。