新型相似性度量在聚类算法中的应用与优势

需积分: 43 120 浏览量更新于2024-09-13 2 收藏 637KB PDF 举报

“聚类算法中相似性度量方法的研究，赖桃桃，冯少荣，厦门大学计算机科学系，2008年” 在聚类算法中，相似性度量方法是至关重要的，因为它决定了数据点如何被聚集到同一类别中。传统的聚类算法如k-means通常依赖于欧氏距离作为相似性的基础，但欧氏距离在处理高维数据或非线性分布数据时可能存在局限性。文章作者赖桃桃和冯少荣针对这一问题进行了深入研究，并提出了一种新的相似性计算方法。欧氏距离是基于两点之间直线距离的度量，适用于数据在各维度上具有相同权重的情况。然而，当数据集中存在异常值或者不同特征的重要性不同时，欧氏距离可能会导致错误的聚类结果。为了解决这些问题，作者在对已有相似性度量方法进行广泛研究的基础上，开发出了一种新的度量方法，强调了更好的可解释性。新的相似性计算方法旨在更好地反映数据点之间的内在关系，可能涉及到对不同特征权重的调整、考虑数据的分布特性或使用非线性变换等策略。通过对这种方法的分析，作者证明了其在理解和解释聚类结果方面优于传统欧氏距离。为了验证新方法的有效性，作者将其应用到经典的k-means聚类算法中，并与使用欧氏距离的方法进行了对比。实验在UCI（University of California, Irvine）机器学习仓库的数据集上进行，这些数据集通常用于测试和评估聚类算法的性能。实验结果显示，采用新相似性度量的k-means算法获得了更稳定且准确的聚类结果，这表明新方法对于处理各种复杂数据集具有更强的适应性和鲁棒性。文章的关键词包括“相似性”、“度量方法”和“聚类算法”，这表明其主要关注的是如何改进聚类算法的核心——相似性计算，以提高聚类质量和效率。通过这种新的度量方法，聚类算法可以更好地捕捉数据的内在结构，从而在数据挖掘、模式识别和数据分析等领域提供更准确的洞察。这项研究不仅提出了一个改进的相似性度量方法，还通过实验证明了其在聚类算法中的优越性，特别是在处理复杂数据集时。这对于提升聚类算法的整体性能和适用范围具有重要意义。

Carry_td

粉丝: 4
资源: 6

新型相似性度量在聚类算法中的应用与优势

比较轨迹聚类方法：比较轨迹数据集上的不同聚类方法和相似性度量

基于特征选择的K-means聚类异常检测方法

非监督模式识别：聚类算法与相似性度量

聚类算法研究

哈工大模式识别：动态聚类算法的样本核度量与分级方法

Vague集相似度量在聚类算法中的比较研究

MCEMS算法：一种集成聚类方法，结合簇聚类和新相似性度量

无监督聚类：相似性度量与聚类方法详解

K-均值算法详解：聚类与相似性度量

MATLAB层次聚类算法及度量方法解析

最新资源