相似度传递聚类:一种高效找寻数据代表的方法

需积分: 0 0 下载量 166 浏览量 更新于2024-08-05 收藏 408KB PDF 举报
"AP聚类(Affinity Propagation)_通过数据点间传递消息进行聚类" AP聚类,全称为Affinity Propagation,是由Brendan J. Frey和Delbert Dueck提出的一种非监督学习的聚类算法,旨在通过在数据点之间交换消息来寻找代表性的例子,即聚类中心。这种方法与传统的K-means或层次聚类等方法不同,它不需要预先设定簇的数量,而是允许数据自我组织成任意数量的簇。 在聚类问题中,识别一组代表性样本对于处理感官信号、发现数据中的模式至关重要。传统方法是随机选择初始数据点子集并迭代优化,但这只有在初始选择接近良好解决方案时才有效。而Affinity Propagation算法则采用了一种不同的策略:输入数据点对之间的相似度测量值,通过实值消息在数据点之间传递,直到高质量的示例集合和对应的聚类逐渐形成。 该算法的工作原理如下: 1. 相似度矩阵:首先,计算所有数据点对之间的相似度。这可以是欧氏距离、余弦相似度或其他合适的相似性度量。 2. 消息传递:每个数据点都会发送和接收两个类型的消息:责任(Responsibility)和可用度(Availability)。责任表示一个数据点作为其他点的候选聚类中心的适宜程度,而可用度表示一个点被选为聚类中心的可能性。 3. 迭代更新:在每一轮迭代中,根据责任和可用度更新这两个值,直到达到稳定状态或者达到预设的最大迭代次数。 4. 簇的形成:最终,那些具有高责任和高可用度的数据点将被视为聚类中心,与其相似度高的其他数据点将归入同一簇。 Affinity Propagation在多种应用中表现出色,如人脸识别、基因检测、文本摘要以及航空旅行网络中的城市聚类。与其他方法相比,它在精度上表现出显著优势,并且运行速度更快。在人脸图像聚类中,它能以更低的错误率找到聚类,并且所需时间少于其他方法的百分之一。 Affinity Propagation提供了一种灵活且适应性强的聚类解决方案,尤其适用于需要处理大量数据和未指定簇数量的复杂场景。其基于消息传递的机制使得它能够有效地处理非凸形状的簇和噪声,从而在数据挖掘和机器学习领域中占据一席之地。