基于近邻传播的半监督聚类算法研究

需积分: 50 187 浏览量更新于2024-09-08 收藏 319KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"基于近邻传播算法的半监督聚类" 在计算机科学和机器学习领域，半监督聚类是一种利用少量标记数据（监督信息）来引导无监督聚类过程的方法。这种技术尤其适用于大规模数据集，其中完全标注数据可能过于昂贵或难以获取。本文"基于近邻传播算法的半监督聚类"探讨了一种将近邻传播（Affinity Propagation, AP）算法应用于半监督学习场景的新方法。近邻传播算法是无监督聚类的一种，由Frey和Dueck在2007年提出。它不再依赖于预先设定的簇数量，而是通过计算数据点之间的相似度，并传播这些相似度来寻找“代表”或“模范”数据点，这些点称为" exemplars"，其他点则根据与exemplars的相似度进行聚类。AP算法的优势在于其灵活性和效率，尤其是在处理大规模数据集时，比传统的K中心聚类等方法更有效。然而，AP算法在处理具有复杂簇结构的数据集时可能会遇到挑战，因为它可能无法准确捕捉到数据的多模态分布。为了解决这个问题，半监督聚类方法引入了先验知识，即部分已知的类别标签。通过这些标签，算法可以更好地理解数据的分布并调整聚类结果，从而提高聚类的准确性。该研究论文中，作者肖宇和于剑提出了一种结合近邻传播和半监督信息的聚类方法。他们可能通过以下方式来改进AP算法： 1. 利用先验信息：在AP算法的相似度矩阵中，考虑已知的类别标签，对相关的数据点赋予更高的相似度权重，引导聚类过程。 2. 动态调整簇数量：在半监督环境下，可以通过分析已标注数据的分布来动态地确定合适的簇数量，而不是硬性设定。 3. 传播机制优化：可能对AP算法的传播步骤进行调整，以便更好地适应有监督信息的传播，提高聚类效果。 4. 误差修正机制：设计一种机制，允许算法在发现错误的聚类分配时进行自我校正，利用监督信息来减少错误传播。 5. 性能评估：通过比较无监督和半监督聚类结果，以及与其他聚类算法的对比，验证新方法的有效性和优势。 "基于近邻传播算法的半监督聚类"研究旨在通过融合近邻传播的灵活性和半监督学习的力量，实现更精确、更适应复杂数据结构的聚类。这种方法对于那些需要从大量未标注数据中挖掘有用信息的问题，如社交网络分析、图像分割和文本分类等领域，具有重要的应用价值。

资源详情

资源推荐

肖宇等:基于近邻传播算法的半监督聚类

2805

近邻传播算法具有一定的优势.

1 近邻传播聚类

近邻传播聚类(AP)算法是一种基于近邻信息传播的聚类算法,其目的是找到最优的类代表点集合(一个类

代表点对应为实际数据集中的一个数据点,exemplar),使得所有数据点到最近的类代表点的相似度之和最大.如

果设数据点的相似度为数据点的欧式距离的负数,则 AP 算法的目标函数与经典的 K 中心聚类(K-center

clustering)算法的目标函数一致,但是其算法原理与 K 中心算法的原理存在很大的不同.AP 算法将每个数据点

看成图中的一个节点,通过在图中进行信息传播来找到最优的类代表点集合.K 中心算法迭代过程则是通过不

断更新聚类中心来提高聚类质量.AP 算法是基于数据点的相似度信息进行传播得到最优类代表点来优化目标

函数,K 中心算法则是基于代价最小替换原则得到最优类中心来优化目标划分准则.此外,AP算法与 K 中心算法

采用了不同的方法来确定初始类代表点,AP 算法将所有数据点都作为候选的类代表点,这样就避免了聚类结果

受限于初始类代表点的选择.K 中心算法则是随机选择几个点作为初始类代表点,致使聚类结果对初始类代表

点的选择非常敏感.AP 算法与一般聚类算法相比,最大的优点在于,AP 算法对相似度矩阵的对称性没有要求,这

也就扩大了 AP 算法的应用范围.AP 算法之所以称为近邻传播算法在于近邻点的信息直接影响了算法中信息

的传播结果,下面的公式(4)~公式(7)给出了详细的解释.从迭代公式(4)~公式(7)中可以看出,每一次信息传播都

是由数据点与最近邻点或次近邻点的信息计算得到的.

AP 算法是在数据形成的相似度矩阵的基础上进行聚类的,本文选用欧式距离作为相似度的测度指标.求解

任意两点之间的相似度为两点距离平方的负数,例如,对于点 x

和点 x

则有

(, ) .

sik x x=− − AP 方法用 s(i,k)

表示数据点 x

在多大程度上适合作为数据点 x

的类代表点.AP 算法要为每个数据点 k 设定其偏向参数

s(k,k)(preference)的值,s(k,k)的值越大,相应的点 k 被选中作为类代表点的可能性也就越大.AP 算法初始假设所

有数据点被选中成为类代表点的可能性相同,即设定所有 s(k,k)为相同值 p.同样,p 值的大小也影响到最终得到

聚类的类的个数,AP 算法可以通过改变 p 值来寻找合适的类的数目(实验结果说明,一般情况下,增大 p 值可以

增加类的个数,减小 p 值可以减少类的个数),这是 AP 算法中的一个重要参数.

AP 算法引入了两个重要的信息量参数,分别定义为代表矩阵

[

]

(, )

Rrik

= 和适选矩阵

[

]

(, ) .

Aaik

= AP

算法的迭代过程就是这两个信息量交替更新的过程,两个信息量代表了不同的竞争目的.r(i,k)(responsibility)是

从点

指向点 x

,它代表点 x

积累的证据,用来表示 x

适合作为 x

的类代表点的代表程度.a(i,k)(availability)是

从点 x

指向点 x

,它代表点 x

积累的证据,用来表示 x

选择 x

作为类代表点的合适程度.对于任意数据点 x

,计算

所有数据点的代表程度 r(i,k)和适选程度 a(i,k)之和,则 x

的类代表点为 x

: .AP 算法的核 argmax( ( , ) ( , ))

aik rik+

心步骤为两个信息量的交替更新过程,更新公式如下:

{

}

(, ) (, ) max (, ) (, )

kstk k

rik sik aik sik

′′

≠

′

←− +

′

}

⎪

⎬

(1)

(2) ,ik≠

{

{}

.. ,

( , ) min 0, ( , ) max 0, ( , )

isti ik

aik rkk ri k

′′

∉

⎧⎫

⎪

′

←+

⎨

⎪⎪

⎩⎭

∑

(,) max(0,(,))

isti k

akk ri k

′′

≠

′

←

∑

(3)

对上述迭代公式(1)两边同时加上得到如下变形: ),( kia

{

}

(,) (,) (,) (,) max (, ) (, )

kstk k

rik aik sik aik aik sik

′′

≠

′

+←+− +

′

(4)

为了更好地解释公式(4) 代表的意义, 在此给出一些定义:

[

]

(, )

Eeik RA

==+称为决策矩阵,

[

]

(, )

ik s A

Γτ

==+称为潜力矩阵.在数据集 X 中 ,数据点 i 关于相似矩阵 s 的最近邻表示为

i 在

此

{

}

{1,2,..., }\{ }

argmax ( ,

kni

∈

= ) .sik数据点关于相似度矩阵 s 的次近邻表示为

i ,这里,

{

}

{1,2,..., }\{ , }

argmax

kni

∈

= ( , )

sik.基于上述

定义,公式(4)可以简单地表示为

{

}

(, ) (, ) max (, ) .

kstk k

eik ik ik

ττ

′′

≠

′

←−

剩余10页未读，继续阅读

曉_寧

粉丝: 83
资源: 9

基于近邻传播的半监督聚类算法研究

Python-Tensorflow中的半监督学习GAN

具有成对约束的半监督DenPeak聚类

论文研究-一种迭代加权更新的带加速算子的半监督AP聚类算法.pdf

自动适应核参数的半监督聚类算法：SSKKOK

纠错式主动学习成对约束半监督聚类算法

半监督聚类算法：标签传播方法及其应用研究

利用贝叶斯网络的半监督聚类集成方法

"基于度量学习的深度半监督文档聚类研究

强局部超图扩散：聚类和半监督学习

基于聚类的半监督机器学习用于DDoS攻击分类及流量识别

基于多因素聚类的半监督few-shot学习

无标签数据中的分类任务：半监督学习与聚类算法结合

第七章第二节:半监督聚类之ap(affinity propagation)聚类(近邻传播聚类)

半监督目标检测研究内容

你知道半监督学习有什么算法？

半监督学习算法有哪些

python kmeans聚类聚类效果不好

半监督学习都有哪些常用方法？

半监督目标检测方法有哪些

最新资源