图卷积网络与流形学习的聚类方法

169 浏览量更新于2023-10-16 收藏 849KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15634基于流形学习和图卷积网络的莱昂纳多·塔德乌·洛佩斯巴西圣保罗州立大学leonardo. unesp.brDanielCarlosGuimar aPadronetteStateUni versityofSaPadronoPaulo（UNESP），巴西电子邮件：unesp.br摘要尽管监督学习取得了巨大的进步，但对大量标记数据集的普遍需求是一个严重的瓶颈。在这种情况下，能够解决与标记数据稀缺相关的挑战的其他学习范式代表了一种相关的替代解决方案。本文提出了一种新的聚类方法，称为自监督图卷积聚类（SGCC）1，其目的是利用不同的学习范式的优势，结合无监督，半监督和自监督的观点。为了提供更有效的全局相似性信息，提出了一种基于超图和排序信息的超图结构允许识别每个聚类的代表性项目，其用于导出一组小但高置信度的聚类。这些聚类被视为软标签，用于在半监督分类任务中训练图卷积网络（GCN）。一旦在自我监督设置中训练，GCN用于预测剩余项目的聚类在图像和引文网络数据集上对所提出的SGCC方法进行了评估，并与经典和最新的聚类方法进行了比较，在所有场景下都获得了高效的结果。1. 介绍每天产生的数字数据量不断增长，主要是由几个知识领域的技术进步支持[4]。如此大量的内容创造了对能够自动组织、分离和从数据中获取知识的方法的迫切需求。在过去的十年中，监督学习任务取得了令人印象深刻的进步，其中标记数据可用于训练机器学习模型，随后用于进行预测。然而，尽管深度学习技术的使用特别支持了实质性的进步[19]，但仍然存在一些挑战，因为这些方法需要大量的标记集进行训练。然而，现实世界的场景往往缺乏编目信息。由于需要大量的人力来创建，标记集通常是稀疏的，不准确的，甚至不存在[40]。为了克服这些局限性，研究人员已经将精力投入到能够处理标记数据稀缺的其他学习范式上。在这种情况下，几个半监督，无监督和自监督学习1代码可在https://github.com/lopes-leonardo/sgcc最近提出了一些方法虽然其中一些代表了传统的研究方向，但由于最近的条件和挑战，它们引起了越来越多的兴趣半监督学习技术主要通过利用丰富的未标记数据并通过数据集扩展信息来解决标记样本数量减少的问题[9，35，13，10]。无监督学习方法旨在通过仅利用对象之间的关系从数据中获取知识，而无需任何标记信息[33，11]。自监督学习方法是另一种最近的方法，其中监督或半监督技术通过成对比较或基于从原始数据获得的软标签以无监督方式获得的知识进行训练[40]。在无监督学习中，聚类是一种重要的方法，广泛应用于计算机视觉、模式识别和数据挖掘等领域。尽管是一个传统的领域，它仍然是一个活跃的研究领域[14，33，24]。其主要目的在于通过探索一组模式之间的一些内在相似性来发现和分离它们的自然分组[33]。与其他机器学习技术类似，聚类高度依赖于特征和相似性度量来实现有效的结果：由嵌入在输入特征中的表示给出的相似性越好，空间，这些方法发现的群体越好[24]。在接近聚类的方向上，无监督流形学习技术利用数据集的结构来获得数据样本之间更好的相似性关系。该方法通过更全局和有效的相似性度量来考虑数据集的多样性。在流形学习中应用的不同方法中，基于排序的技术已被确立为一种有前途的解决方案。他们分析了排名列表中编码的相似性关系，这提供了丰富的相似性信息来源，以基于全局数据关系计算新的相似性这些新措施用于改进检索和机器学习任务[1，30]。在半监督学习中，基于图的算法被广泛用于提取数据的底层结构一个有前途的研究方向是使用图卷积网络（GCN）[35]，它在半监督学习任务上取得了最先进的成果。这种网络允许通过对由图结构定义的非欧几里德域进行卷积运算来学习更有效的此外，GCN最近已被应用于集群任务，利用表示为图形的关系。在15635×→不C C·TCC{}∈CT≤∈CC{}∈∈∈ CEV EV∈VGS1S2. ..Sc=C。每个对象oi∈ C被赋值给[5]聚类网络使用消息传递（MP）层来利用节点特征与归一化邻接矩阵之间的关系。输出由多层感知器（MLP）分配到聚类，并使用组合损失训练模型。在[7]中使用了一种不同的方法，其中GCN与自动编码器网络相结合来聚类数据集。首先，自动编码器学习以无监督的方式重建输入数据GCN层在激活函数之前接收由自动编码器的相应层该框架是训练与自我监督的方法的基础上，每个对象的autoencoder表示和它的聚类中心向量之间的相似性在本文中，我们提出了一种新的聚类方法称为自监督图卷积聚类（SGCC）。利用不同的学习范式的优势，结合无监督，半监督和自我监督的观点。首先，所提出的方法采用基于超图的无监督流形学习算法[29]来提供更有效和全局的相似性信息。利用超图结构来选择数据集的代表元素并创建可靠的初始聚类配置。初始聚类被建模为用于训练GCN的软标签，用于以半监督方式进行分类。随后，GCN用于预测剩余数据样本的聚类，从而产生自监督聚类方法。此外，通过在特征级处理数据，我们提出的方法可以应用于多个领域，如引文网络。据我们所知，这是第一次尝试使用基于超图的流形学习给出的鲁棒相似性公式来推导基于GCN的自监督方法用于聚类任务。另一个相关的内容是通过一种新的方法来定义代表性的代理元素，并创建用于训练GCN模型的初始可靠的集群。所提出的方法的有效性进行了评估，通过广泛的实验评价。实验在多个数据集上进行，包括图像数据集评估措施，并与经典和最近的比较在对象对之间计算的距离或相似性度量上支持形式上，令ρ：RdRd R+是一个距离函数，它根据两个对象的特征向量计算它们之间的距离。两个物体oi和oj之间的距离可以由ρ（xi，xj）定义。通常使用超欧几里德距离。然而，仅考虑对象对会浪费包含在更一般的关系中的相关信息在这种情况下，基于排名的技术旨在表示和利用丰富的上下文相似性信息。可以基于距离函数ρ计算排名列表τq，以获得给定元素q的最相似对象。因此，τ q =（o1，o2，. . . ，ol）可以被正式地定义为集合l的置换，其中l定义排序列表的长度，并且l是包含L个与OQ最相似的对象的子集。置换τq是集合的双射l到集合[L g]=1，2，. . .、湖此外，τq（oi）表示对象oi在随机列表τq. 如果在q的秩表中，oi在oj之前秩，即τq（oi）τq（oj），则ρ（xq，xi）ρ（xq，xj）.通过为每个对象oi计算排名列表τi，集合= τ1，τ2，. . .，τ n的排序列表。该集合对重要的相似性信息进行编码，这考虑了数据集的结构。基于排序的流形学习算法利用编码在排序列表集合中的相似性信息来计算新的相似性度量，该相似性度量进而可以用于更新排序列表集合。形式上，我们可以将无监督流形学习方法定义为一个函数m（）stec，该函数给出一组更有效的排序列表T′，如下所示：T′= m（T）.（一）在这项工作中，使用超图公式[29]来实例化函数m（）。该聚类方法利用了集合和超图结构2.2. 聚类聚类可以被定义为一种无监督的学习任务，其目的是从数据收藏C[14]。形式上，I eTtS=T{S1T，S2，. . . ，Sc}be和引文网络，各种GCN模型，不同的评估-as s sSetofSccluSsters，其中S1S2。 . .Sc=π，S ∈ S聚类技术一个视觉实验也被证实-以展示我们的方法在项目中的能力-将同一类中的元素紧密地嵌入到嵌入中，由GCN计算的丁空间得到的结果在所有评估的设想方案中，拟议办法优于或可与所考虑的办法相媲美。2. 正式定义本节对拟议方法中涉及的三项主要任务提出了正式定义。2.1. 基于秩的流形学习设= o1，o2，. . . .是数据集合，其中每个对象表示一个数据项。设xi是定义在Rd中的特征向量，其表示d维特征空间中的元素oi特征向量被广泛用于检索和机器学习任务，通常只有一个群集j不属于任何其他的集群[33]。2.3.通过GCN的半监督分类最近，GCN已成功应用于使用基于图的数据表示的半监督学习[35]。根据[15]，我们正式定义了基于GCN的半监督分类任务让=（，，X）是一个无向图。设= v1，v2，. . . ，vn表示图形节点的集合，其中每个Vi表示数据集合的对象。设为边集，X=[x1，x2，. . . xn]TRn×d是一个特征矩阵，其中每个xiX是一个d维特征向量，它表示对象i及其对应的节点vi.由（vi，vj）∈E构成的边集可由非n ∈g的iv e邻接矩阵A=[aij]∈ Rn×n定义.15636Y{}∈.∈h（e，v）=ij--×→∈C定义为V的子集族，使得e∈E=V。图1.提出的自监督图卷积聚类（SGCC）方法的一般结构和数据流。基于原始数据集的特征和排名列表，以及图形表示（如果可用），所提出的方法将数据分为三个阶段。另外，设=y1，y2，. . .，y c是一组标签，表示可以分配给节点v i∈ V的目标类。在这种情况下，部分标记的数据集可以定义为V ={v1，v2，. . . ，v L，vL+1，. . . ，v n}，其中3.1. 基于超图基于日志的排名参考超图（LHRR）[29]是一种无监督的流形学习方法，可以计算数据之间更有效的相似性。VL={vi}L表示标记对象的子集VL∈元素。该方法基于来自V和Vi=1x}n是未标记对象U={ii=L+1在超图结构中建模的排名列表TVU∈ V。作为一般规则，在半监督分类中，|VL| ≪|VU|.训练集可以由函数lb：VL→ Y定义，其分配标签使得yj=lb（vi）<$vi∈VL。GCN分类的主要目标是学习一个新的标记函数l_b：V_U→Y，它将预测V_U中未标记节点的标记。3. 该方法本节介绍了建议的自监督聚类方法，称为自监督图卷积聚类（SGCC）。该方法基于三种主要技术，如图1所示，并在下文中详细讨论：1. 基于超图的流形学习：基于超图公式的基于秩的流形学习算法[29]用于重新定义数据样本之间的相似性。此外，超图结构利用我们的方法，以获得初始的clus-特斯流形算法将在3.1节中讨论;该算法可大致分为五个主要步骤，在以下部分中进行了描述：3.1.1秩归一化首先，该方法计算一个新的相似性度量pn通过使用倒数排名位置。xi和xj之间的pn相似度可以定义为：ρn（oi，oj）=2l−（τi（oj）+τj（oi）），（2）其中L表示排序列表长度。然后，基于新计算的相似性，通过稳定的排序算法更新排名列表的前1个项目3.1.2超图构造超图是图的鲁棒推广，其中超边可以连接任何顶点集。设G=（V，E，w）是由有限顶点集V和超边集E构成的超图. 每一项oi∈ C是与顶点vi∈V相关联。H超边缘S和E可以是2. 自监督聚类：使用更有效的相似性和超图结构来导出能够识别代表性元素并创建小但可靠的聚类的新方法第3.2节描述了我们的方法如何选择有代表性的元素，并使用它们来获得高效的小集群;3. 图形卷积网络：一个GCN训练我们-另外，权重w（ei）被分配给每个超边ei，表示由其关系建立的置信度。一个超边ei可以由一组顶点ei=v1，v2，. . .，v m.在此配置中，当vj时，超边ei与顶点exvj相关联ei. 根据这个定义，我们可以用一个大小为H的关联矩阵来表示超图|E|× |V|，使得：使用原始数据集特征将可靠的聚类作为软标签。一个倒易的k-NN图是从r（ei，vj）如果v∈i，0否则。、通过流形学习计算的改进的排序列表，ing算法，如果输入数据不提供图形信息。GCN用于半监督学习集，利用软标记和未标记的数据。第3.3节描述了GCN的一般概念及其使用的一些变体。其中r：EVR+是一个隶属函数，表示一个顶点exvj的度属于一个高边ei。该函数利用了二阶邻域关系。对于每个数据对象o i，基于oi的k-邻域集和邻域的邻域定义超边e i。对于式y，函数r（ei，v，j）被定义为：15637Σ××NN◦Σ不Qr（ei，vj）=oz∈N（oi，k）<$oj∈N（oz，k）wp（oi，oz）×wp（oz，oj），基于表示超边缘的置信度此外，关系p还定义了顶点vi和vj之间关于eq的隶属度：（三）其中wp（oi，oz）基于p（eq，vi，vj）=w（eq）h（eq，vi）h（eq，vj）.（七）基于隶属度p，矩阵Q可以是其在Oi的排序列表中的位置，即τi。该函数通过基于对数的公式计算：考虑到所有超边之间的关系而构建：w p（o i，o z）= 1 − logk τ i（oz）。（四）Qi，j=0p（vi，vj）.（八）此外，超边缘权重w（ei）测量eq∈E<$（vi，vj）∈eq2超边缘中的对象之间的关系的置信度为了计算w（ei），一个超图邻域集定义h，包含k个顶点具有最高分数h（e i，. ）中的hyperedge。考虑-3.1.5基于超图的相似性两个矩阵Sp和Q被组合以计算在超图邻域h中，期望有效的超边包含具有高值h（ei，. ）[29]。因此，超边缘权重w（e，i）计算如下：w（ei）=h（ei，vj）.（五）j∈Nh（oi，k）此外，由于每个超边e∈E是基于基于超图的相似性矩阵W=Q Sp。这种新的相似矩阵集中了从超图中提取的所有相似信息，用于计算为数据收集设置一组新的排名列表。此外，通过使用输入和输出作为排名列表，LHRR方法可以迭代重复，以获得越来越有效的排名和超图表示。设上标（t）表示当前迭代，在相应的排名列表τi我∈ T，超边权所述排序列表集合T（t+1）是基于所述sim来计算的w（ei）可以被认为是τi的无监督有效性度量。因此，排名列表越有效，超边权重越高，超边中包含的关系越可靠[29]。3.1.3超边缘相似性在超图构造之后，LHRR [29]基于两个假设创建新的相似性矩阵Sp首先，相似的对象具有相似的排名列表，从而具有相似的超边缘。两个超边ei和ej之间的相似性度量由其内积给出，通过将关联矩阵乘以其转置：Sh= HHT。第二个假设指出，类似的物体是前-被相同的超边引用因此，两个顶点vi和vj之间的相似性可以通过将h值乘以它们相应的超边来计算，由下式给出：最后，通过矩阵Sh和Sv之间的Hadamard积将这两个相似度组合起来，得到相似度矩阵Sp=Sh<$Sv.3.1.4超边元为了最大化从超图中提取的相似性信息，LHRR通过计算它们各自的超边之间的笛卡尔积来利用顶点之间的关系。因此，两个超边eq和ei之间的笛卡尔积可以定义为：eq×ei={（vy，vz）：vy∈eq<$vz∈ei}（6）笛卡尔积也可以用于利用相同超边e q的元素之间的关系，被描述为e2。F或每对（vi，vj）∈eq2，建立了一个关系p：E×V×V→R+这种关系15638不相似度W（t）和集合（0）由初始特征表示定义。为了将LHRR方法应用于SGCC，将LHRR方法重复了t次迭代.最终排名列表集合（t+1）、当前超边集合E（t）及其相应权重被用于初始地对输入数据进行聚类，如以下子部分中所讨论的。3.2. 自监督聚类本节讨论所提出的SGCC方法如何利用编码到超图结构中的相似性信息来创建初始可靠聚类。随后，这样的聚类和由LHRR计算的排序列表的集合由GCN用于以自监督的方式聚类剩余的数据项。自我监督聚类方法，如图1所示，可以总结为四个主要步骤，讨论如下：1.Hyperedge自信心评分：计算新的分数以估计编码在超边中的相似性信息的质量。基于该估计对超边进行排序，使得顶部超边呈现更高的超边权重和与其邻居更强的相似性关系;2. 代理人选择：基于该分数，为每个期望的聚类选择代表性数据项。这些代表项为每个聚类提供了高效的初始代表，并用于指导聚集过程;3. 可靠群集集：每个聚类由聚类超边缘表示，最初由其各自的代表的超边缘定义。随后，数据对象的子集被聚集到创建的聚类中，遵循由顶级超边缘自信度定义的排名15639| |||ΣNSSC → S≥C|C|∈×|R|E∈ RR∈ CCRHR−−我我我我成绩.在每个步骤中，下一个最可靠的项目是基于其与每个聚类的超边缘关系聚集的。在聚类过程中，通过合并新项目的超边来更新聚类4.图卷积网络聚类：最后，基于从LHRR检索的排序列表，创建互逆k-NN图.这个新的图与数据集的特征集相结合，以便使用可靠集群定义的标签来训练GCN。训练后，完整的数据集由基于图的网络进行分类，检索最终的聚类集。下面的章节将进一步讨论并正式定义每个步骤选择剩余的代表（公式10）。基于R，可以定义初始聚类集合S，使得|= c且<$Si ∈ S，Si = {ri ∈ R} .|= c and ∀Si∈ S,Si={r i∈ R}. 因此，为每个代表对象oi∈R创建一个酉聚类。3.2.3可靠群集集超边是多个数据元素之间关系的强大表示。因此，也可以探索这种结构，以表示基于其各自对象的超边的聚类。在这种情况下，聚类超边集可以被定义为大小为SV的关联矩阵HS，它表示数据对象与每个定义的聚类之间的分配度因此，Hs可以如下获得：3.2.1Hyperedge自信心评分如第3.1.2节所述，超边权重hs（Si，vj）=ez∈S ih（ez，vj），（11）w（ei）是一个无监督的有效性估计的排名列表τi，与超边ei相关联。此外，顶点Vi在其自身的超边ei中的关联矩阵得分（由h（ei，Vi）表示）在每次h（oi，k）中存在的元素的排序列表中引用oi时递增，并且可以被解释为对oi为了获得数据集中最可靠项目的一般排名，将这两个分数结合起来，矩阵Hs支持导致可靠聚类集的聚集过程因此，它的值在此步骤中执行的每个新聚集上更新聚类分配度hs（i，vj）由vj表示的数据对象与聚类i中的所有对象之间的相似度值之和给出。根据线索-称为分配度和每个聚类的大小的函数nc：选择与对象oi最相似的聚类，定义为：hs（Sj，oi）一个超边缘的自信分数，w（e）=h（e，v）×w（e）.（九）nc（oi）= argmaxSj∈ S|Sj|.（十二）基于w，排序列表τ =（o，o，. . . ，o ）是-基于nc函数，一个子集的数据集合h h1 2n以检索初始群集配置。作为集合的置换，使得如果oi在oj 之前运行，则wh（ei）wh（ej）。运行列表τh定义了所提出的算法处理数据集项的顺序。更可靠的项目被选择并更早地聚集。设q=n p是在该步骤中聚类的数据集合的子集的大小，其中n=n，p（0，1）是常数。包含被选择用于聚集的所有对象的集合Ca由最高超边缘自信分数wh（·）给出，并且可以被定义为：3.2.2代理人选择尽管包含数据集项的可靠顺序，Ca={Ca<$C\R，|Ca|=q−coi∈Ca，oj∈C\Ca：wh（oi）>wh（oj）}.（十三）根据其相似信息置信度，τh可以在-在顶部位置包括彼此相似的各种项目在这种情况下，受[2]的启发，选择一个代表-通过聚集包含在Ca中的对象，每个ini-初始聚类Sj∈ S可以定义为：提出了每个聚类的有效元素，以确保多样性。这些代表将指导建立一套可靠的初始集群。Sj=oi∈CaV[nc（oi）=Sj{oi}（14）令=（o1，o2，. . .，c）是所选择的表示对象的集合，使得 =c且每个o i通过以下等式选择：函数的作用是：为对象oi选择目标基于当前群集配置。因此利用包含在排序列表τh中的顺序来进行聚集。所有物体oi= arg maxoj∈C\R1+wh（oj）ok∈Ri−1h（ek，vj）、（10）包含在a中，SGCC恢复高度可靠的初始集群配置，该初始集群配置用作GCN模型的训练标签，负责进行最终的集群。其中i1=（o1，. . .，0 i1）表示所选择的代表的集合。等式10可以被总结为：选择具有高自我评价的下一个候选者置信度得分（分子）和与先前迭代中选择的代表的低相似性（分母）。代表集用排名列表τh中的第一个元素初始化，其中τh（oi）=1。在选择第一个元素后，进行c-1次迭代，156403.2.4图卷积网络聚类在最后一步中，由SGCC获得的初始可靠聚类集被用作用于训练GCN模型的软标签。之后，训练的模型将剩余的对象分类到所发现的聚类中。包含在S中的集群配置表示标记节点的子集VL，如下所示：15641VC∈·∈∈V不在第2.3节中定义。训练过程使用基于标记节点集L上的交叉熵损失的优化。在训练之后，执行新的推断，以便检索整个输入数据集合的最终集群配置。下一节讨论GCN以及SGCC如何使用它们。3.3. 图卷积网络近年来，人们已经做出了很多努力来开发基于图形数据的深度学习方法[8]。GCN的主要目标可以概括为基于其邻居的迭代聚合来学习每个节点的嵌入（表示），在神经网络模型中对接收到的图结构进行编码。在代表性的工作[15]中，利用由对称邻接矩阵A表示的图，将两层GCN模型应用于半监督分类。所获得的模型可以被定义为基于特征矩阵X和邻接矩阵A的函数：Z=f（X，A），（ 15）在这种情况下，Z表示嵌入矩阵，使得Z=[z1，z2，. . .，zn]TRn×d，zi是针对节点v i计算的d维嵌入表示。为了获得矩阵Z，首先计算度矩阵作为预处理步骤，定义为A=D−1/2AD−1/2，其中A=A+I，D为的阶矩阵。函数f（）表示两层GCN模型可以定义为：Z=l〇g（s 〇ftmax（AReLU（AXW（0））W⑴））（16）输入到隐藏层的神经网络权重由W（0）Rd×H定义，其中H表示特征映射的数量。类似地，W（1）RH×d是隐藏到输出的权重矩阵。W（0）和W（1）都是基于标记节点集L上的交叉熵误差来训练的。在嵌入过程之后，逐行应用softmax激活函数，以便获得每行的d个类别标签上的概率分布。通过对这些概率应用log函数，嵌入表示zi中具有较小负值的类为作为标签分配给相应的节点Vi。3.3.1GCN模型和输入数据主要基于GCN的成功[15]，最近提出了各种相关的图卷积网络模型[37，16，39，6，20，3，17]。在这项工作中，除了最初的GCN [15]之外，还根据最近的研究应用[27]和我们最初实验中获得的结果选择了另外两种方法：简单图卷积（SGC）[39]，一种在去除非线性和连续层之间的权重矩阵的崩溃之后获得的简化GCN 模型，以及近似神经预测的个性化传播（APPNP）[16]，一种通过基于个性化PageRank导出传播策略来利用GCN和PageRank之间的关系的模型。GCN模型接收特征矩阵和邻接矩阵作为输入。在这种情况下，我们的方法使用输入特征矩阵X，邻接矩阵A被计算为基于LHRR的输出排名列表集（t +1）的互逆k-NN图基于自然图的数据也可以被考虑用于输入图，作为引用网络数据集。4. 实验评价4.1. 实验方案实验分析考虑了七个不同的数据集，包含3到200个类。第一组数据集由四个图像数据集组成：（i）MPEG- 7，1400个图像，70个类别[18];㈡鲜花，1360幅图像，17个班级[26];（三）Corel 5 k，5000幅图像，50个类别[21];CUB200，11788个图像，200个类[38]。除了使用CFD[28]描述符获得的距离矩阵的MPEG-7之外，所有图像数据集都使用从Resnet [12] CNN中提取的特征向量，这些CNN在ImageNet数据集上进行了预训练。LHRR方法的输入排序列表通过图像数据集特征的欧氏距离获得在GCN训练中使用的k-NN图是基于从LHRR获得的排序列表。第二组由三个引文网络数据集组成，主要用于半监督学习任务和最近提出的深度聚类技术：（i）Cora，2708篇文章，7类[34];㈠ CiteSeer，3312条，6类[34];和（i）PubMed，19717篇文章，3类[34]。对于这一组，原始的二进制特征向量与它们各自的引用图一起使用。LHRR方法的输入排序列表由二进制特征向量中的Jaccard索引获得。有效性评估使用三种外部指标：归一化互信息（NMI）[33]，V-测量[31]和准确度（ACC）[24]。4.2. 参数设置关于参数设置，SGCC方法仅需要四个参数，c：簇的数目;k：LHRR使用的邻域大小，用于创建互逆k-NN图; t：LHRR的迭代次数;以及p：聚集在初始可靠聚类中的数据元素的百分比。参数c遵循所有场景中真实类的大小。通过在所有可用范围内改变其值，同时保持其余配置，分析了p参数的影响。图2显示了Corel5 K数据集上的NMI和V-Measure指标的结果，使用k=50，t=1，t=2.这两种GCN模型表现出类似的行为，考虑参数p和t之间的关系。对于t=1，这两个指标都有所改善，因为在GCN训练之前，数据集的大部分被分离。然而，使用LHRR方法的2次迭代，所有模型都呈现出最佳结果，约20%至30%的数据集被分离为软标签。为了探索更大范围的配置，将一半的数据集分类并用作GCN训练中的软标签（p= 0. （5）在所有实验中。15642表1. 所有数据集上k = 50的结果。数据集网络t NMI V-Measure ACCGCN191. 34± 001691. 10± 00。15 88. 45±00 12Corel5KSGC191. 74±00。0691. 50±00。0688. 74±00。0591. baby baby 六十四度。1590。47± 00。1588. 七十二度。1568. hot water 93± 00。4268. 22± 00 四十五四十七。70±00。46CUB200SGC 269岁。九十七度。0369岁。33±00。0348. 37±00 0469. how to do 六十八度。1368. 93± 00。1247。77±00 3080. how to do 48± 00 5780. 十八度5982. 61±00。61花SGC 281. 二十七度0781. 01±00。0783. 49±00。0980.第一次约会79± 00。258051± 00 2582. 85±00。23公司简介MPEG-7SGC 289岁。74±00。3487岁六十四度。3574. 06±00。7716. biggest biggest 85± 33 7006. 83± 13650202±01。19GCN131. 32± 00 403071± 00 404586±00。21GCN SGC35.第三十五章. 94± 00。113549± 00。1149. 65± 00。06图2.评价参数p的影响。实验在Corel 5K上进行，使用k =50。NMI的结果和APPNP1三十七十二度23三十六五十二度。2449十八度2728 .第二十八章八十度 212851± 00215420±00。17CiteseerSGC 2三十86±00。07三十47±00。0755. 86±00。05使用值t = 1 e t = 2测量GCN模型的此外，还考虑了两种评价设想：30.第二次约会55± 00 十七点三十分二十四度1755六十八度。20GCN118. 32± 00 0818. 04±00。07五十六45± 00 07PubMedSGC131岁十九度401777± 00 4949 76 ±00。29（i）对于每个实验使用k=50，该值为cho-18 .bepaly手机投注十七度0817. 69± 00。1056二十七度38表2.结果考虑最佳k在范围[10.. 100]。sen作为所有评估数据集中具有可比结果的指示，以及（ii）在[10. 100个]数据集网络Kt NMI V-Measure ACCGCN95291. 八九度。1391. 79± 00。1390。86 ±00。11并报告最佳结果。在这两种情况下，Corel5KSGC70292. 62±00。0692. 44±00。06九十八十度04报告参数t在1和2之间的结果。此外，在所有实验中，GCN模型APPNP95292. 二十七度1292. 16±00。1191. 十九度12GCN55269岁。07± 00。 1368. 21± 00。1247。五十二度。16公司简介−3SGC 55269岁。九十七度。0269岁。十九度0248. 38±00。02使用了32个隐藏层，学习率为10被APPNP50269岁。六十八度。1368. 93± 00。1247。77 ±00 30每100个时期减半该模型被训练了400时代报告的值是平均值和标准偏差。花GCN452八十98± 00。288070± 00。3182. 六十八度。47SGC 50281. 二十七度0781. 01±00。0783. 49±00。09执行超过10次，每次迭代都有一个早期的-APPNP45281. 二十七度248099± 00。2682. 86 ±00。33GCN25107. 58± 227502. 32± 06。960176 ±00。99停止机制，以防模型达到100%准确度MPEG-7SGC202九十六。45±00 15九十六。37±00 1594 56±00 16在训练标签2.4.3. 结果在两个实验中评估了所提出的方法APPNP751三十二39± 398112. 71± 200904. 82 ±0877GCN85139岁45± 00 3438九十七度。33 59. 22 ±00 22CoraSGC 851四十五02±00。1544. 81±00。1562. 96±00。09APPNP65144. 58± 00。1944. 39± 00。186246 ±00。18GCN601三十二84± 00。二十四三十二六十四度。246111 ±00。20CiteseerSGC 651三十五50±00。08三十五34±00 0862. 95±00。07超过七个不同的数据集。在第一个实验中，在所有场景中，邻域大小固定为k=50APPNP651三十五四十二度。2135二十三度216273 ±00。14GCN 401二十六岁31± 00。0725。37±00 0762. 95±00。11iOS. 表1给出了结果。 SGC模型得到PubMedSGC45128岁59±00 08二十二岁41± 00。0752. 15±00。04除了Cora和PubMed之外，几乎每个数据集中的所有度量的最佳值，并且GCN模型无法处理MPEG-7数据集，可能是因为距离矩阵被用作特征矩阵。在第二个实验中，邻域大小k在[10.. #21030;，寻找更好的结果。表2给出了获得的结果。同样，在这种情况下，SGC模型在几乎每个数据集中都取得了最佳结果。4.4. 与其他方法SGCC与六种不同的聚类方法进行了比较，考虑到传统和最新的方法：[22]，[25]，[23]，[24]，[25]，[26]，[27]，[28]，[29]，FINCH是最近提出的一种基于第一近邻关系的方法SDCN和MinCutPool都是基于最近的GCN模型。所有比较的方法都使用预定义的参数，并且在可能的情况下，使用类的确切数量作为期望的聚类数量。2参数选择在补充资料中讨论。3在补充材料中包含的消融研究中分析了我们提出的方法中每个组件的效果15643APPNP651二十七岁41± 00。3925. 十二度1362. 07 ±00。41表3显示了在图像数据集上获得的结果。在相同标准差内的所有最佳结果都将突出显示。在评估过程中，我们无法使用 SDCN 方法对 MPEG-7 和使用MinCutPool方法对CUB 200获得有效结果可以观察到，所提出的SGCC在所有数据集中的所有指标上都取得了最好的结果。表4显示了引文网络数据集的结果。类似地，所有在相同标准差内的最好结果都被突出显示。在这种情况下，提出的SGCC方法在Cora和CiteSeer数据集上实现了所有测量的最佳结果。在PubMed数据集上，考虑到ACC措施，SGCC取得了最好的结果。4.5. 视觉分析在视觉分析中，考虑到基于GCN的嵌入，我们采用降维方法来表示所提出的方法对特征空间的2-D投影的影响。图3显示了视觉-15644± ± ± ± ± ± ± ± ± ± ±±± ± ± ± ± ± ± ±±± ± ± ± ± ± ± ±±表3.SGCC、经典和最新聚类方法之间图像数据集的NMI、V-Measure（VM）和ACC值的比较03The Dog（1967）03 The Dog（1983）±00。46±00。42±01。07±00。19±00。14±00。44±00。93±00。99±02。06±00。32±00。37±00 93电话：+86-021 -88888888传真：+86-021 - 88888888HDBSCAN（2017）X75.66 54.91 35.28 49.94 14.89 04.30 38.60 15.98 13.52 90.16 79.32 64.92Finch（2019）X90.06 81.13 52.32 77.23 25.65 04.57 79.60 66.54 52.20 87.04 83.72 60.6487.43 86.95 81.51 62.62 61.23 31.76 67.02 66.73 36.91±00。36±00。32±00。74±00。21±00。18±00。62±00。99±00。99±00。5885.76 77.71 33.96-72.55 72.46 74.54 30.07 06.59 00.02该方法92.62 92.4490.8069.97 69.19 48.38 81.27 81.01 83.49 96.45 96.3700.0600.0600. 0400.02 00.02 00.07 00.07 00.09 00.15 00.15 00.1692.27 92.1691.1969.68 68.93 47.7781.27 80.99 82.86 32.39 12.71 04.82±00。12±00。110.12± 0.12±00。13±00。12±00。300.24 ±0.240.26 ±0.26±00。33±39。81±20。09±08。77表4.NMI，V-Measure（VM）和ACC结果在SGCC，经典和最新聚类方法之间的引文数据集的比较03 The Dog（1983）04. 8004.57030804.七九零四。81061600.0700.0800. 012019 - 04 - 25 10：00：00HDBSCAN（2017）X04.84 00.39 29.8740.0101.29 21.52 01.38 00.06 39.842019年10月20日星期一上午10：00 - 11：00深圳证券交易所（2020）X&A21.65 21.17 38.49 30.96 30.69 58.09 07.64 00.02 39.94±00。16±00。16±00。18±00。10±00。10±00。10±00。28±00。00±00。00MinCutPool（2020）X&A41.68 40.41 39.43 28.51 28.20 35.01 20.66 20.29 46.8401.960190018202. 7802. 7502. 34202901100276该方法国家电网公司（GCN）X&A 39.45 38.97 59.22 32.84 32.64 61.11 26.31 25.3762.95±00。34±00。33±00。22±00。24±00。24±00。20±00。07±00。07±00.11国家电网公司（SGC）X&A 45.02 44.81 62.96 35.50 35.34 62.9528.59 22.41 52.150.15± 0.150.15± 0.150.09± 0.090.08± 0.080.08± 0.080.07± 0.07±00。08±00。07±00。04国家电网公司（APPNP）X&A44.58 44.39 62.4635.42 35.2362.73 27.41 25.12 62.07±00。19±00。19±00。180.21± 0.210.21± 0.21±00。14±00。39±00。十三度41来自两个数据集的原始特征和基于GCN的特征的化：弗劳尔斯和科拉使用t-SNE[36]算法进行降维。原始GCN图3.目

下载后可阅读完整内容，剩余1页未读，立即下载