图像聚类方法：分层图神经网络模型

90 浏览量更新于2023-10-13 收藏 674KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3467用于图像聚类的学习层次图神经网络邢一凡 * 何彤*天军肖永新王元军熊伟夏大卫维普夫郑张斯蒂法诺索亚托亚马逊网络服务{yifax，htong，tianjux，yongxinw，yuanjx，wxia，daviwipf，zhaz，soattos} @ amazon.com摘要我们提出了一个层次图神经网络（GNN）模型，学习如何聚类一组图像到一个未知数量的身份使用一个训练集的图像注释标签属于一个不相交的身份集。我们的分层GNN使用一种新的方法来合并在每个层次上预测的连接组件，以在下一个层次上形成一个新的图形与完全不受监督的层次聚类不同，分组和复杂性标准的选择由此产生的方法，Hi-LANDER，实现了平均49%的改善F-分数和7%的增加归一化互信息（NMI）相对于当前的基于GNN的聚类算法。另外，现有技术的基于GNN的方法依赖于单独的模型来预测链接概率和节点密度作为聚类过程的中间步骤相比之下，我们的统一框架实现了三倍的计算成本降低我们的训练和推理代码发布1.1. 介绍聚类是无监督学习的支柱。它包括根据手动指定的标准对数据点进行分组。在没有任何监督的情况下，问题是自我参照的，结果由分组标准的选择来定义。不同的标准产生不同的解决方案，没有独立的验证机制。即使在给定的标准内，聚类通常也会根据复杂性度量产生无监督聚类方法的一个大分支遵循分层/凝聚框架[41，42，44]，其给出具有不同数据粒度的聚类分区树，但它们仍然需要模型* 表示平等贡献。1https://github.com/dmlc/dgl/tree/master/示例/pytorch/hilander最终单个分组的选择标准我们希望从数据中学习，而不是2显然，这不是我们希望聚类的数据，因为我们没有对它们进行任何注释。相反，它是一组不同的训练数据，Meta训练集，为其给出聚类标签，对应于与测试集中预期的那些不相交的身份。例如，测试集可以是特定用户的未标记的照片集合，对于该特定用户，存在我们希望发现的离散身份的真实集合，例如他们的家庭成员。虽然这些家庭成员以前从未见过，但该系统可以在训练期间访问不同的照片集，并标记不同的身份。我们的目标是利用后者标记的训练集来学习如何聚类具有未知数量的不同身份的不同测试集。这与“开集”或“开放宇宙”分类密切相关我们提出了第一个层次/凝聚聚类方法，使用图神经网络（GNNs）。GNN是学习如何聚类的自然工具[51，57，56]，因为它们提供了一种使用训练数据预测图的连通性的方法在我们的例子中，该图描述了测试数据之间的连通性，连接的组件最终确定聚类。我们的分层GNN使用一种新的方法来合并在层次结构的每一级预测的连接组件，以形成一个新的图形在下一级。我们采用GNN来预测每个级别的连接性，并迭代直到收敛。虽然在无监督凝聚聚类中，当所有聚类被合并到单个节点[42，44]时，或者当达到任意模型复杂度标准的任意阈值时，会发生收敛，但在我们的情况下，收敛是由训练集驱动的，并且当没有更多的边被GNN添加到图中时会发生收敛。不需要定义任意的模型选择标准。相反，聚类的2当然，每一种无监督推理方法都需要归纳偏差。我们的问题自然源于元训练集的监督和推断集群的密度。3468过程是由训练集中的地面真值归纳确定的。与使用GNN [51，57，56]的先前聚类工作不同，我们执行全图推理来联合预测两个属性：边缘的链接概率和节点的密度，定义为在节点的邻域内共享相同标签的相似顶点的比例[14，3，56]。密度建立节点之间的相对顺序[3，56]，然后用于指导连接性。在两个地面实况聚类之间的边界处的节点，或者其大多数邻居属于不同类别的节点，往往具有低密度，并且因此具有与其邻居的低链接概率期望先前的方法预测边缘连接作为许多采样子图上的节点属性[51，56];我们直接推断完整图并预测连接作为边缘的属性此外，以前的方法需要单独的模型的两个属性的链接概率和节点密度，而我们的推断他们联合。这是有益的，因为在由基础事实定义的两个属性之间存在强相关性。联合模型还实现了卓越的效率，这使得能够实现否则将是棘手的分层推理。与两个单独的模型相比，我们实现了从256s到36s的加速，如表1所示。在准确性方面，与基于GNN的最新聚类方法[56，51]相比，我们的方法在面部和物种聚类基准上实现了F分数从0.390到0.585的平均49%的改善，以及NMI从0.778到0.836的平均7%的增加，如表3所示。此外，通过我们对未标记数据的聚类生成的伪标签可以用作正则化机制，以将面部验证误差减少14%，如表4所示，与现有技术的聚类方法相比，从0.187减少到0.159，从而使我们能够接近0.136的完全监督训练的性能在下一节中，我们总结了我们在先前相关工作的背景在第3节中，我们介绍了我们的论文的技术创新，并在第4节中，我们详细介绍了我们的实验结果。我们在第5节中讨论了我们方法的失效模式和局限性。2. 相关工作和贡献无监督视觉聚类传统的无监督聚类算法利用对象之间的相似性概念，例如K均值[27]和分层聚类方法[32，41，37]。[5]扩展了层次聚集聚类（HAC）[41]，其中距离基于节点对采样概率。基于持续同调[61]和奇异摄动理论[33]的方法[14，3，8]利用定义为邻域内相似节点的比例的密度的概念。谱聚类方法[33，17，47]用低维近似图割通过特征分解嵌入亲和矩阵。Graclus [13]提供了一种具有多级加权图切割的谱聚类的替代方案。 H-DBSCAN [8]重新移动[14]中的距离阈值调谐。FINCH[39]提出了第一邻居启发式算法，并生成聚类的层次结构。最近的无监督方法[23，24]利用深度CNN特征。[60]提出了秩序距离测量。我们的分层设计与[39]关系最大，然而，我们使用可学习的GNN模型，而不是链接每个节点的第一邻居进行边选择的启发式方法，这种方法容易出错，并且在处理大规模复杂集群结构时能力有限。基于监督图神经网络的方法[51，57，59，57，56]在k-NN图上执行聚类。与仅产生单个分区的这些方法相比，我们的方法生成聚类分区的层次结构，并利用从“元训练”集的自然粒度学习的收敛标准来处理看不见的复杂聚类结构与需要两个单独的模型来执行边缘连通性和节点密度估计的[56]相比，我们的方法使用具有更高准确度和效率的单个模型联合预测这两个量（表1）。此外，[51，56]将链接估计为子采样图上的节点属性，而我们将其估计为通过全图推断自然并行化的边缘属性，并显着减少运行时间（表5）。 [1]使用两步过程，首先使用GNN细化视觉嵌入，然后运行自上而下的分裂聚类，测试仅限于小数据集。相比之下，我们的方法执行聚类作为图边缘选择过程。分层结构也在许多视觉识别任务中被广泛研究[34，21，28，53，29，15，31，22]。在本文中，我们的层次结构是由多个k-NN图，从元训练集学习，聚类和节点聚合，这是在图表示学习文献[58，9，4，19，18，25]中也探索了分层表示。在那里，重点是学习更强的特征表示以将图[58]或输入节点[18]分类到类标签的闭合集合中然而，我们的目标是GNN在处理复杂图结构方面的表现力被证明有利于许多视觉学习任务[20，16，10，50，45，12，54，55，11，6，52]。[16]样品并聚集相邻节点的嵌入。[45]进一步的进展[16]添加注意。[10]使用基于[16]的批量训练方案来降低计算成本。[50]使用边缘卷积和通过最大池化的特征聚合来执行节点分类我们的方法很难-3469i=1i=1----||⊂…共享参数kNN图着陆器着陆器图片Hi-LANDER图1.提出的层次聚类框架Hi-LANDER。图像被嵌入到一个k-NN图与他们的视觉特征。绿色、黄色和蓝色图像边界说明它们属于三个不同的类;图节点的颜色也是如此。在层次结构的每一级，我们的基础LANDER模型输出一组选定的边缘，从而中间集群。然后将这些集群分组为超级节点，作为下一级的输入该过程继续直到收敛，即当没有更多的边被添加到图中时。LANDER的权重在层次结构的多个级别之间共享。最好用彩色观看。来自[50]，因为我们使用了一个统一的模型，该模型利用两个监督信号联合学习节点密度和边缘链接。此外，我们的GNN学习的边缘选择和收敛标准的层次agglomera- tive过程。贡献我们提出了第一个层次结构的GNN为基础的聚类。我们的方法部分受到[39]的启发，将图细化为由子节点形成的超级节点，用于节点和边属性预测的独立模型。这些创新共同负责提高聚类性能的平均49%的F分数和7%的NMI超过现有的基于GNN的方法。3. 方法3.1. k-近邻图聚类聚类并在超级节点图上循环运行聚类，但不同之处在于我们使用学习的GNN来形式上，给定N个图像的集合D={Ii}N对应的视觉嵌入F={fi}N及其，我们先在每个循环步骤预测子集群，而不是任意的手动分组标准。在收敛时，我们将超级节点上的预测聚类标签从顶层图追溯到原始数据点，以获得最终的聚类。我们的方法收敛到一个集群的基础上建立的粒度水平的训练集中的地面真相标签虽然身份是不同的测试集，他们是足够的隐式定义的复杂性标准的聚类在推理时，而不需要一个单独的模型选择标准。为了高效地运行GNN模型的多次迭代，我们设计了一个基本模型，该模型近似共享相同标签的密度对于额外的正则化和细化边缘选择是有用的我们把这个基础模型称为链接近似和密度估计细化（LANDER）模块。最后，我们表示我们的分层聚类方法 Hi-LANDER，图1说明了它的结构。我们的方法的关键创新是两方面的：1）我们产生簇分区的层次结构，而不是[57，51，56]的单个平坦分区; 2）我们执行全图推理以联合预测节点和边缘的属性，而先前的GNN方法使用子图推理。构建亲和图G=V，E，其中V=N，通过关于. r. t确定的k -最近邻。余弦相似性，即，归一化的视觉嵌入的内积叮。每个图像（例如，一个面部裁剪）需要一个对象来聚类并且表示图中的节点，其中节点特征是其视觉嵌入fi。边将每个节点连接到其k个邻居。根据[14，8，3，39，51，56，35]中的聚类范例，函数将亲和图G和节点特征F作为输入，并产生边子集E′E，即E′=（G，F）。然后将得到的图G′=V，E′分成连通的分量，每个分量对应于一个节点簇。我们的方法是建立在这个基于k-近邻图的聚类范式。3.2. Hi-LANDER的层次综合为了对数据集中聚类器的自然粒度级别进行建模，我们提出了对上述基于单级k-NN的聚类范式的分层给定一组初始视觉嵌入F和小的固定值k，3，我们迭代地生成图序列G1={V1，E1}和对应的节点特征H1={h，i}，其中i=1。. . |且l = 1。|and l = 1 . . . ，使用3我们强调，k是一个超参数调整与元训练/验证集。3470--←←我我⟨⟩K我 KIJ我基簇函数ψ和聚集函数ψ。Al-m1总结了所提出的分层概括过程。首先，我们将G1定义为3.1节中的G，并且H1={fi}。函数执行以下操作埃勒= （G1 ，H1 ），（1）以节点特征和k-近邻图作为输入1，并产生所选的边子集E1’。结果，图G′l=Vl，El′被分裂成多个连通分量。我们定义连通分量的集合G′as {c（l）} |V1+ 1|其中c（l）是第i个元素。算法一：Hi-LANDER集群输入N，F，k;ll;H1F;而不收敛Gl←k-最近邻（Hl，k）;El′←（Gl，Hl）;//LANDERG′l←连通分支（El′）;Hl+1←ψ（Hl，G′l）;l←l+1;端ID← id-传播（{Gl}，{G′l}）;l ii=1i退货ID为了生成Gl+1，我们得到Vl+1，Hl+1和E1+ 1如下。首先，我们定义Gl+1中的第i个节点，v（1+ 1），作为一个实体，代表连接的组件-我nentc（l）.接下来，我们通过聚合函数ψ生成新的节点特征向量，其执行以下操作：Hl+1=ψ（Hl，G′l），（2）它将每个连接分量c（l）中的节点特征分别聚合成单个特征向量。最后，我们通过搜索上的k-最近邻来获得El+1。Hl+1，并将每个节点连接到其k个邻居。当不再添加新的边时，即，生成收敛。，El′ =. 我们定义L为收敛序列的长度对于最终的集群分配，从G_L开始，我们将集群标识（ID）i分配给连接的组件c（L），其将IDi传播到其所有节点使用由单个图形编码器产生的嵌入。然后将连接和密度估计通过图解码步骤，以确定边连接性并因此确定聚类预测。下面详细介绍我们的Lander设计。图编码对于具有对应的输入特征hi的每个节点vi，图注意力网络（GAT）的栈[45]层将每个hi编码为新特征或嵌入h′i。然而，一般来说，我们发现替代编码器（例如，vanilla图卷积网络层）产生类似的性能（参见补充）。对于E中的每个边（vi，vj），我们将从编码器获得的源节点和目的地节点特征连接为[h′i，h′j]，其中[·，·]是连接运算符。然后，我们把它输入（L）（L）我（L）（L）多层感知器（MLP）层，随后是软-{vj|vj∈ci{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 然后，每个vi传播它的标签最大转换以产生链接概率对应的连通分量c（L-1）pij =P（yi=yj），即，估计的概率，上一次迭代。这个ID传播过程最终为V1中的每个节点分配一个集群ID，并且这个分配被用作最终的预测集群。在以下部分中，我们描述了基本集群函数Φ、聚合函数Φ的设计以及我们如何使用Meta训练集来学习整个Hi-LANDER模型。我们将LANDER引用到我们的底层单级模型，类似于Hi-LANDER的单个迭代。3.3. 实现集群功能为了达到高精度，我们将设计为可学习的该边链接共享相同标签的两个节点。我们还使用该值来预测节点伪密度估计di，它衡量的相似加权比例在其邻域中的同类节点。4为此目的，我们首先将节点Vi和Vj之间的相似性aij量化为它们各自的节点特征的内积，即，ai ，j=hi，h，j。随后，我们计算对应的边缘系数为eij=P（yi=yj）−P（yiyj）（3）其中j索引v的k个最近邻居。那么我们可能GNN模型在有监督的环境下进行聚类处理具有复杂的簇结构，其中V中的每个节点vi带有聚类标签yi，但仅在元训练中集与无监督聚类方法不同，我们不-定义di为d=1Σej=1我·a.（四）生成一个明确的分组标准，但要从数据中学习。最先进的监督聚类方法[51，56]表明，密度和链接信息IJ3471是学习GNN模型的有效监督信号，我们使用它们两者。然而，与之前的工作不同，为了提高效率和准确性，我们联合预测了这两个量该估计器被设计为近似地面真实伪密度di，其通过简单地替换 Eq. 4 其中 eij=1 （ yi=yj ） −1 （ yiyj）使用4注意，di只是一个近似密度，而不是一个严格的和为1的非n-g- at-i-v密度3472我我EEE≤LL--L--------（l）我Mi我|Ci|J我我我我我Σ| |地面实况类标签，其中1是指示器函数。通过构造，只要最相似的邻居具有共享标签，di就很大;否则，它是小的。重要的是，通过用eij经由pi j 来近似di，所得到的联合预测机制在训练期间减少了预测头的参数（参见下面的3.5节），从而允许两个任务彼此受益。一旦我们获得链接概率和节点密度估计，我们将它们转换为最终的clus。第一层，h~ （0）=h′ （0）=fi，其中fi是视觉嵌入特征。节点v（l+1）的基聚类函数的下一级输入特征是峰值特征和平均特征的级联，i。e. ，hl+1=[h〜（l+1），h¯（l+1）]。我们-发现直接使用其中一个特性在一些验证集上引入了与串联类似的性能，并且我们将其作为超参数。的同一性特征h（l）可用于识别相似节点通过下面的解码过程进行解码现有方法依赖于¯（l）在类似的解码步骤[3，56]上;然而，在此我们调整该过程以并入我们的联合密度和链接年龄估计。首先我们从E′=开始。Giv eneij，di，pij和边连接阈值pτ，我们首先定义节点vi的候选边集合E（i），而平均特征h是提供了群集中所有节点的信息概述3.5. Hi-LANDER学习因为超级节点的合并特征，h~（l+1）和h ~（l +1）是相同的。h¯（l+1），a总是位于相同的视觉嵌入空间E⑴={j|（vi，vj）∈E且d（i）≤d（j）且p（ij）≥pτ}.（五）我由于节点特征h（l）上一级的相同对于任何i，如果E（i）不为空，我们取j=argmaxeij（6）j∈E（i）并将（vi，vj）加到E′。我们强调，边缘连接阈值pτ的选择是仅在从元训练集分离的验证集上的超参数调谐过程。它在元训练后保持固定这不同于无监督凝聚聚类中的任意参数选择，其中选择标准可能需要在不同的测试集上改变。此外，（i）的定义确保具有非空（i）的每个节点vi恰好向E’添加一条边。另一方面，具有空（i）be的每个节点都是没有传出边的峰值节点。同时，条件didj在建立连接中引入了归纳偏差。因为低密度的节点往往那些具有与其它类重叠的邻域的类或多个类之间的边界上的节点，到这样的节点的连接通常是不期望的。在对每个节点进行完整的遍历之后，E′形成一组连接的组件G′，其用作指定的集群。在学习元训练集的聚类分布的自然粒度时，GNN模型参数可以在分层结构的多个级别上共享给定k和地面真值标签，我们可以确定分层聚集产生收敛的级别L因此，我们相对于算法1中描述的算法来构建图序列Gl，唯一的区别在于我们使用地面实况边连接埃格特在所有水平-els和因此用于图构造的真实中间簇G′gt。我们初始化LANDER，并在所有中间图Gl上训练它。在一个时期中，我们循环通过每个Gl，在图Gl上执行前向传递，计算如接下来将定义的损失，然后用反向传播更新模型参数。训练损失Hi-LANDER模型使用下式给出的复合损失函数进行训练L=Lconn+ Lden。（八）第一项conn通过平均每边连通性损失对成对链路年龄预测提供监督3.4.聚合函数ψ回想一下，我们将c（l）表示为第i个连通的com。1Lconn=−Elij（v，v）∈E、（9）iijG′l. 为了构建Gl+1={Vl+1，El+1}，我们首先构造：将Gl中的c（l）vert到Vl+ l中的节点v（l+ l）。我们定义两个节点其中Iij是形式为我我新节点的特征向量，即身份特征h~（l+1）和平均特征h′（l+1）为L=.qijlogpij+（1−qij）lo g（1−pij），如果di≤dj。我h~（l+1）=h~（l）和我h¯（l+1）=1Σh~（l），（7）我ij0，否则（十）这里，地面真值标签qij=l（yi=yj）指示由边连接的两个节点是否属于3473我（l）其中mi=argmax（l）d（l），表示峰值节点j∈cij连接分量c（l）的索引。此外，在相同的聚类，并且可以如先前所描述的跨所有级别计算（类似地，对于从q_ij值导出的地面实况di）。同时，第二个任期Ldenrep-3474denLL|V|我我2Σˆ2表示由下式给出的邻域密度平均损失1|V|L=||d−d||.（十一）i=1对象检索模型[7]。补充资料表6显示了所有数据集的详细统计。对于所有聚类训练集，我们保留20%用于验证和超在训练过程中，conn和den都是来自所有级别的数据的平均值。注意，先前的工作已经使用概念上相关的损失函数来训练基于GNN的编码器[56];然而，我们的是唯一的端到端框架，以复合方式这样做，而不引入单独的网络或附加参数。4. 实验结果我们评估Hi-LANDER跨聚类基准，涉及图像人脸，视频人脸和自然物种数据集。首先，我们展示了我们的方法对早期停止的敏感性，并说明它只用于降低复杂性而不影响准确性。我们还说明了模型组件的消融实验。然后，我们在相同的训练测试和未知的测试分布的设置下评估聚类性能我们进一步显示了 Hi-LANDER的优势，通过半监督人脸识别任务与伪标签训练。最后，我们分析了运行时成本。我们与以下基线进行比较。非监督方法包括DB-SCAN [14]、ARO [35]、HAC [41]、H-DBSCAN [8]、Graclus [13]和FINCH [39]，其中后四种是分层基线。监督基线包括 L-GCN [51] 、 GCN-V [56] 和 GCN-E[56]。基线的超参数被调整以分别报告它们的最佳性能。例如，我们调整H-DBSCAN的最佳MinPts参数。受监督的GNN基线具有利用验证集（元训练集的一部分）调整的最佳参数，例如，我们调整GCN-V/E的最佳 k-NNk和τ参数4.1. 评估协议数据集对于人脸聚类，我们使用大规模图像数据集TrillionPairs [2]并随机选择十分之一（660K张人脸）进行训练。为了测试，我们使用IMDB（图像，120万张脸）[48]和Hannah（视频帧，20万张脸）[36]。Hannah与TrillionPairs训练集没有重叠的个人身份，而IMDB具有小的重叠（小于2%）。所有人脸数据集的特征都是从在TrillionPairs上训练的最先进的嵌入模型[49Trillion-Pairs、IMDB和Hannah的平均集群大小对于物种聚类，我们使用iNaturalist2018 [43]。我们遵循[7]中的图像检索的开集训练-测试分割，其中训练（320K实例）和测试（130 K实例）类是不相交的两个分裂具有相似的聚类大小分布，平均每个类56个实例。特征提取自ResNet50预训练的glint和IMDB数据集用于人脸识别的伪标签训练，并使用openset IJBC [30]基准进行评估评估指标对于聚类，我们报告了归一化互信息（NMI）[46]，捕获了同质性和完整性。我们还报告了成对和双立方F-分数，这是两种类型的调和平均值的精度和召回的聚类预测，表示为Fp和Fb。本文提出了标准的人脸识别方法，包括在不同的误匹配率（FMR）下的误匹配率（FNMR）和在不同的误识别率（FPIR）下的误识别率（FNIR）。4.2. 实现细节我们使用验证集来选择我们的最佳Meta训练超参数。k被设置为10用于k-NN图的构建，并且对于所有设置和测试集的推断是固定的。对于人脸聚类，pτ设置为0.9，对于物种，p τ人脸和物种聚类都使用身份特征聚合（详见第3.4节）。所有验证集都是元训练集的一部分，在超参数调整期间，我们无法访问任何测试信息。由于篇幅限制，对这些超参数的敏感性分析和其他详细信息包含在补充资料中。4.3. 消融实验对早期停止的敏感性当没有更多的新边缘添加时，所提出的聚集过程收敛。虽然达到这种收敛没有一个明确的终止标准，我们观察到，该过程可以提前终止，而不会影响最终的聚类精度。图2显示了模型对提前停止的敏感性。两条垂直的黄色虚线表示满足早期停止和最终收敛标准的迭代。聚类性能（Fp/Fb/NMI）在早期停止的迭代之后达到平台，并且与最终收敛相比，预测的准确度和聚类数没有显著差异。因此，仅仅出于计算复杂性的考虑，如果计算成本是一个问题，我们提前终止聚集。这种选择既不是任意的终止标准，也不是复杂性/准确性的权衡，相反，它仅仅是一种计算上的权宜之计。由于在早期停止时没有性能损失，因此我们在所有后续部分中报告早期停止的性能。参数整定完成后，我们使用固定的超参数对整个训练分割进行我们用深-3475≤我们的早期停止标准基于以下观察结果。在所有聚类都是k叉树的情况下，在一个级别上创建的新边的数量应该是上一级中创建的边数的1/k。这与合并多个中间集群时早期层次结构中的行为相匹配。在最后几次迭代中，模型在精确收敛之前为几个级别添加了非常少数量的边缘因此，如果在任何水平处，所创建的新边缘大于先前边缘的1/k，则可以选择提前停止聚集。Hannah对早期停止的敏感性方法IMDB-测试-SameDist iNat 2018-测试FPFBNMIFPFBNMIDBSCAN [14]0.0640.0920.8220.1000.1160.753ARO [35]0.0120.0790.8210.0070.0620.747HAC [41]0.5980.5910.9040.1170.2450.732H-DBSCAN [8]0.4230.6280.8950.1780.2410.754格拉卢斯[13]0.0140.0990.8290.0030.0500.735芬兰语[39]0.0010.0010.1550.0140.0140.283LGCN [51]0.6950.7790.9400.0690.1250.755GCN-V [56]0.7220.7530.9360.3000.3600.719GCN-V+E [56]0.3450.5670.8640.2730.3530.719Hi-LANDER0.7560.7920.9450.3300.3500.774表2.相同的训练测试分布聚类性能。前六行显示无监督基线（后四行是分层的，1.09.4iNat 2018-测试对提前停止的1.0最后四行显示监督GNN0.80.60.40.20.00123456提前终止决赛9.29.08.88.68.40.80.60.40.20.001234567提前终止决赛10.8810.8610.84方法（包括我们的）。Hi-LANDER优于之前的SOTA无监督和监督GNN方法，F分数平均分别提高了35%和3%结果Hi-LANDER始终优于之前的SOTA无监督和监督GNN基线。监督迭代收敛迭代收敛图2.对早期停止的敏感性。两条垂直的黄色虚线表示满足早期停止和最终收敛标准的迭代左y轴显示聚类预测的准确度，右y轴显示预测的聚类数（对数标度）。早期停止用于在模型接近收敛之后减少进一步的迭代。方法汉娜运行时FPFBNMISECGCN-V+E [56]0.0620.2240.640256.2着陆器0.0650.2340.64444.9Hi-LANDER0.7140.6770.79736.9表1.消融实验：1）联合预测值与两个单独模型的推断值相比，2）层次值联合推理的价值我们检查了我们的单级LANDER模型中联合推理的效果，与表1中使用两个单独模型的先前GNN [56]相比。联合模型的性能优于基线，F分数提高了5%，同时将运行时间减少了五倍。层级设计的价值我们在表1中检查Hi-LANDER中层级设计的效果。比较第二行和第三行，将LANDER与我们的分层方法相结合，得到Hi-LANDER，通过使用具有学习收敛的不相交元训练集对数据粒度进行建模，F分数从0.234显著增加到0.677，NMI从0.644增加到0.8104.4. 聚类性能在这里，我们将Hi-LANDER与最先进的非监督和监督方法进行比较，其中训练和测试数据的聚类大小分布相似。对于面部，我们对IMDB的子集进行采样以匹配Deepglint的训练分布，并将该子采样测试集命名为IMDB-Test-SameDist。对于物种，我们使用iNat 2018-Train和iNat 2018-Test进行训练和测试，因为它们遵循相同的聚类大小分布。表2显示在这种设置中，基线比无监督的基线表现得更好。我们假设这是由于通过在标签注释数据集上进行GNN训练来处理复杂集群结构的方法汉娜IMDbiNat 2018-测试FPFBNMIFPFBNMIFPFBNMIDBSCAN [14]0.0410.1280.5460.0570.1180.8510.1000.1160.753ARO [35]0.0010.0180.4830.0120.1030.8490.0070.0620.747HAC [41]0.1970.4750.5210.5920.6240.9230.1170.2450.732H-DBSCAN [8]0.1120.2960.5260.3950.6410.9120.1780.2410.754格拉卢斯[13]0.0010.0040.4520.0180.1310.8570.0030.0500.735芬兰语[39]0.2650.2580.3380.0010.0010.0890.0140.0140.283LGCN [51]0.0020.0980.4550.6650.7710.9460.0300.0760.747GCN-V [56]0.0560.2180.6370.6340.7680.9480.2690.3520.719GCN-V+E [56]0.0620.2240.6400.5890.7320.9400.2520.3380.719Hi-LANDER0.7140.6770.7970.6980.7780.9480.2940.3520.764表3.具有未知测试数据分布的聚类。在 iNat 2018-Train-DifferentDist上训练iNat 2018-Test的监督方法。Hi-LANDER优于SOTA GNN监督和无监督方法，平均F分数提高了49%和47%。在Hannah上，测试分布与元训练中的测试分布非常不同，我们将F分数从0.224提高到0.677，NMI从0.640提高到0.797。4.5. 具有未知测试数据分布的聚类我们还报告了测试时间分布未知且与元训练不同的设置下的聚类性能。也就是说，不能使用测试时间信息预先调整参数（诸如GCN-V/E中的τ和k-NNk对于人脸聚类，我们使用TrillionPairs-Train进行训练，并在Hannah和IMDB上进行测试。对于物种，我们对iNat2018-Train的子集进行采样，以获得与iNat 2018-Test截然不同的训练时间簇大小分布，并将其命名为iNat2018-Train-DifferentDist 。表 3 说明了结果。 Hi-LANDER在Hannah上的表现优于先前的监督方法，其中集群大小的分布这是由于Hi-LANDERNMIFpFb#集群NMIFpFb#集群集群数（log）NMI / Fp /FbNMI / Fp /Fb集群数（log）3476在补充图1中）。一些无监督的基线，如H-DBSCAN和HAC，在Hannah上优于有监督的基线，显示出更好的泛化能力。尽管是一种有监督的方法，Hi-LANDER优于所有无监督的基线，这是由于我们统一的GNNLANDER模型的强大表达能力。表4.IJBC上的人脸识别[30]。Hi-LANDER的性能优于所有基准，并比现有技术的最佳结果提高了14%的误差减少。使用Hi-LANDER生成的伪标签训练的模型使性能（0.159）更接近完全监督训练的下限（0.136）。4.6. 基于伪标签的我们遵循类似于[59，38，57]的设置，用于使用伪标签训练的人脸识别从通过一些标记的数据集学习的初始表示开始5人脸识别实验包括以下步骤：1）从在TrillionPairs上学习的初始人脸识别模型开始。2)在TrillionPairs上训练聚类模型或使用具有初始面部表示的非监督聚类方法3)在IMDB上生成伪标签（删除TrillionPairs4）通过伪标签在IMDB上训练人脸识别5)在开放集IJBC基准上评估所学习的面部表示。表4显示了结果。我们还报告了使用人类标记数据在IMDB上进行完全监督训练的下限与最佳基线相比，Hi-LANDER实现了14%的误差减少。有趣的是，使用Hi-LANDER的伪标签训练将性能提高到0.159（验证FNMR@FPIR1e-4），比任何基线都更接近0.136的完全监督训练的下限。4.7. 运行时分析我们将Hi-LANDER的运行时间（秒）与所有基线进行比较（表5）。硬件和软件规格包含在补充资料中。的复杂性由我们的聚类或训练集的任何其他确定性或随机处理生成的伪标签跨越与训练集相同的Sigma代数，因此当用伪监督训练分类器时，然而，伪标签捕获训练过程的归纳偏差，因此作为正则化器，虽然不添加信息，但改善了泛化，如经验所示表5.表3中所有基准测试的运行时比较（秒）。以上数字来自Hi-LANDER，具有提前停止功能。我们的方法比大多数基线更快，与GCN-V[56]，FINCH[39]和Graclus[13]相当。由于Hi-LANDER逐层运行速度更快，因此引入的多层次结构不会带来额外的开销，每个层次后剩余的节点数量更少。5. 讨论所提出的聚类方法的目的是提供一个丰富的表示未标记的数据，从一个注释的训练集使用感应GNN代表了一种自然的工具，因为它们允许从不相交的数据集训练输出图结构的模型。由于聚类问题本质上是不适定的，因为没有唯一的“真”聚类，我们的目标是提供一个丰富的层次表示，让用户更多的为了解决跨层次复制基本图操作的计算挑战，我们已经提出了提高效率的当前基于GNN的方法虽然com-我们的方法的复杂度是O（kN），与GNN聚类的香草平面版本相同，全图推理是一个自然的并行化，并显着减少了运行时间相比，现有的GNN与子图推理。当测试数据的分布与训练中的分布完全不同时，Hi-LANDER会受到所有归纳方法的常见故障模式的影响。此外，当前节点特征聚合采取平均的形式，而可能存在更复杂的方法，例如用于更多信息聚合的可学习注意力。即便如此，我们的目标是尽可能减少任意选择的数量，并将最关键的设计决策推迟到数据中。一是聚类准则的选择。这是由训练集继承的，通过简单的分类损失。数据分区的粒度级别也是如此。虽然我们使用早期停止，我们这样做，只有在验证的方法，迭代收敛时，解决方案，是没有实质性的不同，从早期迭代中获得的。因此，早期停止不被选择作为设计参数或感应偏置，而仅仅作为减少计算的方式。数据集方法汉娜IMDbiNat 2018-测试DBSCAN [14]480.210,358.0592.6ARO [35]184.41,349.3223.9HAC [41]446.8183,311.86,730.5H-DBSCAN [8]9,865.3390,360.0121,821.0格拉卢斯[13]38.3176.647.4芬兰语[39]74.7300.446.2LGCN [51]3,342.133,211.13,057.4GCN-V [56]41.7204.853.4GCN-V+E [56]256.23,283.3197.5Hi-LANDER36.9511.067.4方法IJBC 1：IFNMR @FMR IJBC 1：N FNIR@FPIR1e-31e-41e-11e-2格拉卢斯[13]0.2900.4610.4670.620芬兰语[39]0.1330.2300.2400.375H-DBSCAN [39]0.1110.2000.1960.312GCN-V [56]0.1070.1810.1810.270GCN-V+E [56]0.1100.1870.1910.291Hi-LANDER0.0910.1590.1620.250全监督0.0720.1360.1360.2353477引用[1] https://cs.nyu.edu/media/publications/choma_nicholas.pdf。2[2] http://trillionpairs.deepglint.com/概述。6[3] Mihael Ankerst ， Markus M Breunig ， Hans-PeterKriegel，andJ？r gSande r. 光学：对点进行排序以识别簇结构。ACM Sigmod record，28（2）：49-60，1999.二三五[4] Filippo Maria Bianchi、Daniele Grattarola、Lorenzo Livi和Cesare Alippi。图神经网络中的分层表示学习与节点抽取池。arXiv预印本arXiv：1910.11436，2019。2[5] Thomas Bonald、Bertrand Charpentier、Alexis Galland和Alexandre Hollocou。使用节点对抽样的层次图聚类。arXiv预印本arXiv：1806.01664，2018。2[6] G

下载后可阅读完整内容，剩余1页未读，立即下载