文件分析：该文件包含了一系列数字和几个相关概念的缩写，例如DBSCAN和K-Means

77 浏览量更新于2024-01-22 收藏 889KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9085100959075916059492DBSCAN90K-Means88858680GCN-DGCN-V+ESTAR-FC70706565606055550的情况。04M41M0#训练数据1220个月20M3010- 7节点大规模图上的结构感知人脸聚类沈帅1，2，李万华1，2，朱正1，2，黄冠3，杜大龙3，陆继文1，2，*，周杰1，21清华大学自动化系2北京国家信息科学技术研究中心3XForwardAI{shens19，li-wh17}@ mails.tsinghua.edu.cn; zhengzhu@tsinghua.edu.cn;{guan.huang，dalong.du}@ xforwardai.com;{lujiwen，jzhou}@ tsinghua.edu.cn摘要人脸聚类是一种很有前途的标注未标记人脸图像的方法.近年来的有监督人脸聚类方法虽然大大提高了人脸聚类的准确率，但其性能还远不能令人满意。这些方法大致可以分为基于全局的和基于局部的。基于全局的方法受到训练数据规模的限制，而基于局部的方法难以掌握整个图的结构信息，并且通常需要很长的推理时间。以前的方法无法同时解决这两个挑战。为了解决大规模训练和有效推理的困境，我们提出了STAR-FC方法。具体地说，我们设计了一种结构保持的子图采样策略来探索大规模训练数据的能力，它可以将训练数据规模从105增加到107。在推理过程中，STAR-FC通过两个步骤执行高效的全图聚类：图解析和图细化。第二步引入节点亲密度的概念，挖掘局部结构信息。STAR-FC在310 s内的部分MS 1 M上获得91.97成对F分数，这超过了最先进的水平。此外，我们是第一个在具有20M节点的超大规模图上进行训练的人，并在12M测试数据上取得了优异的推理结果。总的来说，作为一种简单有效的方法，所提出的STAR-FC为大规模人脸聚类提供了一个强有力的基线。代码可在 www.example.com 上获得https://sstzal.github.io/STAR-FC/。1. 介绍近年来，人脸识别取得了巨大的进展[9，28，29，38，39，41]。大规模数据集是人脸识别成功的重要因素，对大规模数据的需求越来越大脸*通讯作者图1：使用不同规模的数据进行训练时的方法比较以及对来自Web-Face 42 M的12 M数据进行测试[55]。所提出的STAR-FC可以充分挖掘大规模训练数据的力量。GCN-V+E无法处理较大的训练图，而GCN-D由于对全局结构信息考虑较少，性能受到严重限制。聚类[22，30，42，48，50，51，52]是解决数据注释问题的自然方法，以便更好地利用大量未标记的数据。人脸聚类也是在社交媒体或其他应用场景中组织和归档大量真实人脸图像的一种可能方法。最近的各种努力已经致力于面对聚类。传统的无监督方法[16，53]包括K-Means [30]和DBSCAN [10]通常依赖于一些手动设计的聚类策略。它们在小数据集上表现良好，但在处理大规模数据时效果较差，如图1所示。最近的研究趋势[12，42，47，49，50]转向基于GCN的监督学习。这些方法都是基于亲和图的，根据GCN输入是否为整个图，可以大致分为基于全局的和基于局部的两类。代表性的基于全局的方法GCN-V+E [47]使用整个图进行GCN训练。如图1所示，与无监督方法相比，它大大提高了人脸聚类性能，但训练数据规模成对F分数9086受GPU内存的限制，这使得进一步探索更大规模训练集的能力变得困难。尽管基于局部的方法（如图1所示的GCN-D [49此外，它将数据组织为重叠的局部子图，这会导致无效推理。对于许多计算机视觉任务[7，8，11，15，25，34]，大规模训练数据是提升性能的最重要引擎之一。随着一些新的大规模基准测试的出现，如Web-Face 42 M[55]，其数据量是MS 1 M [13]的十倍，我们有更多的数据可用于训练。因此，探索这些丰富的训练数据的力量势在必行。对于测试，效率很重要，因此我们渴望执行全图推理。基于上述动机，我们提出了一种结构感知的人脸聚类方法STAR-FC，以解决大规模训练和有效推理的困境。具体地说，我们基于KNN [6]亲和图设计了一个GCN [20]来估计边缘置信度。在此基础上，提出了一种适用于大规模GCN训练的结构保留子图采样策略.在推理过程中，我们通过两个步骤执行人脸聚类：图解析和图细化。在第二步中，节点亲密度被引入到挖掘的局部结构信息，以进一步细化。在推理过程中，为了提高效率，将整个图作为输入。实验表明，通过这些结构感知的设计，STAR-FC不仅可以执行基于样本的训练，而且还可以实现全图推理。通过基于样本的训练，训练数据规模可以增加两个数量级，从105到107甚至更高。如图1所示，随着训练数据的增加，我们的方法得到了不断的改进，最终达到了95.1的成对F分数。有趣的是，我们发现这种采样方法不会导致性能损失，并带来一些额外的准确性增益，因为它增强了模型的泛化能力。在推理中，以全图作为输入，可以保证效率。我们在310s内实现了部分MS1M上的最先进的人脸聚类结果。此外，我们可以在1.7小时内完成对12M数据的推理，从而为人脸聚类提供了强有力的基线。概括起来，我们做出了以下贡献：• 为了充分挖掘大规模训练数据集的能力，提出了一种结构保持的子图采样策略，该策略可以突破训练数据规模从105到107的限制.• 对于推理，我们将整个图作为输入以确保效率。我们将人脸聚类分为两个步骤：图解析和图细化。在第二步中引入节点亲密度来探索局部结构以进一步改进图。• 提出的 STAR-FC 在 310 s 内部分 MS 1 M 上达到91.97F-分数。此外，我们是第一个对2000万数据进行大规模训练的公司，为大规模人脸聚类提供了强大的基线。2. 相关工作人脸聚类人脸聚类作为机器学习中的一个经典任务已经得到了广泛的研究。它提供了一种利用大量未标记数据的替代方法。K-Means [30]、谱聚类[16]、层次聚类[53]和DBSCAN [10]等传统算法为聚类奠定了良好的理论基础。然而，它们通常依赖于简单的数据分布假设，因此在处理真实数据时是无效的。为了提高复杂分布式人脸聚类的鲁棒性，Lin等人 [27]提出了邻近感知层次聚类。Zhu等人 [54]和Otto等人 [32]设计了排名顺序连接度量。然而，由于[32，54]没有建立图结构，缺乏对邻居关系的初步分析，他们取得了很差的结果。Lin等人 [26]试图测量局部社区之间的密度亲和力。[36]使用条件随机场将人脸聚类建模为结构化预测问题。上述方法在人脸聚类中对监督信息的利用较少。最近，研究趋势转向基于GCN的监督人脸聚类，并取得了令人印象深刻的结果[12，42，47，48，49，50，52]。这些方法可以大致分为两类：基于局部的人脸聚类[42，49，50]和基于全局的人脸聚类[47]。在这些基于局部的方法中，Zhan等人。 [50]设计了一个媒介网络来聚合局部图中的信息。Wang等人。 [42]预测了实例枢轴子图中的链接。Yang等人。 [49]生成了一系列子图作为建议，并在其上检测人脸聚类。这些方法更多地关注局部图信息，严重依赖于冗余子图操作，这限制了它们的性能，并导致推理速度缓慢。代表性的基于全局的方法[47]将整个图作为输入，并预测所有顶点的置信度和连通性。在[47]中，整体图结构得到了更好的考虑，但由于GPU内存限制，在处理较大的训练数据时可能会出现内存不足。因此，我们建议STAR-FC同时应对大规模训练和有效推理的挑战。图卷积网络。图卷积网络（GCN）[4，35，40，43]扩展了CNN [5，21，33]的卷积思想，以处理非欧几里德结构数据。GCN在各种任务上显示出令人印象深刻的能力[2，20，23，24，45，46]。最近，为了提高GCN图- SAGE [14]通过sam权衡了性能和运行时间9087图2：拟议STAR-FC框架概述。在训练过程中，我们使用结构保持子图采样策略来获得各种子图，这些子图用于训练基于GCN的边缘置信度估计器。交叉熵损失用于监督训练过程.在推理过程中，基于构建的亲和图，我们将人脸聚类分为两个步骤：图解析和图细化。第一步，训练好的GCN将整个图作为输入，同时估计所有边缘置信度得分。亲和力图用这些预测分数进行解析。在第二步中，节点亲密度用于进一步的图细化。经过这两个步骤，聚类结构将变得清晰，并且可以直接从图中读取人脸聚类有关节点亲密度的详细信息，请参见图4。将固定数量的邻居用于聚合。Fast-GCN [3]将图卷积解释为概率测度下嵌入函数的积分变换，并提出对顶点而不是邻居进行采样以控制计算成本。而上述方法与本文提出的方法的主要区别在于样本模式。这些以前的方法执行图采样与节点作为最小的单元，而所提出的方法实现了采样的聚类与neighbor关系，试图近似全局结构。我们的方法可以保留大部分的簇间边缘，这些边缘可以在训练过程中作为硬负样本提供。3. 方法3.1. 概述为了解决大规模训练和有效推理的困境，我们提出了一种结构感知的人脸聚类方法。申报STAR-FC的概述如图2所示。在训练过程中，基于GCN的边缘置信度估计器使用结构保持子图采样策略进行训练。我们的目标是用采样子图近似完整的图结构，它保留了大部分对训练有很大贡献的硬负边。这样，大规模数据的潜力就可以完全释放。我们将边缘预测具体建模为二进制分类问题，并使用交叉熵损失进行监督。在推理过程中，我们将人脸聚类分为两个步骤：图解析和图细化。对于图解析，我们将整个图作为训练的GCN的输入，以同时估计所有边缘置信度得分。然后去除得分低的边，使图的结构更加清晰.但仍存在一些错误的连接。他们的得分相对较高，因此很难被淘汰。为了进一步细化图，我们再次引入节点亲密度进行边修剪。在这两个步骤之后，由图中的那些连接组自然地形成面部聚类。3.2. 大规模GCN培训在本节中，我们详细介绍了拟议的STAR-FC的大规模训练过程。GCN的设计。在这一步中，我们在KNN亲和图的基础上设计了一个基于GCN的边缘置信度预测器。我们首先用训练好的ResNet-50得到特征矩阵F∈RN×D，其中N是人脸图像的数量D是特征尺寸。为了构建K NN亲和图，每个样本都可以被视为图中的一个节点，并与其K个最近的邻居相关联[6] 。相应的稀疏对称邻接矩阵为 A ∈RN×N。结构保留子图抽样预测边缘置信度分数Ground Truth Edge置信度分数0.30.2000.910.40.350 0一BɁ低亲密度假阳性边缘B一Ɍ高亲密真正边亲和度图后结构图解析后结构图形细化节点亲密度MLPĂĂĂĂ交叉熵损失GCN测试培训9088j=1.F=σ[F，（AF）]W，（1）l+1ll˜Σ ˜由于CNN是在分类损失的强监督下训练的，因此提取的特征F实际上包含丰富的身份信息。然而，由于类内方差和KNN算法中K值的固定性，模糊度图中可能包含许多错误的边连接。因此，我们试图直接预测的边缘采用GCN传播邻居信息的存在。在[42，47]之后，我们使用更有效的修改后的GCN作为我们的主干，并使用算法1保持结构的子图抽样输入：训练节点重新组织成簇C，簇种子数M，参数N。输出：采样子图S1：S=，S1=，S2=2：从C中随机选择M个聚类Ci（i=l，· · ·， M）3：对于i= 1到M，4：采样N个最近邻聚类Ci，j（j=1，· · ·， N）的CiL-层改性的GCN可以用公式表示为：5：S1=S1CiNCij其中A=DT T TL−1（A+I）。D是一个对角次矩阵6：结束锻造7：通过在S1上应用CR构建S28：通过在S2上应用SR来构造S第九章：返回S其中D = j A ij。 Fl表示第l层的嵌入F0是输入面特征。 Wl∈RDin×Dout是一个可学习的矩阵，它将嵌入映射到一个新的空间。σ是一个非线性激活，我们使用ReLU [31，44]在这个工作FL表示L层的输出特征由于F-L聚集了来自邻域的许多信息并编码了图的结构信息，因此它更适合于人脸聚类任务。为了预测亲和力图中边缘的存在，我们设计了一个采用2层MLP的二进制分类器[17]，其目标是最小化预测边缘置信度和地面真实边缘标签之间的交叉熵损失。特别地，我们将亲和图中对应于边缘的成对特征作为MLP的输入，并得到二维预测边缘置信度。如果由该边连接的两个节点属于同一类，则该边的地面真值标记为1，否则它将为0。在二进制信号的这种简单监督下，预测置信度的差异将出现两个接近0和1的尖峰，如图3所示。因此，对于推断，我们可以使用单个阈值τ1来有效地消除大多数错误边缘。这种操作可能会导致两种类型的误判：（1）它可能会切断少量的实边;（2）它可能会留下一些错误的连接很难通过信心来识别。由于原始亲和图是密集连接的，因此前一种情况下丢失的正确边会产生轻微影响关于最终图的连通性。那些剩余的错误边将在第3.3节中的节点亲密度的以下过程中进行处理。保结构子图抽样。以前的方法[47，49]通常使用10%的MS1M（0.5M人脸图像）[13]进行GCN训练。对于基于全局的方法[47]，这接近于典型1080Ti GPU的内存阈值虽然基于局部的方法[42，49]可以通过局部图操作减轻GPU存储负担，但它们严重依赖于大量重叠的子图，这严重影响了它们的效率和准确性。近年来，大规模的许多计算机视觉任务的培训[7，8，11，15，25，34]。为了充分挖掘大规模训练数据的力量，我们设计了一种结构保持子图抽样（SPSS）策略用于GCN训练。亲和图中的边主要由两部分组成：密集的簇内连接和相邻簇之间的稀疏连接。尝试近似集群内的密集连接，我们的方法将人脸集群视为最小的采样单元，与以前的方法[3，14]不同，这些方法在节点上执行随机采样。为了进一步对这些簇间连接进行建模，我们将子图从所选簇扩展到其相邻簇。一方面，采样子图保持了全图的重要结构信息，即：簇内的边缘连接和邻近簇之间的连接。另一方面，在子图中采样许多邻近簇，并且这些邻近簇之间的边可以被视为硬反例，这可以对GCN训练做出很大贡献。配备了这种结构保持的子图采样策略，我们的方法可以从增加训练数据中受益。有趣的是，这种采样策略并没有导致性能损失，因为整个图的结构信息被充分考虑。此外，表2中的实验结果表明，由于泛化能力的增强，它带来了进一步的性能增益。算法1显示了所提出的SPSS的细节。给定训练节点重组成簇，我们随机地从它们中选择M个簇作为采样种子。对于每个种子聚类，我们扩展到它的N个最近邻聚类，这些聚类通过中心经过这一步，我们可以得到一个子图S1的M×N集群。为了进一步加强推广，我们引入了从S1中随机选择K1簇的簇随机性（CR）策略和从S2中随机选择K2节点的样本随机性（SR）策略.然后，我们基于这些采样节点重建KNN亲和图以构造子图S。90890.30.250.20.150.10.050 1 5 913 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97˜˜˜.Σ0.300.250.200.150.100.05001图3：获得训练有素的GCN。由于GCN是在二进制信号的监督下训练的，因此其预测分数呈现为两个接近0和1的尖锐峰值，具有高可分性。3.3. 高效的人脸聚类推理本小节详细介绍了如何使用所提出的STAR-FC执行有效的推理并获得最终的人脸聚类。具体来说，我们将人脸聚类任务转化为两个步骤：图解析和图细化。图解析。在这一步中，我们用训练好的GCN初步解析构建的亲和图。我们将整个图送入GCN，并同时获得所有边缘分数。图3显示，预测得分分布在接近0和1的近两个尖峰中。因此，我们可以使用单个阈值τ1执行简单但有效的修剪。在此步骤中，可能会错误地切掉少量正确的边。然而，由于初始的亲和力图是密集连接的，这对最终集群的连接性有轻微的影响。经过这一步，大多数图4：所提出的节点亲密度的图示。我们观察到簇内节点之间的连接是密集的，而簇间存在稀疏的错误连接。受这种观察的启发，我们提出了节点亲密度，其目的是通过测量两个节点的共同邻居来估计它们是否应该被连接。左下方的表格显示了两对节点（即，A B，CD）。结果表明，正近邻CD具有高的NI，而负近邻AB具有低的NI。我们进一步将上述计算实现为矩阵运算。给定邻接矩阵A ∈ RN×N ，所有节点对的相互邻居数为 A=AA，其中A中的每个元素aij表示Ni和Nj的相互邻居数。然后，NI被公式化为：NI=max（（ATsum0）T，Asum1），（3）去掉了错误的连接，图形结构更加清晰。然而，仍有少数0=0 =0（Ja·j−1），sum1=vec（我−1ai·），假阳性边缘。为了处理这些边，我们在第二步中提出了节点亲密度，试图挖掘局部图结构以进一步细化图。图形细化。左边的假阳性边错误地连接不同的簇，这可能会严重影响最终的聚类性能。这些边不能直接使用边得分来移动，因此我们尝试使用节点亲密度（NI）来识别它们。节点亲密度的概念受到人类熟悉度的启发。在人类社会中，两个熟悉的人通常有许多共同的朋友。将这一想法扩展到图，我们建立了节点亲密度的概念。特别是，给定两个节点N1和N2。总共有n1条边连接到N1，n2条边连接到N2.节点N1和N2具有k个公共邻居节点。然后，我们计算N1和N2之间的NI，如下所示：NI=聚合k，k.（二）n1 n2常见的聚合运算包括平均值、最小值和最大值。第4.2节中的比较表明，最大值函数具有最佳性能。图4显示了图形上的NI，并显示了具体计算。为了进行推理，我们使用节点亲密度来表示边缘评分并移除评分低于τ2的那些边缘。在这一步之后，我们希望大多数错误的连接已经被删除。因此，我们可以直接从亲和力图中读取面部聚类。复杂性分析。在推理过程中，主要计算GCN和节点亲密度.这两种计算都是稀疏矩阵乘法，因此，C = O（|E|），其中E表示亲和图中的边。对于具有N个节点的KNN亲和图，我们有| ≤ |KN|因此，复杂度随着图中节点数量的增加而线性增加。 |, thus the complexity increases linearly as thenumber of nodes in the graph increases.4. 实验4.1. 实验设置数据集。我们使用MS1M [13]和一个名为WebFace42M[55]的大型人脸基准来进行人脸聚类的训练和测试。我们遵循[9]中提供的嘈杂列表。对MS1M进行清理，清理后的MS1M包含来自85K身份的约5.82 M图像。我们跟着布景走- [49]将MS1M [13]划分为10个拆分，比例（%）真正的积极边缘假阳性边缘一正邻居消极邻居BCD节点边缘共享邻居NI一BCD9871011/866/7ΣΣ909092.29291.891.691.491.29190.890.690.490.200.64 0.66 0.68 0.7 0.72 0.740.760.70.750.80.85方法SPSS CR Sr每批FPFBabcde500K90.45 88.06C10K91.21 89.19CC10K91.80 90.05CC10K91.92 90.06CCC10K91.97 90.21图5：两个阈值τ1和τ2的不同选择下的成对F分数。方法精度召回FPFB朴素剪枝92.8374.2482.5080.93NI（平均值）94.2184.9789.3587.58NI（min）95.1881.9388.0686.08NI（max）95.5085.9190.4588.06表1：具有不同聚合函数的朴素修剪和基于NI的修剪之间的比较。表2：不同抽样策略的比较。选择合适的人选。在我们的方法中，我们用涉及两个阈值τ1和τ2 的两个步骤来细化亲和力图。在第一步中，τ1用于处理GCN输出边缘分数，而在第二步中，τ2用于修剪具有低亲密度的边缘我们用不同的τ1，τ2进行实验。图5中的结果显示τ1= 0。7，τ2= 0。72是一个合适的选择，因此我们在下面的实验中采用这个设置。节点亲密度的设计。在我们的方法中，我们将人脸聚类转换为两个步骤：使用经过训练的GCN进行图形解析，以及使用节点亲密度（NI）进行图形细化。在本小节中，我们研究了NI对最终人脸聚类性能的影响，并比较了NI的三种设计几乎相同数量的身份，而1部分作为la-其中，部分训练数据（part0 train）用于训练，其余9个部分（part1 test，···，part9 test）作为未标记数据用于测试。每个部分由来自8.6K识别码的约0.5M图像组成关系的WebFace42M是一个新的百万级人脸基准，包括约42M图像和从2.6亿图像中清除的2M身份。它的图像数量是MS1M的近7倍，因此对人脸聚类提出了新的挑战。MegaFace [19]用于评估使用伪标记人脸图像训练的模型的人脸识别性能。它包括一个包含3，530张图像的探针集和一个包含超过100万张图像的图库集。指标.我们评估我们的方法在人脸聚类和人脸识别任务上的性能。对于人脸聚类，我们采用常用的度量Pairwise F-score（FP）和BCubed F-score（FB）[1]。对于人脸识别，我们使用不同比例的伪标签数据以及1部分标记数据来训练人脸识别模型，然后在MegaFace挑战1上测试rank-1人脸识别准确度，其中有1 M干扰项。实施细节。亲和力图由KNN算法[6]构建，其中MS1M [13]的K=80， WebFace42 M [55]的K=30对于结构保持的子图采样，我们设置M= 2（聚类种子的数量），N=750（每个种子的采样近聚类的数量）， K1=1300 （ CR 中的参数）对于 MS 1M 和M=4，N=1100，K1=4000对于WebFace42 M，然后设置K2=90%（SR中的参数）对于两个数据集。4.2. 消融研究本小节中的所有模型都使用part0 train进行训练，并在MS1M中的part1测试对于表1中的朴素修剪方法，基于图解析步骤中预测的边缘得分，使用动态边缘修剪[ 50 ]获得面部聚类。表1中的结果表明，与朴素修剪策略相比，使用节点亲密度进行进一步的图细化可以将成对F分数从82.5显著提高到90.45。这表明了NI在处理人脸聚类问题上的优越性。我们进一步比较了三种不同的聚集函数，即：NI的平均值、最小值和最大值。表1中的结果表明，最大策略优于其他两种方法。因此，我们在下面的实验中选择最大化抽样策略的影响。在训练过程中，我们提出了结构保持子图抽样（SPSS）策略。为了增加随机性，我们进一步引入了聚类随机性（CR）和样本随机性（SR），其中聚类随机性通过从子图中随机抽取部分聚类来实现，样本随机性通过从子图中随机抽取部分节点来实现。在本小节中，我们研究了SPSS在GCN培训中的作用。如表2所示，对于非采样方法（a），其需要取每批具有约50万个节点的整个图用于训练，这导致高GPU存储器消耗。然而，配备了结构保持子图采样策略，我们的方法仅使用每批约10K个节点的子图进行训练，我们实现了91.21的成对F分数，这与具有更少GPU存储器使用的非采样方法相当。这种交错的性能增益表明，我们的采样策略成功地保留了整个图的大部分结构信息。此外，将聚类和样本随机性添加到SPSS中可以进一步将成对F得分从91.21提高到91.97。我们认为92.291.9791.891.491.090.690.20.64 0.66 0.680.700的情况。六○五。650.70.750.8个单位0.85成对F分数9091#未标记1.74M2.89M4.05M5.21M方法/步骤FPFBFPFBFPFBFPFBK-Means [30]73.0475.2069.8372.3467.9070.5766.4769.42HAC [37]54.4069.5311.0868.621.4067.690.3766.96DBSCAN [10]63.4166.5352.5066.2645.2444.8744.9444.74ARO [32]8.7812.427.3010.966.8610.506.3510.01CDP [30]70.7575.8269.5174.5868.6273.6268.0672.92L-GCN [42]75.8381.6174.2980.1173.7079.3372.9978.60GCN-D [49]83.7683.9981.6282.0080.3380.7279.2179.71GCN-V+E [47]84.0482.8482.1081.2480.4580.0979.3079.25STAR-FC88.2886.2686.1784.1384.7082.6383.4681.47表3：使用0.5M人脸图像进行训练和使用不同数量的未标记人脸图像进行测试时的人脸聚类比较所有结果均在MS1M数据集上获得。在不同规模的测试数据上，STAR-FC的性能始终优于其他人脸聚类基线。方法精确召回FP时间K均值[30] 52.52 70.45 60.18 11.5hDBSCAN [10] 72.88 42.46 53.50110秒HAC [37] 66.84 70.01 68.39 12.7小时ARO [32] 81.10 7.30 13.34 1650年代CDP [50] 80.19 70.47 75.01 140秒L-GCN [42] 74.38 83.51 78.68 5208秒GCN-D+S [49]98.2475.93 85.66 3700秒GCN-V+E [47] 92.56 83.74 87.93 690秒DA-Net [12] 95.88 85.87 90.60 329秒STAR-FC96.2088.10 91.97310秒表4：人脸聚类性能和推理时间的方法比较。所有模型都使用MS1M的part0 train（0.5M图像）进行训练，并使用MS1M的part1 test（0.5M图像）进行测试。STAR-FC的性能明显优于最先进的技术，可以将推理时间控制在310秒以内。随机性的引入增强了训练模型的泛化。这些实验结果证明了我们的方法有效地处理大规模训练的能力。该方法可以突破训练集规模的限制，获得优异的人脸聚类性能。4.3. 基于MS1M的表3和表4显示了面聚类的比较。表4中的所有结果都是在MS1M数据集上获得的，其中第0部分训练作为训练集，第1部分测试作为测试集，推理时间是根据[ 47 ]中的实验配置获得的。在表3中，我们进一步显示了不同数量的未标记数据的人脸聚类性能。表4中的结果表明，拟议的STAR-FC始终优于其他聚类基线。此外，由于STAR-FC中的所有模块都使用全图运算和并行矩阵计算，因此它可以在310秒内执行高效的推理为与DA-Net [12]相比，这个时间不包括计算KNN图的时间，包括计算KNN在内的总推理时间为435 s，可以用并行GPU加速。表3中的结果表明，我们的方法可以保持优越的性能，当处理大规模的推理。更重要的是，与代表性聚类方法GCN-V+E [ 47 ]相比，我们的方法将FP从79.3显著提高到83.46，并将FB从79.25提高到81.47。我们进一步使用这些伪标记数据来训练人脸识别模型，并研究这些额外的伪标记训练数据带来的性能增益。我们遵循[47，49]中的实验设置，并使用标记数据和具有伪标签的各种数量的未标记数据来训练人脸识别模型。图6显示了MegaFace [19]在1 M干扰项下的rank- 1人脸识别准确度。如图6所示，额外的带有伪标签的未标记训练数据为人脸识别带来了持续的性能提升。由于性能优越，在人脸聚类中，我们的方法取得了比其他人脸聚类基线更高的识别准确率。通过额外的5.21 M未标记数据，我们的方法将MegaFace的识别性能从58.2%提高到79.26%。4.4. 基于WebFace42M的人脸聚类在本小节中，我们首先比较了不同方法在WebFace42 M上的人脸聚类性能，然后探索了STAR-FC的训练上限。近年来，许多计算机视觉任务的大规模培训取得了成功。大规模训练数据是提高性能的关键引擎之一。为了验证所提出的方法处理大规模图的能力，我们在百万级人脸基准WebFace42M上进行了更多的实验[55]。我们随机选取4M样本作为训练样本，分别选取4M、8M和12M样本作为未标记样本进行测试。训练集和测试集之间没有身份重叠。我们复制一个9092#未标记4M8M12M方法/步骤预召回FPFB预召回FPFB预召回FPFB时间K-Means [30]95.9950.0565.8078.2992.2049.9164.3476.4788.7549.6963.7175.042hHAC [37]98.2559.7674.3185.4696.5558.9873.2384.57OOMOOMOOMOOMOOMDBSCAN [10]94.7744.1260.2177.8789.9743.5558.6977.0285.5743.7657.9176.383hARO [32]99.3462.8376.9888.8398.4462.0176.0988.6697.4962.3476.0588.604hGCN-D [49]98.0552.5468.4271.4796.4751.8267.4271.2495.0853.7068.6372.398hSTAR-FC96.7794.0095.3694.9393.9593.9993.9794.7790.8694.0692.4394.631.7h表5：使用4M人脸图像进行训练和使用来自WebFace42M的不同数量的未标记数据进行测试时的人脸聚类比较。12M测试数据的推断时间显示在最右侧的列中。由于内存不足，GCN-V+E [47]无法对4 M数据进行训练，因此我们没有在此表中显示。HAC [37]能够在大规模数据上进行训练，但它无法使用12M测试数据进行大规模推理。所提出的STAR-FC在不同的测试设置上取得了优异的结果，并且可以在1.7h内完成对12 M数据的推断。827874706662580 2 4 6 8比值（未标记：标记）图6：MegaFace上的Rank-1人脸识别精度，1 M干扰项。X轴表示未标记数据与标记数据的比率。ratio为0的点表示只有一部分标记数据用于训练。上限使用具有地面真实标签的数据进行训练WebFace42M数据集上的一系列聚类基线。表5显示了它们在12M测试数据上的聚类性能和推理时间，并通过faiss加速[18]。给定4 M节点的大规模图进行训练，GCN-V将直接耗尽内存。当测试数据量增加到12M时，HAC无法在这种大规模训练和大规模测试的设置下，我们的方法再次获得了优异的人脸聚类性能，可以在1.7小时内高效地完成对12M测试数据的推理。此外，我们对所提出的STAR-FC的训练上界进行了探索。我们逐渐增加训练集的大小，并观察性能的变化。具体来说，我们从WebFace42M中随机选取不同规模的数据（0.4M、4M、12M、20M）作为训练的标记数据，并在12M数据的测试集上测试它们的人脸聚类性能。表6和图1中的实验结果表明，基于全局的方法（如GCN-V）无法处理大规模训练，而基于局部的方法GCN-D的性能较差。然而，随着训练数据的增加，我们的方法不断改进，最终达到了95.1成对F分数。这些实验证明了性能-表6：使用来自WebFace 42 M的不同规模的训练数据和来自WebFace 42 M的12 M未标记数据进行测试的STAR-FC的人脸聚类性能。STAR-FC的作战优势及其应对大规模训练的能力。更重要的是我们的方法有希望在较大的训练集出现时表现出色。5. 结论在本文中，我们提出了一种结构感知的人脸聚类方法STAR-FC，它解决了大规模训练和有效推理的困境。本文提出了一种结构保持的子图采样方法，该方法可以在占用较少GPU内存的情况下获得令人满意的性能。此外，一个两步图细化策略与全图操作的发展，以执行有效的推理。第一次，人脸聚类模型在一个具有107个节点的非常大规模的图上训练。在MS 1 M和WebFace 42 M上的大量实验证明了STAR-FC的优越的人脸聚类性能。鸣谢本工作部分得到了中国国家重点研究发展计划基金2017YFA0700802的支持，部分得到了中国国家自然科学基金基金U1813218、61822603、U1713214的支持，部分得到了北京人工智能研究院（BAAI）的支持，以及清华大学郭强研究所的资助。CDPGCN-V+ESTAR-FC上界1阶人脸识别@1M训练集预召回FP预召回FBNMI0.4M96.784.690.2 99.675.986.1 97.84M90.994.192.4 99.090.794.6 99.112M95.492.994.2 99.488.393.5 99.020M97.892.595.1 99.488.193.4 99.09093引用[1] EnriqueAmigo'，JulioGonzalo，JavierArtiles，anddFelisaVerdejo.基于形式约束的外部聚类评价指标比较。IR，2009年。 6[2] Rianne van den Berg，Thomas N Kipf，and Max Welling.图卷积矩阵完成。arXiv：1706.02263，2017。2[3] 陈杰，马腾飞，曹啸。FastGCN：快速学习通过重要性采样的图卷积网络2018年，在ICLR。第三、四节[4] Wei-Lin Chiang ， Xuanqing Liu ， Si Si ， Yang Li ，Samy Ben- gio，and Cho-Jui Hsieh.GCN：一种用于训练深度和大型图卷积网络的有效在KDDM，2019年。2[5] 弗朗索瓦·肖莱。Xception：深度学习与深度学习可分离卷积在CVPR，2017年。2[6] 托马斯·盖和彼得·哈特最近邻模式分类。TIT，1967年。二、三、六[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。2009年，CVPR。第二、四节[8] 邓建康，郭佳，刘同良，龚明明，和Stefanos Zafeiriou ArcFace副中心：通过大规模嘈杂的网络人脸来提升人脸识别在ECCV，2020年。第二、四节[9] 邓建康，贾国，薛念南，关于Stefanos扎菲里奥ArcFace：用于深度人脸识别的附加角度边缘损失。在CVPR，2019年。第1、5页[10] Martin Ester，Hans-Peter Krie gel，Jo？ rg Sander，Xiaowei Xu，A density-based algorithm for discovering clusters in largespatial databases with noise.见SIGKDD，1996年。一、二、七、八[11] 罗斯·格希克快速R-CNN。InICCV，2015. 第二、四节[12] Senhui Guo ，Jing Xu ，Dapeng Chen ，Chao Zhang ，Xiaogang Wang，and Rui Zhao.基于密度感知的人脸聚类特征嵌入在CVPR，2020年。一、二、七[13] Yandong Guo，Lei Zhang，Yuxiao Hu，Xiaodong He，and高剑锋。MS-Celeb-1 M：大规模人脸识别的数据集和基准在ECCV，2016年。二四五六[14] Will Hamilton，Zhitao Ying，and Jure Leskovec. 感应大型图上的表示学习。在NeurIPS，2017年。第二、四节[15] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在CVPR，2016年。第二、四节[16] Jeffrey Ho，Min

下载后可阅读完整内容，剩余1页未读，立即下载