没有合适的资源?快使用搜索试试~ 我知道了~
人脸聚类的完全可学习的方法
13369通过置信度和连通性估计杨磊1,陈大鹏2,詹晓航1,赵瑞2,陈昌来3,林大华11香港中文大学2商汤科技集团有限公司、3南洋理工大学{yl016,zx017,dhlin}@ ie.cuhk.edu.hk,{chendapeng,zhaorui}@ sensetime.com,ccloy@ntu.edu.sg摘要人脸聚类是利用未标记人脸数据的重要工具,在人脸标注和检索等方面最近的工作表明,监督聚类可以导致显着的性能增益。然而,它们通常涉及启发式步骤,并且需要大量的重叠子图,严重限制了它们的准确性和效率。在本文中,我们提出了一个完全可学习的聚类框架,而不需要大量的重叠子图。相反,我们将聚类问题转化为两个子问题.具体来说,两个图卷积网络,命名为GCN-V和GCN-E,被设计用于估计顶点的置信度和边的连通性,分别。利用顶点置信度和边连通度,我们可以自然地组织仿射图上更多的相关顶点并将它们分组到聚类中。在两个大规模基准上的实验表明,我们的方法显着提高了聚类精度,从而提高了在上面训练的识别模型的性能,但它比现有的监督方法效率高出一个数量级1. 介绍由于带注释的人脸数据集的爆炸性增长[19,11,17],人脸识别已经见证了巨大的近年来的进展[31,27,33,7,40]。伴随着这种趋势,对注释数据的不断增长的需求导致了高昂的注释成本。为了利用大量未标记的人脸图像,最近的研究[14,39,35,38]提供了一种有前途的基于聚类的管道,并证明了其在改进人脸识别模型方面的有效性。他们首先执行聚类,为未标记的图像生成“伪标签”,然后利用它们以监督的方式训练模型。这些方法成功的关键在于有效的人脸聚类算法。现有的人脸聚类方法大致分为两类,即无监督方法和监督方法。无监督方法,如K-means [22]图1:我们方法的核心思想。不同颜色的顶点表示不同的类。以前的方法组中的所有顶点到一个集群中,因为它们是密集连接的,而我们的方法,学习估计属于一个特定的类的信心,是能够检测到不自信的顶点之间的多个类。通过估计的顶点置信度,我们进一步学习预测边的连通性。通过将每个顶点连接到具有更高置信度和最强连接的邻居,我们将亲和图划分成树,每个树自然地表示一个簇。和DBSCAN [9],依赖于特定的假设,缺乏处理真实世界数据集中复杂聚类结构的能力。为了提高对不同数据的适应性,已经提出了监督聚类方法[35,38]来学习聚类模式。然而,无论是准确性还是效率都远不能令人满意。特别是,为了与大规模人脸数据聚类,现有的监督方法用许多小的子图来组织数据,导致两个首先,处理子图涉及基于简单的启发式步骤子图生成[38]和预测聚合[35]都依赖于启发式过程,因此限制了它们的性能上限。此外,这些方法所需的子图通常是高度重叠的,自信不自信亲和度图强连通集群13370导致过多的冗余计算成本。因此,我们寻求一种算法,学习更准确,更有效地聚类。为了更高的准确性,我们希望使框架的所有组件都是可学习的,超越启发式程序的限制。另一方面,为了减少冗余计算,我们打算减少所需的子图的数量。以前的工作[39,35,38]已经表明,仿射图上的簇通常具有一些结构模式。我们观察到,这种结构模式主要来自两个来源,即顶点和边缘。直觉地,将每个顶点连接到具有属于特定类的较高置信度的邻居,可以从亲和图中推导出许多树。所获得的树自然地形成连接的组件作为集群。基于这种动机,我们设计了一个完全可学习的聚类方法,而不需要大量的子图,从而导致高精度和效率。特别地,我们将聚类问题转化为两个子问题。一种是估计顶点的置信度,其测量顶点属于特定类的概率。另一种是估计边连通度,它表示两个顶点属于同一类的概率通过顶点置信度和边连通度,我们以自然的方式进行聚类,即,每个顶点连接到具有更高置信度和最强连通性的顶点。如图1所示,每个顶点找到一条连接到具有更高置信度的顶点的边,并且最终连接到同一顶点的顶点属于同一聚类。两个可学习的组件,即一个置信度估计器和连通性估计器,分别提出了估计顶点的置信度和边的连通性这两个组件都基于GCN来从数据中学习,由GCN-V(用于顶点置信度)和GCN-E(用于边缘连通性)表示。具体来说,GCN-V将整个图作为输入,同时估计所有顶点的置信度。GCN-E以局部候选集构造的图作为输入,并评估两个顶点属于同一类的可能性。实验表明,我们的方法不仅显著地将现有的监督方法加速了一个数量级,而且在5M未标记数据的两个F分数度量下优于最新的最新技术水平[38主要贡献在于三个方面:(1)我们提出了一个新的框架,将聚类公式化为置信度和连通性的估计,两者都基于可学习的组件。(2)我们的方法比现有的基于学习的方法快一个数量级(3)该方法在大规模人脸聚类和时尚聚类上都取得了最先进的性能。发现的聚类将人脸识别模型提升到与其监督对应模型相当的水平。2. 相关工作无监督人脸聚类随着深度学习的出现,最近的工作主要是从基于CNN的模型中采用深度特征,并专注于相似性度量的设计。Otto等人[1]提出了一种近似秩序度量。Lin等[20]引入了邻域的最小覆盖球作为相似性度量。除了专门为人脸聚类设计的方法外,经典的聚类算法也可以应用于人脸聚类。基于密度的聚类是最相关的方法。DB-SCAN [9]计算经验密度,并将聚类指定为数据空间中的密集区域OPTICS [3]采用了类似的概念,并解决了数据点的排序问题。所提出的方法与基于密度的聚类具有共同的直观性,即,计算每个样本的然而,我们的方法与上述所有无监督方法有很大不同:我们框架中的所有组件都是可学习的。这使我们能够学习捕捉人脸簇中的内在结构。监督人脸聚类。最近的工作表明,在人脸聚类中引入监督信息导致相当大的性能增益。Zhan等[39]训练了一个MLP分类器来汇总信息,从而发现更强大的联系。Wang等人[35]通过利用GCN捕获图形上下文进一步改进了链接预测这两种方法都是通过动态阈值寻找连通成分来获得聚类结果。Yang等[38]设计了一种分区算法来生成多尺度子图,并提出了一种两阶段监督框架来从中精确定位所需的聚类。尽管所提出的方法采用了监督聚类的思想,但它在两个关键方面有所不同:(1)与以前的监督方法[39,35,38]不同,它不依赖于启发式算法进行预处理或后处理。相反,所提出的框架的所有组件都是可学习的,并且可以潜在地实现更高的准确性。(2)在设计上更有效率。现有的方法依赖于大量的子图来精确定位簇。[35]预测了每个顶点周围的所有连接,其中两个相邻顶点可能具有高度重叠的邻域,因此存在冗余的计算成本。[38]产生了用于检测和分割的多尺度子图,其数量通常是聚类数量的数倍相比之下,所提出的方法采用了一个有效的子图自由的策略来估计顶点的信心,并集中在一小部分的邻域的连通性预测。图卷积网络。图卷积网络(GCN)[18]已成功应用于各种任务[18,12,32,37,36]。最近的一些努力将GCN扩展到处理大规模图。GraphSAGE [12]13371i=1基于置信度构造子图估计选定折点的连通性GCN-V GCN-E图2:建议的集群框架概述。在每一层中对固定数目的邻居进行采样以用于聚集。FastGCN [4]通过采样顶点而不是邻居进一步降低了计算成本在本文中,我们利用图卷积网络的强大表达能力,学习大规模亲和图上的顶点置信度和局部子图上的边连通性。3. 方法在大规模人脸聚类中,监督方法在处理复杂的聚类模式时表现出了很好的效果,但其准确性受到一些手工制作的组件的限制,并且其效率受到大量高度重叠子图的因此,如何准确有效地进行聚类仍然是一个问题。为了应对这一挑战,我们提出了一个有效的替代方案,其中所有组件都是可学习的。具体地说,我们formalate聚类作为一个过程,估计顶点的置信度和边的连通性的亲和图,然后划分成集群的图形连接到每个顶点的邻居具有较高的置信度和连通性。3.1. 框架概述给定一个数据集,我们从训练好的CNN中提取每个图像的特征,形成一个特征集F={fi}N,其中fi∈RD。N是图像的数量,D表示特征维度。样品i和样本j被表示为ai,j,其是fi和fi之间的余弦相似度。根据亲和力,我们代表具有K个NN亲和图G=(V,E)的数据集,其中每个图像是属于V的顶点,并且连接到其K个最近的邻居,形成属于E的K条边。所构造的图可以表示为一个顶点特征矩阵F ∈ RN×D和一个对称邻接矩阵A∈RN×N,其中ai,j=0,如果vi和vj不连通.为了通过从顶点和边学习结构模式来执行聚类,我们将聚类分解为两个子问题。一个是预测顶点的置信度。置信度用于确定顶点是否属于特定类。直觉上,置信度高的顶点通常位于顶点密集分布的地方,属于同一类,而置信度低的顶点则可能位于多个簇的边界上。另一类是预测边连通性的子问题。具有高连通性的边缘指示两个连通样本倾向于属于同一类。利用亲和图中的顶点置信度和边连通性,可以通过找到从具有较低置信度的顶点到具有较高置信度的顶点的有向路径来以简单的方式执行聚类。这个过程自然地形成了许多相互隔离的树,从而很容易将图划分我们将此过程称为基于树的划分。所提出的方法的关键挑战仍然是如何估计顶点的信心和边缘连接。如图2所示,我们的框架由两个可学习模块组成,即置信度估计和连通性估计。前者基于GCN-V估计顶点置信度,后者基于GCN-E预测边连通度。具体而言,GCN-V将整个亲和图作为输入,同时估计所有顶点的置信度。GCN-E将从候选集构造的图作为输入,并评估属于同一类的两个顶点根据这两个模块的输出,我们执行我们的基于树的划分,以获得集群。3.2. 置信度估计器类似于对象检测中的无锚方法[41,8],其中它们使用热图来指示对象出现在图像的相应区域中的可能性,置信度估计器旨在估计每个顶点的值,从而指示是否存在特定类别亲和度图所有顶点的估计置信度图卷积网络通过推导树获得聚类第2图卷积网络选定顶点高低图卷积网络第1……13372我我我在亲和度图的相应区域上。由于真实世界的数据集通常具有较大的类内变化,即使它们属于同一类,每个图像也可能具有不同的置信度值。对于具有高置信度的图像基于训练与推理给定一个带有类标签的训练集,我们可以获得下面等式的地面真实置信度每个顶点为1。然后,我们训练GCN-V,目标是最小化地面实况和预测分数之间的均方误差(MSE),其定义为:1ΣN通过这种观察,我们可以基于邻域中的标记图像来定义每个顶点的置信度ciLV=Ni=1|二(五)|2(5)1Ci=| N|Σvj∈Ni(1yj=yi−1yjyi)·ai,j,⑴在推理过程中,我们使用训练好的GCN-V来预测每个顶点的置信度。所获得的置信度以两种方式使用。首先,它们将在下一个模块中使用,其中,Ni是v i的邻域,yi是v i的地面真值标签,ai,j是vi和vj之 间 的a f。置信度衡量邻居是否接近,来自同一个班级。直觉上,具有密集和纯连接的顶点具有高置信度,而具有稀疏连接或位于多个簇之间的边界的顶点具有低置信度。我们研究了SEC中的一些4.3.1.置信度估计的设计我们假设具有相似置信度的顶点具有相似的结构模式。为了捕捉这些模式,我们学习了一个名为GCN-V的图卷积网络[18],以估计顶点的置信度。具体地,给定邻接矩阵A和顶点特征矩阵F作为输入,GCN预测每个顶点的置信度。GCN由L层组成,每层的计算可以公式化为:确定是否需要预测边的连通性,从而显著降低计算成本。此外,它们在最终聚类中用于提供顶点之间的偏序。复杂性分析。主要的计算成本在于图卷积(等式10)。2)。由于所构建的图是具有KN的KNN图,所以亲和矩阵A是高度稀疏矩阵。 因此,图形卷积可以是有效的。这是一个复杂度为O(|E|)[18]。边的数量|E|当稀疏矩阵的顶点数为K <$N时,推理复杂度与顶点数成线性关系. 这个操作可以通过采样相邻点或采样顶点来扩展到非常大的设置[12,4]。皇帝-从理论上讲,一个1层的GCN需要37G的CPU内存和92秒的16CPU在图形上为5。2M个顶点用于推理。Fl+1=σ.Σg(A,Fl)Wl、(二)3.3. 连通性估计其中A~=D−1(A+I)和DiiΣ=j(A+I)j这是一个迪-对于顶点vi,置信度大于c我表示他们更有信心属于一个特定的偏度矩阵 输入的特征嵌入层F0由特征矩阵F设定,F1包含第l层的嵌入。Wl是一个可训练的矩阵,用于将嵌入变换到一个新的空间中。σ是一个非线性激活(在这项工作中是ReLU)。为了利用输入嵌入和邻域聚合后的嵌入来学习变换矩阵,我们将g(·,·)定义为它们的结合g(A,Fl)=[(Fl),(AFl)].(三)课为了将vi分配给特定的类,直观的想法是将vi连接到具有更大置信度的来自同一类的邻居。然而,具有较大置信度的邻居不一定属于同一类。因此,我们引入了连通性估计,命名为GCN-E,以衡量基于局部图结构的成对关系候选集。给定预测的顶点置信度,我们首先为每个顶点构造候选集SSi={vj|c′>c′,vj∈Ni}.(六)这种定义已被证明比ji更有效简单地对每个顶点周围的邻居的嵌入特征进行加权平均[35]。基于第L层的输出嵌入,即,我们采用一个全连接层来预测顶点的置信度.c′=FLW+b,(4)其中W是可训练回归量,b是可训练偏差。vi的预测置信度可以从c′中的相应元素中获得,用c′表示。13373候选集的思想是选择连接到更有信心属于一个簇的邻居的边,并且Si只包含置信度高于Vi的顶点。连通性估计器的设计 GCN-E与GCN-V具有相似的GCN结构。主要区别在于:(1)GCN-E的输入不是对整个图G进行操作,而是包含所有顶点的子图G(Si),13374LLi、ji、j(2)GCN-E为G(Si)上的每个顶点输出一个值,以指示它与vi共享同一类的可能性。更具体地,子图G(Ci)可以由亲和矩阵A(Si)和顶点特征矩阵F(Si)表示。我们从特征矩阵F(Si)的每一行中减去fi,以编码Si和Vi之间的关系,并且所获得的特征矩阵表示为F′(Si)。因此,GCN-E中的置换手动选择跳数和每一跳的邻居数。(2)利用估计的顶点置信度,我们能够以高置信度关注一小部分顶点。通过这两个重要的设计,我们实现了比[35]快一个数量级的加速。4. 实验F<$l+1=σ.Σg(A(Ci),F<$l(Ci))W′、(7)4.1. 实验设置人脸聚类 MS-Celeb-1 M [11]是一种大型人脸其中,σ、g(·)和A(Si)的定义类似于等式中的定义。二、W′是第1层GCN-E的参数。基于第L层的输出嵌入,我们通过一个全连通的层. 由于连通性反映了两个顶点,我们用r′表示vi和vj之间的预测连通性。训练与推理给定一个带有类标签的训练集,对于顶点vi,如果邻居vj与vi共享相同的标签,则连通性设置为1,否则为0。.1,yi=yj识别数据集由100K个身份组成,每个身份identity有大约100个面部图像。我们采用了ArcFace [ 7 ]中广泛使用的注释,产生了一个包含5的可靠子集。来自86K类的8M图像。我们随机地将清理后的数据集分成10个部分,每个部分的标识数量几乎相等。每个部分包含8个。6Kidenti- ties与约580K图像。我们随机选择1部分作为标记数据,其他9部分作为未标记数据。时尚集群。我们还评估了我们的方法对人脸图像以外的数据集的有效性。我们在DeepFashion的一个大子集上进行测试[21],即店内服装检索,这是非常长尾的。特别是,我们混合了原始的训练特征和测试特征ri,j=0,yi /=yj ,vj∈Ci,(8)最终分割,从3997张图片中随机抽取25752张图片类别的训练和其他26960图像,我们的目标是预测的连通性,反映了两个顶点是否类似于Eq。5在GCN-V中,我们还使用逐点MSE损失来训练GCN-E。ΣLE(Ci)=|ri,j−r′|二(九)vj∈C i为了加快训练和推理过程,我们只将GCN-E应用于一小部分具有大估计置信度的顶点,因为它们可能比具有小置信度的顶点影响更多的计算器。我们将使用GCN-E的顶点部分表示为ρ。对于其他顶点,它们简单地连接到候选集中的M个最近的邻居,这表明它们连接到具有前M个最大相似性和更高置信度的邻居当M=1时,产生基于树的划分策略,当M>1时,产生有向无环图的聚类。经验结果表明,M=1,ρ=10%已经可以带来可观的性能增益(参见第2节)。4.3.2)。复杂性分析。连通性估计器的思想与[35]相似,他们评估了子图上每个顶点连接到中心顶点的可能性。虽然[35]的复杂度与N成线性关系,但在每个顶点的邻域上应用GCN会导致过度的计算需求。建议的GCN-E有两个关键的设计要有效得多:(1)我们只预测候选集中的链接,这种努力可能涉及每个顶点的更少的邻居,并且不需要3,984个测试类别。请注意,时尚聚类是也被看作是一个开集问题,没有重叠在训练和测试之间。人脸识别我们在MegaFace [17]上评估人脸识别模型,这是人脸识别的最大基准。它包括一个来自FaceScrub[25]的探针集,其中包含3,530张图像和一个包含1M图像的图库集指标. 我们评估了聚类和人脸识别的性能。人脸聚类通常通过两个度量来评估[29,35,38],即成对F分数和B立方F分数[2]。前者侧重于大的聚类,因为对的数量与聚类大小成二次方增长,而后者则根据聚类的簇大小。这两个指标都是精确度和召回率的调和平均值,分别称为FP和FB人脸识别采用MegaFace中的人脸识别基准进行评价MegaFace中采用了top-1识别命中率,即从1M图库图像中排名top-1图像并计算top-1命中率。实施详情。为了构建K NN亲和图,我们为MS 1 M设置K=80,为Deep-Fashion设置K=5。由于GCN-V操 作 的 图 具 有 数 百 万 个 顶 点 , 我 们 只 使 用 1 层GCN,以减少计算成本。 对于GCN-E,它在不超过K个顶点的邻域上操作,因此我们使用4层GCN来增加其表达能力。 对于这两个数据集,使用momentumSGD,起始学习率为0。1和重量衰减1e−5。为了避免没有正确的13375表1:不同数量未标记图像的人脸聚类比较(MS-Celeb-1M)#未标记584K1.74M2.89M4.05M5.21M时间方法/步骤FPFBFPFBFPFBFPFBFPFBK-means [22,28]79.21 81.2373.0475.269.8372.3467.970.5766.4769.4211.5hHAC [30]70.63 70.4654.469.5311.0868.621.467.690.3766.9612.7hDBSCAN [9]67.93 67.1763.4166.5352.566.2645.2444.8744.9444.741.9mARO [1]13.6 178.7812.427.310.966.8610.56.3510.0127.5mCDP [39]75.02 78.770.7575.8269.5174.5868.6273.6268.0672.922.3mL-GCN [35]78.68 84.3775.8381.6174.2980.1173.779.3372.9978.686.8mLTC [38]85.66 85.5282.4183.0180.3281.178.9879.8477.8778.8662.2m我们的(五)87.1485.8283.4982.6381.5181.0579.9779.9278.7779.094.5m我们的(V +E)87.5585.9483.7382.781.8381.180.2279.9379.0479.0811.5m表2:DeepFashion集群的性能。方法#集群FPFB时间K-means [22]399132.8653.77573sHAC [30]1741022.5448.77112sDBSCAN [9]1435025.0753.232.2sMeanShift [5]843531.6156.732.2h光谱[15]250429.0246.42.1hARO [1]1050426.0353.016.7sCDP [39]662228.2857.831.3sL-GCN [35]1013728.8558.9123.3sLTC [38]924629.1459.1113.1s我们的(五)499833.0757.262.5s我们的(V+ E)607938.4760.0618.5s对于连接的邻居,我们设置阈值τ来切断具有小相似性的边缘。τ被设置为0。8为所有设置。4.2. 方法比较4.2.1面部分簇我们比较了所提出的方法与一系列的聚类基线。这些方法简要描述如下。(1) K-means [22],常用的聚类算法。对于N≥1。74M,我们使用小批量K均值,产生了可比的结果,但显着缩短了运行时间。(2) HAC [30],该方法以自下而上的方式基于一些标准分层合并紧密的聚类。(3) DBSCAN [9]根据设计的密度标准提取聚类,并将稀疏背景作为噪声。(4) MeanShift [6]精确定位包含一组收敛到同一局部最优值的点的集群。(5) Spectral [24]基于相似性矩阵的谱将数据划分为连接的分量。(6) ARO [1]使用近似最近邻搜索和修改的距离度量来执行聚类。(7) CDP [39],一种基于图的聚类算法,它利用了更强大的成对关系。13376(8) L-GCN [35],一种最近的监督方法,采用GCN来利用图形上下文进行成对预测。(9) LTC [38],另一种最近的监督方法,将聚类公式化为检测和分割管道。(10) 我们的方法(V),将GCN-V应用于整个图,并通过将每个顶点连接到候选集中的最近邻居来获得聚类。(11) 我们的(V + E)方法是在GCN-V的基础上使用GCN-E来估计连通性,并通过将每个顶点连接到候选集中最连通的邻居来获得聚类。结果对于所有方法,我们调整了相应的超参数,并报告了最佳结果。表1和表2中的结果显示:(1)给定聚类的地面真实数,K-means实现了高F分数。然而,性能受聚类器数目的影响很大,使得当聚类器数目未知时难以使用。(2)HAC不需要聚类器的数量,但迭代合并过程涉及大量的计算预算。 即使使用快速实现[23],当N为5时,也需要近900小时才能产生结果。21米。(3)尽管DBSCAN非常高效,但它假设不同集群之间的密度相似,这可能是扩展到大型设置时性能严重下降的原因。(4)MeanShift在聚类上有很好的效果,但是需要很长的时间才能收敛. (5)谱聚类也有很好的性能,但求解特征值分解需要大量的计算和内存,从而限制了它的应用。(6)ARO的性能取决于邻居的数量。在合理的时间预算下,性能不如MS1M中的其他方法。(7)CDP非常高效,在不同尺度的不同数据集上都能获得很高的F分数。为了进行公平的比较,我们与CDP的单一模型版本进行比较。(8)L-GCN始终超过CDP,但比CDP慢一个量级(9)LTC作为一种有监督的人脸聚类方法,在大规模聚类中显示出了其优势然而,依靠迭代-13377num图3:配对F评分与不同方法的运行时。请注意,x轴为对数标度。有效的建议策略,性能增益是伴随着一个大的计算成本。(10)建议GCN-V优于以前的方法一致。虽然GCN-V的训练集只包含580K图像,但它可以很好地泛化到5。21M未标记数据,证明了该方法在捕捉顶点重要特征方面的有效性。此外,由于GCN-V同时预测所有顶点的置信度,它比以前的监督方法快一个数量级。(11)我们将GCN-E应用于20%的顶点,估计置信度最高。它带来了进一步的性能增益,特别是当应用于深时尚.这个具有挑战性的数据集包含噪声邻域,因此需要更仔细地选择连接。运行时间分析我们使用ES-2640 v3 CPU和TitanXP测量了不同方法的运行时间。对于MS- Celeb-1 M,我们测量N=584K时的运行时间。除了K-means和HAC之外,所有比较的方法都依赖于KNN图。为了专注于算法本身的运行时间,我们使用1个GPU和16个CPU来加速KNN的搜索[16],这将找到80个最近邻居的时间从34分钟减少到101秒。对于所有的监督方法,我们分析了它们的推理时间。如表1所示,所提出的GCN-V比L-GCN和LTC快一个数量级。GCN-E需要更多的时间来预测候选集合中的连通性,但它仍然比L-GCN和LTC效率高出数倍图3更好地说明了准确性和效率之间的权衡。对于LTC和Mini-batch K-means,我们分别控制建议的数量和批量大小,以产生不同的运行时间和准确性。在实际应用中,我们可以利用LTC中的超级顶点思想来进一步加速GCN-V,并并行化GCN-E来估计连通性图4:MegaFace top-1识别@1M。作为Sec. 4.1介绍,我们将数据集分成10个分裂,并随机选择1个分裂来获得地面真实标签,表示为SL。 尤其是面部识别实验-解决方案包括4个步骤:(1)使用SL训练人脸识别模型Mr;(2)使用Mr提取SL上的人脸特征,并使用SL中提取的特征和相应的标签训练聚类模型Mc;(3)使用Mc为未标记的图像分配伪标签;(4)使用SL和具有伪标签的未标记数据以多任务方式训练最终的人脸识别注意,SL用于训练初始人脸识别模型和人脸聚类模型。与以前的工作[39,38]不同,假设未标记的数据是顺序获得的,并且对9个分裂分别执行9次聚类,我们直接对5个分裂执行聚类。21M未标记数据,这更具有实际意义和挑战性。上界是通过假设所有未标记的数据都有真实标签来训练的。如图4所示,所有三种方法都受益于未标记数据的增加 由于聚类的性能增益,我们的方法始终优于传统方法,并将MegaFace上的人脸识别模型的性能从58。21到7788岁4.3. 消融研究为 了研 究 一些 重 要的 设 计选 择 ,我 们 选择 MS-Celeb-1 M(584K)和DeepFashion进行消融研究。4.3.1置信度估计器顶点置信度设计。我们探索不同的自信设计.由于置信度与第12节中描述的“密度”概念有关2,我们首先采用两个广泛使用的无监督密度作为置信度[9,3,26]。给定一个半径,第一个定义为顶点的数量,第二个由以下项的和计算不同的顶点。边权重,表示为urr权重 ,分别-4.2.2人脸识别遵循[39,38]的管道,我们应用训练的聚类模型为未标记的数据分配伪标签,并利用它们来增强人脸识别模型。如表3所示。请注意,对于这些无监督的定义,置信度直接计算而无需学习过程。另一方面,我们可以基于地面实况标签来定义各种监督置信度savg被定义为与所有顶点的平均相似度,和u13378NBRNBR表3:顶点置信度的设计选择。置信度定义见第2节。4.3.1.表示Sec中的第L个GCN层的输出特征嵌入。3.2.度量FLMS1M-584KDeepFashionFPFBFPFBurnum×61.6564.819.4245.85ur重量×81.7880.4729.3152.81s平均值×82.3783.3230.1156.62的中心×82.5583.4631.8156.48丁腈橡胶×82.7683.6132.2457.11SFNBRC87.1485.8233.0757.26相同的标签。的中心被定义为与中心的相似度,其被计算为具有相同标签的所有顶点的平均特征。snbr定义为Eq.1.一、sF表示使用顶部嵌入FL来重建图。为了比较不同的置信度设计,我们通过设置ρ=0和M=1来采用相同的连通性估计。在这个意义上,连接性估计器直接选择候选集中的最近邻居,而无需学习。如表3所示,两个无监督密度定义实现相对较低的性能。高数据密度指示聚类的高概率的此外,算法的性能对计算密度所选择的半径很敏感.表3显示了监督置信度优于非监督置信度,而无需手动设置半径。在这三种定义中,snbr比savg和scenter具有更好的性能。由于在邻域上定义了snbr,因此与相对于同一聚类中的所有样本定义的savg和scenter在实际实践中,类似于显着性检测中的显着性图融合[10,13],我们可以集成来自不同置信度的输出以实现更好的性能。转换的嵌入。丁腈橡胶的比较图5:ρ对DeepFashion的影响。 最左边的点(ρ= 0)表示没有GCN-E的结果,而最右边的点(ρ= 1)对所有顶点使用GCN-E。因此FP增加。当将GCN-E应用于所有顶点时,会有轻微的下降,因为不一致的顶点之间的连接通常非常复杂,并且可能很难找到用于学习的公共模式。M的影响。在下表中,M=-1表示应用GCN-E而不使用候选集。它包括不自信的邻居,从而增加了难度学习和导致性能下降。M-1123FPFB29.8556.1238.4760.061.1956.430.3152.46当M=1时,每个顶点都连接到候选集中最连通的邻居。当M>1时,不自信的顶点可能会连接到两个不同的簇。虽然它增加了所获得的聚类的召回率,但它可能严重损害精度。5. 结论本文提出了一种新的有监督人脸聚类框架,消除了启发式步骤和大量子图的要求。该方法显著提高了大规模情况和SF表明使用变换后的特征来重新人脸聚类基准。此外,实验表明,构建亲和图导致两个数据集中的性能增益。这个想法与动态图[34]共享共同的概念,他们在每个图卷积层之后重建KNN图。然而,在具有数百万个顶点的大规模图上,每层构造KNN图实验表明,仅用顶嵌入重建图就能得到较好的结果。4.3.2连通性估计p的影响。我们以一个步长使ρ从0变化到10的情况。1.一、如图5所示,只关注10%的高置信度顶点可以带来可观的性能在增加很少的计算成本的同时获得增益。随着ρ的增大,更多的顶点受益于GCN-E的预测cate所提出的方法推广到测试集比训练集大10倍。在人脸数据集上的实验表明,该方法在人脸以外的数据集上具有潜在的应用价值在未来,需要一个端到端的可学习聚类框架来充分释放监督聚类的力量。鸣谢本研究部分得到商汤科技大规模多模态分析合作资助(中大协议编号:TS1610626No.TS1712093)、香港的“展翅计划”(第1610626No.TS1712093)、香港的“展翅计划”(第1610626No.TS1712093)及香港的“ 展 翅 计 划 ” ( 第 1610626No.TS1712093 ) & 。24204215)、香港基金(第24204215号)、香港基金(第24204215号)及香港基金(第24204215号)。14236516号14203518&No. 14241716 ) 和 新 加 坡 MoE AcRF Tier 1(M4012082.020)。13379引用[1] 按身份聚集数百万张面孔。TPAMI,40(2):289-303,2018。二、六[2] EnriqueAmigo´, JulioGonzalo, JavierArtiles,andFelisaVerdejo.基于形式约束的外部聚类评价指标的比较。信息检索,12(4):461-486,2009。5[3] Mihael Ankerst , Markus M Breunig , Hans-PeterKriegel,andJ?r gSande r. 光学:对点进行排序以识别簇结构。在ACM Sigmod记录,第28卷,第49-60页中。ACM,1999年。二、七[4] 陈杰、马腾飞、曹啸。Fastgcn:通过重要性采样使用图 卷 积 网 络 进 行 arXiv 预 印 本 arXiv : 1801.10247 ,2018。三、四[5] 成义宗。均值漂移、模式搜索和聚类。IEEE模式分析与机器智能汇刊,17(8):790-799,1995。6[6] Dorin Comaniciu和Peter Meer。均值漂移分析及其应用。第七届IEEE国际计算机视觉会议论文集,第2卷,第1197-1203页。IEEE,1999年。6[7] Jiankang Deng , Jia Guo , and Stefanos Zafeiriou.Arcface:用于深度人脸识别的附加角度余量损失arXiv预印本arXiv:1801.07698,2018。一、五[8] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:使用关键点三元组的对象检测。arXiv预印本arXiv:1904.08189,2019。3[9] 张文,张文,等.一种基于密度的聚类算法.北京:科学出版社,2000.在KDD,1996中。一、二、六、七[10] Stas Goferman、Lihi Zelnik-Manor和Ayellet Tal。上下文感知显著性检测。IEEE transactions on pattern analysisand machine intelligence , 34 ( 10 ) : 1915-1926 ,2011。8[11] Yandong Guo,Lei Zhang,Yuxiao Hu,Jongdong He,and Jianfeng Gao. Ms-celeb-1m:大规模人脸识别的数据集和基准。在ECCV。施普林格,2016年。一、五[12] Will Hamilton,Zhitao Ying,and Jure Leskovec.大图上的归纳表示学习。NeurIPS,2017。二、四[13] 韩俊伟,陈浩,刘念,阎成刚,李学龙.基于cnns的rgb-d 显 著 性 检 测 跨 视 图 传 输 和 多 视 图 融 合 。 IEEETransactions on Cybernetics,48(11):3171-3183,2017。8[14] Yue He,Kaidi Cao,Cheng Li,and Chen Change Loy.合并不合并?通过模仿学习来对人脸进行分组。第三十二届AAAI人工智能会议,2018。1[15] Jeffrey Ho,Ming-Hsuan Yang,Jongwoo Lim,Kuang-Chih Lee,and David Kriegman.在不同光照条件下对物体外观进行聚类在CVPR,2003年。6[16] Je f fJohnson,MatthijsDouze,andHer ve'Je'gou. 用gpu进行 十 亿 级 相 似 性 搜 索 。 arXiv 预 印 本 arXiv :1702.08734,2017。7[17] Ira Kemelmacher-Shlizerman , Steven M Seitz , DanielMiller,and Evan Brossard. megeface基准:1数百万张面孔进行大规模识别。 在CVPR,2016年。一、五[18] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR,2017。二、四[19] 布伦丹·F·凯布尔、本·克莱因、艾玛·塔博斯基、奥斯汀·布兰顿、乔丹·切尼、克里斯汀·艾伦、帕特里克·格罗瑟、艾伦·马和阿尼尔·K·贾恩。推动无约束人脸检测和识别的前沿:Iarpa janus基准a CVPR,2015。1[20] Wei-An Lin,Jun-Cheng Chen,Carlos D Castillo,andRama Chellappa.无约束面的深度密度聚类。在CVPR,2018年。2[21] 刘紫薇,罗平,邱石,王晓刚,唐晓鸥. Deepfashion:支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议(CVPR)的会议中,2016年6月。5[22] 斯图尔特·劳埃德。脉码调制中的最小二乘量化IEEE信息论学报,28(2):129-137,1982. 1、6[23] Dani e lMüllner等fastcluster:用于r和python的fasthierarchical,agglomerativeJournal of Statistical Software,53(9):1-18,2013. 6[24] Andrew Y Ng、Michael I Jordan和Yair Weiss。关于谱聚类:分析和算法。神经信息处理系统进展,第849-856页,2002年6[25] Hong-Wei Ng和Stefan Winkler。一种数据驱动的清理大型人脸数据集的方法。在ICIP。IE
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功