学习分类聚类优化人脸聚类方法

159 浏览量更新于2023-10-13 收藏 946KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3845学习通过成对分类聚类面JunfuLiu*，DiQiu*，PengfeiYan†，XiaolinWeiMeituan摘要人脸聚类在利用海量未标记人脸数据中起着至关重要的作用近年来，基于图的人脸聚类方法因其良好的聚类性能而受到广泛的关注。然而，它们通常会消耗过多的内存，特别是在大规模图上，并且依赖于经验阈值来确定推理中样本之间的连接性，这限制了它们在各种现实世界场景中的应用。为了解决这些问题，本文从两两的角度对人脸聚类进行了具体来说，我们制定了一个成对的关系分类任务的人脸聚类任务，避免了大规模图上的内存消耗的学习分类器可以直接确定样本之间的关系，并且通过利用上下文信息来增强。此外，为了进一步促进我们的方法的效率，我们提出了一个秩加权密度来指导发送到分类器的对的选择。实验结果表明，该方法在几个公共聚类基准上以最快的速度达到了最先进的性能，并且在内存消耗方面与基于图的聚类方法相比具有很大的优势.1. 介绍如今，互联网上可以访问大量的人脸数据，从而促进了人脸分析技术的发展[1，13]。然而，大规模的未标记的人脸数据导致了相当高的注释价格，并且人类注释并不总是可靠的。因此，利用未标记的人脸数据引起了人们极大的兴趣.针对将伪标签签名到未标记的人脸图像，人脸聚类是基本的人脸分析任务，并且在现实世界的场景中具有广泛的应用，如用于人脸识别的数据集准备或清理[22，23]和相册管理[19]。传统的聚类方法受到不切实际的假设的影响，并且它们的性能可能对*共同第一作者。网址：liujeff97@gmail.com，qiudi@meituan.com†通讯作者。yanpengfei03@meituan.com选择经验阈值>阈值图学习内存消耗≤阈值(a)基于图的方法成对分类内存友好的(b)我们的方法图1.概述了流行的基于图的人脸聚类方法和我们的方法之间的主要差异。具有不同颜色的节点(a)基于图的方法专注于判别嵌入的学习，但需要设置一个经验阈值来连接或断开样本。(b)我们的方法可以直接确定成对的关系，通过一个分类器，并产生最终的集群。此外，通过将人脸聚类任务从图级处理到对级，我们的方法大大减少了内存消耗。超参数例如，DBSCAN [2]假设集群具有相同的密度，并且K-Means [3]的性能高度依赖于原始k。最近，基于图的人脸聚类方法由于其通过学习代表性嵌入而不进行过度简化的假设而获得令人满意的性能而引起了人们的广泛关注[4，5，6]。但是计算成本和对存储器使用的需求特别突出，特别是在大规模人脸聚类场景中，这是由于在大型图上学习的惊人的高价格[20，26]。并且已经提出了一些工作来缓解这些问题。在[7]中，Yang等人设计了一种基于图卷积网络的置信度估计器来选择具有大置信度的节点，这减少了高度重叠的子图的数量，并导致效率的提升。尽管置信度估计器仅包含一个单层，但在处理大规模图形时仍会出现内存不足的3846在第4节中显示。Guo等人 [8]通过定义密度感知图来利用聚类级特征分布更重要的是，与以前的基于图的聚类方法一样，为了在推理阶段生成最终的聚类，它仍然需要手动设置阈值来确定样本之间的连接性。这些聚类方法的最终性能对经验阈值非常敏感，当阈值设置不正确时会严重下降，这限制了各种真实世界场景的泛化。为了解决上述问题，在这项工作中，我们专注于人脸聚类任务的基本关注点，即。样品的均匀性。具体而言，我们从成对的角度探索了一种记忆友好和无阈值的人脸聚类方法，从而提高了效率和准确性。我们不是在图级或聚类级上学习，而是在最小级别上处理人脸聚类，即。对级，这大大减少了存储器消耗。我们采用了一个简单而有效的分类器网络，分类器直接给出了一对样本的连接关系，这也使我们摆脱了人工设置阈值。此外，受基于图学习的方法的启发，其中强调上下文信息，分类器在我们设计的加权邻居特征上进行训练，这为分类器和整体聚类任务带来了相当大的如图1所示，流行的基于图的方法依赖于经验阈值来确定样本之间的连接性，在学习可区分的特征嵌入后，对存储器的高消耗。相比之下，我们的方法可以直接给成对的关系，并产生最终的集群有效地与非常有限的内存使用。此外，为了提高整个管道的效率，我们提出了一个秩加权密度。秩加权密度更多地关注附近的邻居，这减轻了在寻找具有更高密度的邻居的过程中离群点的影响。这种更精确的秩加权密度的引入不仅通过选择更少的发送到分类器的对数量级来降低时间复杂度，而且还对我们的方法的性能做出进一步的贡献。我们的主要贡献总结如下：（1）与目前流行的基于图的人脸聚类方法不同，本文提出了一种基于成对分类的人脸聚类方法，该方法具有更好的存储友好性和无阈值性。(2)提出了一种秩加权密度来指导对选择发送到分类器，从而进一步提高了效率和准确率。（3）该方法提高了在公共人脸聚类平台上的性能。分数，在 MS-Celeb-1 M 数据集上实现了 90.67 的Pairwise F分数和89.54的BCubed F分数，超过了90.60[8]和86.09的先前公共最先进方法[7]分别下文第2节将简要回顾相关工作。第3节详细介绍了我们提出的方法。实验结果和分析在第4节中给出，我们最后在第5节中总结论文。2. 相关工作人脸聚类的挑战主要来自现实世界中人脸表示的巨大变化[25]。大多数现有的基于图的聚类方法通过从亲和图中学习代表性特征来实现令人满意的性能，但依赖于经验阈值来最终决定两个样本是否应该属于同一类。因此，这种方法的性能受到手动设置的严重影响，并且在现实世界的人脸聚类场景中可能严重下降。人脸聚类中的成对关系预测确定样本之间的成对关系是推理中人脸聚类任务的重要组成部分。Zhan等人 [6]通过MLP分类器聚合多视图信息并Wang等人 [4]预测了节点之间的链接概率，并发现了具有动态阈值的连接Yang等人。 [7]利用预定义的阈值来切断具有小相似性的边缘，尽管引入了连接估计器。Guo等人。 [8]提出了可学习的局部和远程特征，以削弱对聚类阈值的敏感性，但仍然需要合适的阈值来决定最终的成对关系。与以往的方法不同，我们的方法侧重于开发一个强大的模块来发现两两关系，旨在摆脱经验阈值。这使得我们的方法在现实世界的人脸聚类场景中更具推广性。基于GNN的人脸聚类。最近关于人脸聚类任务的工作主要采用基于GNN的模型来学习代表性特征嵌入，并且倾向于通过利用每个样本的“密度”[21，24]或“置信度”[7]来估计样本之间的相对顺序Wang等人。 [4]利用图卷积网络（GCN）模型来查找枢轴节点及其邻居之间的Yang等人。 [5]学习了GCN检测和分割模块中的聚类。在[7]中，Yang等人提出了一种改进的基于GCN的方法来学习大规模亲和图上的顶点置信度和局部子图上的边连通性。Guo等人。 [8]通过学习基于GCN的上下文感知特征嵌入来利用集群级特征分布基于GNN的方法的成功主要在于3847∈原始特征k近邻concat不同类别加权邻域特征k近邻MLP分类器为每个样本同班通过BFS获得最终计算等级加权基于密度对的分类高低图2.概述了我们提出的人脸聚类框架。我们首先使用秩加权密度为每个样本形成对。每个样本的特征向量通过连接其原始特征和加权邻居特征来更新，并且我们组合一对样本的更新特征以形成对特征，然后将每对发送到训练的分类器以确定成对关系。在确定样本的连接后，我们应用BFS算法来获得最终的聚类。上下文感知特征的学习，其中极大地强调了邻域信息。然而，基于GNN的方法容易造成计算成本高，从而无法在内存不足的情况下进行大规模的聚类场景。本文针对现有人脸聚类方法存在的内存消耗问题，通过学习鲁棒的两两关系，使人脸聚类方法不再需要设置经验阈值，并引入秩加权密度，进一步提高了聚类的准确性和效率。3. 方法如上所述，当前基于GNN的面部聚类算法可能非常消耗存储器，并且依赖于专家知识来设置适当的阈值以确定面部之间的连接性。为了解决这些挑战，我们提出了一种基于成对分类的人脸聚类方法。我们将人脸聚类任务制定为人脸之间的分类任务，并训练一个classi- fier来直接确定两个人脸是否应该属于同一类。此外，为了更有效地生成人脸聚类，我们选择的人脸对发送到分类器的基础上，一种新的排名加权密度的方式，这原来是更不敏感的离群值。图2示出了我们提出的方法的概述。3.1. 成对分类给定面部数据集F=[f1，f2，…其中N是人脸图像的数量，D是从训练的CNN中提取的特征的尺寸，人脸聚类是将人脸划分为不同聚类的任务，其中同一聚类中的人脸共享一个身份。很多人-大规模的人脸聚类方法都是先学习样本的代表性嵌入，然后使用经验阈值来确定样本之间的连通性，这些阈值对人脸聚类的最终性能有很大影响，但严重依赖于经验，并且在不同的数据集上变化很大同时，大规模图（例如，图1）上的图学习也是一种新的学习方法。节点超过1000万）可能非常消耗内存。为了解决这些问题，我们改变了学习从图的水平对水平。给定一对面孔，我们寻找的是一个二元分类器来直接给出这两个面孔之间的关系，即。，无论它们是否属于同一身份。分类器的动机。基于图学习的方法中的巨大内存消耗是由数据集的巨大大小N引起的。但是我们不一定需要在如此大的规模上学习知识，并且人脸聚类实际上倾向于为样本分配伪标签，因此我们在最低级别，即对级别上解决人脸聚类任务，并训练分类器来预测两个样本是否应该属于同一个类。取一对图像特征f1，f2作为输入，自然地，我们可以将这两个特征向量连接起来，形成一个新的特征向量发送到网络，而我们只需要一个像多层感知器（MLP）一样简单的网络我们还可以看到，我们的方法可以被推广到其他类型的分类器。受基于GNN的人脸聚类方法的启发，该方法利用上下文信息来帮助聚类人脸，以及样本很可能与其邻居共享身份的直觉，我们使用邻居特征来细化其特征。对于样本X1，我们使用k-NN来选择其前k个最近邻居 X11 、 X12 、 …xik ，以及相似性 si1 ，si2，…可以将样本X1与其邻居之间的Sik计算为两个特征的内积。而不是简单的求和，我们应用相似性作为权重来计算3848Σf=sf，（1）ijijCFFC∅FFF联系我们算法1成对聚类输入：特征集，近邻数k，训练好的分类器。产出：群组C一曰：程序C光泽2：P= FINDPAIRS VIADENSITY（、k）3：R=用于获得P中的对的关系。4： C=使用BFS算法来生成聚类。5：返回C6：结束程序第七章：函数FINDPAIRS VIADENSITY（、k）8：P=9：对于do中的所有样品X10：获得与其k个最近邻居的相似性。11：计算其秩加权密度。12：结束13：对于do中的所有样品X14：找到第一个密度较高的邻居y15：如果y存在，则16：P=P（x，y）17：如果结束18：结束19：返回P二十： end function样本的加权近邻特征K′我j=0其中，j=0指示样本本身的特征，并且si0被设置为1。这实际上使得类内特征更紧凑，并且类间样本更可分离。但考虑到样本散布在特征空间中不同类的边界附近，过多地关注邻域可能会给分类带来误差，因此我们将原始特征和加权邻域特征串联起来形成组合特征，最终确定特征对为：F12=[f1，f′，f2，f′].（二）密度高异常值异常值低更高更高原始更新（一）增减原始更新（b）第（1）款图3.我们提出的秩加权密度如何优于原始密度的可视化。(a)更新的秩加权密度可以缓解由离群值引起的聚类中心偏移。(b)在t-SNE上来自MS-Celeb-1 M数据集[1]的聚类的特征分布。边界样本密度的相对阶数减小，质心样本密度的相对阶数增大。邻居的脸。然后选择具有不同类别的邻居作为负样本，这是自然的硬负样本，因为它们在特征空间中足够接近，但属于不同的我们改变k值，直到训练集中负样本的数量几乎等于正样本的数量。3.2. 秩加权密度在推理阶段预测所有对之间的关系是非常耗时的，因为一个大小为N的测试集将导致一个大小为N2的测试对集，而这样大的测试对集的推理结果将导致广度优先搜索（BFS）过程中无法获得最终的聚类结果。为了提高聚类管道的效率，我们使用密度来选择合适的对，从而减少发送到分类器的对的数量1 2直观地说，在一个集群中，边界样本可以不与基于图的方法相比，通过在对级别上学习，在训练和推理阶段的内存使用量都大大减少，并且我们可以灵活地改变批量大小以适应可用的内存容量。训练集制定。为了方便起见，我们定义具有相同类的对为正对，具有不同类的对为负对。为了制定训练集，对于每个人脸，我们收集同一类的人脸集合，并将所有这些集合组合为阳性样本。对于负样本，我们使用k-NN来找到最接近的前k个3849它们彼此非常相似，但质心样本很可能与几乎所有样本相似。因此，我们尝试将样本与质心样本配对。样本的原始相似度的计算在前面已经介绍过。例如，给定一个样本，可以计算其邻近样本与其自身之间的相似性，并且可以计算样本的密度di3850Σ我KOOOOO≫Plexi被定义为：Kdi=si j，（3）j=1其中k是邻居的数量。然而，由于异常值的存在，这导致样本可能得到更高的密度，但与另一个样本相比，进一步到聚类中心，原始密度可能导致较差的密度顺序，并产生不适当的对。而在密集簇分布中，离群点对样本密度的影响更大。为了抑制异常值的不利影响，考虑到它们是大多数样本的十个相对遥远的邻居，我们以这样的方式更新密度：表1. MS-Celeb-1 M的比较在[28]中提出的搜索，时间复杂度降低d′= Σj=1f（j）sij，⑷到（nlogn），并且可以通过GPU进一步加速[18]。一旦k-NN搜索完成，如算法1所示，每个样本的密度计算，对选择，其中f（j）是单调递减函数，其指示在密度的计算当我们的更新的秩加权密度与原始密度不一致时，例如，与样本Xj相比，样本Xi具有更高的更新密度，而原始密度较低，这是因为与目标样本Xj不接近的样本被给予较少的关注，尽管它们与Xj具有高相似性。图3（a）说明了我们更新的密度如何优于原始密度。在原始密度下，虽然xi趋于更密集的情况，更可能靠近聚类中心，但离群值有助于xi获得更高的密度，从而导致样本之间的聚类中心偏移我们在图3（b）中展示了从MS-Celeb-1 M数据集[1]中采样的聚类的特征分布可以清楚地看到，边界样本和质心样本的密度都被优化。使用我们新的秩加权密度，样本为聚类中心的可能性更精确，对离群值不太敏感。现在，我们使用更新的秩加权密度来指导在推断中发送到分类器的对的选择。对于每个样本，我们在其k个最近邻中选择密度较高的第一个样本并形成一对。所选择的样本更接近聚类中心，但仍然足够相似以与目标样本共享相同的类。如果样本没有具有更高密度的邻居，则将不选择邻居但可以看出，这样的样本极有可能被其他样本挑中，形成配对。并且我们只需要测试不超过N对发送到分类器的大小，这大大提高了推理的效率。3.3. 复杂性分析我们的方法的时间复杂度主要来自k-NN搜索。多亏了最近的所有测试样本的特征结构均为（n）。被选择发送到分类器的对的数量不超过样本的数量，因此时间成本也是（n）。因此，我们的方法的总时间复杂度是（nlogn），时间消耗主要是在k-NN搜索中。我们的方法也是内存友好的。流行的基于图学习的方法在整个图上学习需要（ND）空间复杂度，其中N是可以高达数百万的样本的数量，并且D是特征的长度。一般来说，D。在我们提出的方法中，网络的输入仅是长度为D的级联特征向量，并且在训练或推理中将大量N分成批次，因此我们的方法减少了非常可观的内存消耗。我们的时间和内存消耗的细节将在第二节中揭示。4.第一章4. 实验4.1. 实验设置数据集。我们首先在两个大型公共人脸聚类基准MS-Celb-1 M [1]和IJB-B[31]上评估所提出的方法。根据ArcFace [29]的广泛使用的注释，收集了包含来自MS-Cleb-1 M的86Kid的5.8M训练集和测试集按照[7]的设置进行划分，其中子集几乎相等地分为10个部分。我们在一个标记的部分上训练，并从其他9个未标记的部分中选择1，3，5，7和所有部分，得到大小为584K，1.74M，2.89M，4.05M和5.21M的测试集。对于IJB-B，我们使用与[4]相同的设置，采用包含5K id和200K样本的CASIA数据集[30]的随机子集作为训练集，并在IJB-B的三个最大子任务id的数量方法FPFB时间K均值[3，9]79.21 81.2311.5hHAC [10]70.63 70.4612.7hDBSCAN [2]67.93 67.171.9mARO [11]13.6 1727.5mCDP [6]75.02 78.72.3mL-GCN78.68 84.3786.8mLTC [5]85.66 85.5262.2mGCN（V+E）[7]87.93 86.0911.5mDANet [8]90.6 −5.5m我们90.6789.541.7m3851100我们的达内K-MeansGCN（V+E）LTC75CDPL-GCN50DBSCANHACP25Aro0K-MeansHACDBSCANAROCDP公司简介GCN（V+E）达内我们1 10 102103运行时间（分钟）（b）GCN（V+E）图4.我们的方法和比较方法的准确性和效率之间的权衡。请注意，运行时间轴是对数标度。在三个子任务中，分别是512、1,024和1,845，分别包含18,171、36,575和68,195个图像。我们还评估了我们的聚类方法的数据集以外的人脸图像，以证明我们提出的方法聚类任务的泛化。为了进行公平的比较，我们使用与[7]相同的设置，其中来自4K类别的约26K图像的训练集和来自4K类别的约27K图像的测试集从DeepFashion中采样[17]标杆指标. 我们提出的方法和比较方法的性能分别在两个流行的聚类度量[15]上进行评估，即成对F分数和BCubedF分数[16]这两个度量被计算为精确度和召回率的调和平均值，并且在以下部分中将被称为FP和FB实施详情。为了在成对关系分类器中构造邻居特征并计算秩加权密度，对于每个数据集，我们在所有k-NN场景中使用相同的k。k的选择主要取决于训练集中聚类的大小。具体地，对于 MS-Celeb-1 M、 IJB-B 和Deep-Fashion，k分别被设置为80、40和5。分类器堆叠有3个完全连接的层。在训练中，我们使用SGD优化器，开始学习率为0.01，动量为0.9，权重衰减为5e-4。批量大小被设置为2048，并且训练在60个时期之后停止在秩加权密度的计算中，我们使用幂函数作为加权函数：f i=（k − i）p。（五）将在消融研究中进一步讨论p的设置4.2. 方法比较我们比较我们的方法与一系列的人脸聚类基线。这些方法通常可以被分类为常规方法和基于学习的方法。的图5.来自MS-Celeb-1 M数据集的两个样本簇在t-SNE上的特征分布。(a)地面真相。具有相同颜色的节点属于同一类。(b)GCN（V+E）的结果[7]。(c)我们方法的结果。我们的方法预测更准确，产生更少的单例集群。前一类中的代表性方法包括K均值[3，9]、分层聚集聚类（HAC）[10，27]、基于密度的噪声应用空间聚类（DBSCAN）[2]和近似秩序（ARO）[11]。后者表现出更有希望的结果，包括Cyclosus-Driven Propagation（CDP）[6]，L-GCN [4]，Learning to Cluster（LTC）[5]，GCN（V+E）[7]和DANet [8]，其中后两个分别在FB和FP上实现了先前的最佳性能。结果我们首先在MS-Celeb-1 M数据的第一测试部分上测试我们的方法和其他比较方法，该数据包含8，573个身份的580K表1中呈现的结果比较了在该集合上不同方法的成对F分数和B立方F分数性能。我们的方法在这两个指标方面都达到了最先进的性能，超过了以前的所有方法。图5在t-SNE上可视化了测试集的两个聚类，其中我们可以看到我们的方法在生成更少的单例聚类和更准确地从大聚类中聚类样本方面表现得更好。通过将人脸聚类公式化为成对分类，并在对级别而不是图级别上进行学习，我们的方法实际上从基本的角度处理人脸聚类任务，并面临聚类的最终问题，即。多个样本的同质性。为了证明我们的无阈值方法的鲁棒性，评估了最先进的方法GCN（V+E）[7]在不同阈值干扰下的FP和FB图6示出了该方法的性能对阈值非常敏感，这在应用于各种真实世界场景时引入了不一致性。但我们的方法不需要阈值，因此是一个更强大的方法。(a)地面实况F-score3852表2.使用来自MS-Celeb-1 M数据集的不同数量的未标记图像进行人脸聚类的比较10.80.60.4表3.与IJB-B的比较 F512、F1024和F1845是不同测试集的成对F分数。0.200 0.1 0.2 0.3 0.40.5 0.6 0.7 0.8 0.9阈值图6. GCN（V+E）[7]在不同阈值下在MS-Celeb-1 M数据集上的推理性能。上面的两条线是我们的方法的FP和FB性能。GCN（V+E）[7] 607938.4760.06 18.5s我们的601837.6762.17 0.6s表4.比较DeepFashion。此外，我们进行了一个实验，比较不同的方法的泛化对增量的未标记图像的数量。表2中的结果表明，与其他方法相比，我们的方法可以更好地推广，并在更大的测试集上实现一致的改进。实验结果表明，该方法在大规模场景下具有更好的鲁棒性和更好的性能。表3给出了我们的方法和另一个大型人脸聚类基准IJB-B上的比较方法的结果可以看出，我们的方法在该数据集的三个最大的子任务上获得了相当甚至更好的性能。表4显示，在DeepFashion等其他聚类基准中，我们的方法也获得了令人满意的性能。通过在BCubed F-得分中以2.11%的领先优势优于最先进的方法，这进一步揭示了我们所提出的方法在聚类任务上的泛化能力。内存和时间消耗。我们运行我们的experi- ments在一个单一的Telsa P40与24 G内存容量。如上所述，大规模图上的图学习可能非常消耗存储器，因此在某些现实世界场景中变得不切实际乘坐GCN（V+E）[7]例如，GCN-V在MS-Celeb-1 M数据集上，为了减少内存消耗，只使用了一层，但当测试集的大小达到2.89M时，仍然会产生内存不足的错误。在基于图的方法中，可以在推理阶段使用小批处理来减少内存消耗。然而，小批量会导致批量之间的链接丢失，这会影响该方法的性能。此外，对小批量图的不同划分会带来不同的性能，这使得这些方法不稳定。然而，在我们的方法中，由于分类器的输入仅是具有批量输入的1-D特征，因此我们可以将我们的方法应用于任何大小的数据集，并灵活地设置批量大小以适应我们可访问的计算资源，甚至仅在CPU上。以及2048的批量大小Fp-GCN（V+E）Fb-GCN（V+E）Fp-我们的Fb-我们的F-score数量的图像584K1.74M2.89M4.05M5.21M方法/指标FPFBFPFBFPFBFPFBFPFBK均值[3，9]79.21 81.2373.0475.269.8372.3467.970.5766.4769.42HAC [10]70.63 70.4654.469.5311.0868.621.467.690.3766.96DBSCAN [2]67.93 67.1763.4166.5352.566.2645.2444.8744.9444.74ARO [11]13.6 178.7812.427.310.966.8610.56.3510.01CDP [6]75.02 78.770.7575.8269.5174.5868.6273.6268.0672.92L-GCN78.68 84.3775.8381.6174.2980.1173.779.3372.9978.6LTC [5]85.66 85.5282.4183.0180.3281.178.9879.8477.8778.86GCN（V+E）[7]87.93 86.0984.0482.8482.181.2480.4580.0979.379.25我们90.6789.5486.9186.2585.0684.5583.5183.4982.4182.4方法F512F1024F1845K均值[3]61.260.360.0DBSCAN [2]75.372.569.5ARO [11]76.375.875.5L-GCN83.383.381.4DANet [8]83.483.382.8我们84.483.382.7方法集群FPFB时间K均值[3]399132.8653.77573sHAC [10]1741022.5448.77112sDBSCAN [2]1435025.0753.232.2sMeanShift [12]843531.6156.732.2h光谱[14]250429.0246.42.1hARO [11]1050426.0353.016.7sCDP [6]662228.2857.831.3sL-GCN1013728.8558.9123.3sLTC [5]924629.1459.1113.1s3853−表5.基于不同特征的分类器的性能阳性是具有相同类别的样本对。功率预处理记录PFP预处理B记录BFB（一）（b）第（1）款电话：+86-021 - 8888888传真：+86-021 - 88888880.5 89.16 89.12 89.14 92.33 85.37 88.711 90.2689.1389.69 92.9185.589.053 92.11 88.88 90.47 93.84 85.44 89.45592.9488.590.67 94.5185.0689.542019 - 04 - 29 00：00：00表6.功率对MS-Celeb-1 M数据集的影响仅需0.7G内存从表1中可以看出，我们的方法也是时间有效的，实际上是最快的，甚至超过了传统方法。为了公平比较，我们分析了MS-Celeb-1 M上所有监督方法的推断时间，N=584K，如[7]所示，我们的方法在单个GPU上花费约1.7m而IJB-B上的F512图4示出了准确性和效率之间的折衷。实验结果表明，该方法不仅具有最佳的性能，而且在时间消耗上也有很大的优势。总之，我们的方法以最快的速度实现了最先进的性能，内存使用量非常有限。4.3. 消融研究我们主要在MS-Celeb-1 M数据集上进行消融研究输入功能的设计。我们探索不同的设计发送到分类器的输入功能。正如在SEC中所讨论的那样。3，给定两个特征，首先想到的是两个原始特征向量的简单连接，我们将其记为原始特征。为了强调邻居特征的重要性，我们设计了邻居特征的相似性加权求和，并将它们记为加权邻居特征。原始特征和加权邻居特征的级联最终被记为组合特征。我们使用完全相同的超参数来训练基于不同种类特征的分类器，以便进行更清晰的比较。如表5所示，基于加权邻居特征的分类器的性能大大优于基于原始特征的分类器，因为附近的邻居更有可能与样本共享相同的身份，从而提供关于类别的上下文信息，这最终提高了分类器的性能组合特征显示出比加权邻域图7.t-SNE上不同数据集的特征分布(a)MS-Celeb-1 M数据集。(b)DeepFashion数据集特征，因为它更多地关注样本本身，这可以减少具有不同类别的邻居的可能影响。秩加权密度的设计。为了在密度计算中更好地考虑近邻，减少离群点的影响，采用单调递减函数对相似性求和进行加权我们选择简单的幂函数f（i）=（ki）p并改变幂以获得最佳结果。表6显示了功效对MS-Celeb-1M数据集的影响当幂设置为0时，秩加权密度变为原始密度我们可以看到，设计的秩加权密度带来了一致的性能增益，幂5在精度和重调用之间实现了最佳平衡我们认为，每个数据集上的最佳功率选择取决于数据集本身的稀疏性图7对来自t-SNE上的不同数据集的特征分布进行可视化在像DeepFashion这样的数据集上，样本分布得更均匀，不同功率选择的影响然而，在像MS-Celeb-1 M这样的超过1M图像的大规模数据集上，样本在特征空间中分布非常密集，功率应该更高，以使具有不同距离秩的邻居的影响更容易区分。5. 结论本文提出了一个简单而优雅的人脸聚类框架的基础上成对分类。采用分类器确定样本之间的关系，通过对层学习而不是图层学习，大大减少了内存消耗，也使人脸聚类任务从人工设置阈值的推理中解放出来。此外，为了进一步提高效率，我们设计了一种新的秩加权密度来指导发送到分类器的对的在公共基准上的大量实验结果表明，我们的方法在准确性和效率方面都取得了优异的性能，并且在较大的测试集和其他聚类任务中也具有很好的泛化能力。特征设置精度召回精度原始92.283.284.7加权邻域94.497.995.2组合95.497.595.63854引用[1] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。在ECCV。施普林格，2016年。[2] 张文，张文，等.一种基于密度的聚类算法.北京：科学出版社，2000.在KDD，1996中。[3] 斯图尔特·劳埃德。脉码调制中的最小二乘量化IEEE信息论学报，28（2）：129[4] 中道王、梁铮、李雅丽、王胜金基于图卷积网络的人脸聚类.在IEEE计算机视觉和模式识别会议论文集，第1117-1125页[5] 雷阳、詹晓航、陈大鹏、严俊杰、陈Change Loy和林大华。学习在亲和图上聚类人脸在IEEE计算机视觉和模式识别会议论文集，第2298- 2306页[6] Xiaohang Zhan，Ziwei Liu，Junjie Yan，Dahua Lin，and Chen Change Loy.用于人脸识别的大规模未标记数据中的共识驱动传播。在ECCV，2018。[7] Lei Yang，Dapeng Chen，Xiaohang Zhan，Rui Zhao，Chen Change Loy，and Dahua Lin.通过置信度和连通性估计学习聚类在CVPR，2020年。[8] Senhui Guo ， Jing Xu ， Dapeng Chen ， Chao Zhang ，Xiaogang Wang，and Rui Zhao.面向人脸聚类的密度感知特征嵌入在CVPR，2020年。[9] 大卫·斯卡利。Web规模的k-means聚类。第19届国际万维网会议论文集，第1177-1178页。ACM，2010年。[10] 罗宾·西布森Slink：单链路聚类方法的最佳有效算法TheComputer Journal，16（1）：30[11] 按身份聚集数百万张面孔。TPAMI，40（2）：289[12] 成义宗。均值漂移、模式搜索和聚类。IEEE模式分析与机器智能汇刊，17（8）：790[13] Aaron Nech和Ira Kemelmacher-Shlizerman。百万级人脸识别的公平竞争环境。CVPR，2017年。[14] Jeffrey Ho，Ming-Hsuan Yang，Jongwoo Lim，Kuang-Chih Lee，and David Kriegman.在不同光照条件下对物体外观进行聚类在CVPR，2003年。[15] Yichun Shi，Charles Otto，and Anil K Jain.面聚类：表示和成对约束。 IEEE Trans-actions on InformationForensics and Security，13（7）：1626[16] EnriqueAmigo´， JulioGonzalo， JavierArtiles，andFelisaVerdejo.基于形式约束的外部聚类评价指标的比较。信息检索，12（4）：461[17] 刘紫薇，罗平，邱石，王晓刚，唐晓鸥. Deepfashion：支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，2016年6月。[18] Je f fJohnson，MatthijsDouze，andHer ve'Je'gou. 用gpu进行十亿级相似性搜索。IEEE Transactions on Big Data，2019。[19] Chunhui Zhu，Fang Wen，and Jian Sun.一种基于排序距离的人脸标注聚类算法。CVPR，2017年。[20] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。[21] 亚历克斯·罗德里格斯和亚历山德罗·莱奥。通过快速搜索和找到密度峰值进行聚类。Science，344（6191）：1492[22] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入CVPR，2015。[23] Xingcheng Zhang，Lei Yang ，Junjie Yan ， and DahuaLin.通过动态类别选择加速大规模分类训练。2018年第32届AAAI人工智能会议[24] Mihael Ankerst ， Markus M Breunig ， Hans-PeterKriegel，andJ？r gSande r. 光学：对点进行排序以识别簇结构。在ACM Sigmod记录，第28卷，第49-60页中。ACM，1999年。[25] Yue He，Kaidi Cao，Cheng Li，and Chen Change Loy.合并不合并？通过模仿学习来对人脸进行分组。第三十二届AAAI人工智能会议，2018。[26] 陈杰、马腾飞、曹啸。Fastgcn：通过重要性采样使用图卷积网络进行 arXiv 预印本 arXiv ： 1801.10247 ，2018。[27] Dani e lMüllner等fastcluster：用于r和python的fasthierarchical，agglomerativeJournal of Statistical Software，53（9）：1[28] Patrick Wieschollek，Oliver Wang，Alexander Sorkine-Hornung，and Hendrik Lensch. gpu上高效的大规模在CVPR，2016年。[29] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。CVPR，2019年。[30] Dong Yi，Zhen Lei，Shengcai Liao和Stan Z.李从头开始学习人脸表示。arXiv预印本arXiv：1411.7923，2014。[31] Cameron Whitelam，Emma Taborsky，Austin Blanton，BriannaMaze ， Jocelyn Adams ， Tim Miller ， NathanKalka，Anil K Jain，James A Duncan，Kristen Allen，etal. janus benchmark-b人脸数据集。CVPR研讨会，第592- 600页

下载后可阅读完整内容，剩余1页未读，立即下载