基于一致性驱动传播的海量未标记人脸识别数据

161 浏览量更新于2023-10-13 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于一致性驱动传播的海量未标记数据人脸识别詹晓航1[0000−0003−2136−7592]，刘紫薇1[0000−0002−4220−5958]，严俊杰2、林大华1[0000−0002−8865−7896]、陈昌来3[0000−0001−5345−1591]1香港中文大学-商汤科技联合实验室{zx017，zwliu，dhlin}@ ie.cuhk.edu.hk2商汤科技有限公司3南洋理工大学yanjunjie@sensetime.comccloy@ieee.org抽象。人脸识别在近几年取得了很大的进展，主要归功于高容量的人脸识别模型的设计和大量的标记数据的采集。然而，将当前百万级的身份标注规模扩大变得越来越令人在这项工作中，我们表明，未标记的人脸数据可以作为有效的标记的。在这里，我们考虑一个设置密切模仿现实世界的情况下，从不受约束的环境中收集的未标记的数据我们的主要观点是，虽然类信息不可用，但我们仍然可以通过以自底向上的方式构建关系图来忠实地近似这些语义关系我们提出了一种基于多视图驱动的传播算法（CDP）来解决这个具有挑战性的问题，它包含两个模块，即“一致性”和“媒体”，通过仔细地聚合多视图信息来鲁棒地处理多视图对。大量的实验验证了这两个模块的有效性，以丢弃离群值和挖掘硬阳性。使用CDP，我们仅使用9%的标签就实现了MegaFace识别挑战的78.18%的令人信服的准确率，相比之下，当不使用未标记的数据时为61.78%，当使用所有标签时为78.52%。1介绍现代人脸识别系统主要依赖于高容量深度神经网络的能力以及大量注释数据来学习有效的人脸表示[26，14，21，29，11，3，32]。从CelebFaces [25]（200 K图像）到MegaFace [13]（4. 7M图像）和MS-Celeb-1 M [9]（10M图像），收集并标记越来越大规模的人脸数据库虽然已经取得了令人印象深刻的结果，我们现在陷入了一个困境，有成千上万的人工标记小时消耗背后的每一个百分点的准确性增益。更糟糕的是，将当前注释大小扩展到更多标识变得越来越困难。实际上，几乎所有现有的大型人脸数据库都遭受一定程度的注释噪声[5];这让我们质疑人类注释的可靠性。2X. 詹，Z.Liu，L.Lin和C.C. Loy为了缓解上述挑战，我们将重点从获得更多的手动标签转移到利用更多的未标记数据。与大规模的身份标注不同，未标记的人脸图像非常容易获得。例如，使用由现成的面部检测器促进的网络爬虫将产生丰富的野生面部图像或视频[24]。如何利用现有的大量未标记数据来提高大规模人脸识别的性能成为关键这个问题让人想起传统的半监督学习（SSL）[34]，但在两个方面与SSL有显着不同：首先，从无约束的环境中收集未标记的数据，其中姿势，光照，遮挡变化非常大。在这种野外场景中，可靠地计算不同未标记样本之间的相似性是不平凡的其次，在收集的未标记数据和现有的标记数据之间通常没有身份因此，流行的标签传播范例[35]在这里不再可行。在这项工作中，我们研究了这个具有挑战性但有意义的半监督人脸识别问题，可以正式描述如下。除了一些具有已知面部身份的标记数据之外，我们还可以访问大量的野生未标记样本，这些样本的身份与标记的样本是排他性我们的目标是最大限度地利用未标记的数据，使最终的性能可以密切匹配的性能时，所有的样本被标记。这里的一个关键见解是，尽管未标记的数据没有为我们提供直接的语义类，但它的内部结构（可以用图表示）实际上反映了高维人脸表征的分布在跨任务调优中也采用了使用图来反映结构的想法[31]。通过图，我们可以对实例及其关系进行采样，以建立辅助损失来训练我们的模型。从嘈杂的面部数据中找到可靠的内部结构是不平凡的。众所周知，由单一模型诱导的表示通常容易产生偏差并且对噪声敏感。为了解决上述挑战，我们采取自下而上的方法来构建图，首先可靠地识别具体来说，我们提出了一种新的共识驱动的传播（CDP）1方法，在大量的未标记数据的图形建设。它包括两个模块：“共同”对候选人进行审查，以及“修改”或“汇总”所有形式，以供最终决定。“committee”模块由最初提出用于主动学习的quure-by-committee（QBC）[ 22]来实现。不同于QBC的测量不一致，我们从一个委员会，其中包括一个基本模型和几个辅助模型收集同意。委员会的异质性揭示了对未标记数据结构的不同看法然后，选择正对作为委员会成员最同意的对实例，而不是基本模型最有信心的对实例。因此，委员会模块能够从未标记的数据中选择有意义的和硬的正对，除了简单的对之外，补充从刚刚标记的1项目页面：http://mmlab.ie.cuhk.edu.hk/projects/CDP/共识驱动传播3数据除了大多数QBC方法所实践的简单投票方案之外，我们还可以更有效地从委员会中收集“意见”。中介器是一个二元分类器，它产生关于选择一对或不选择一对的最终决策我们仔细设计了中介的输入，以便它涵盖有关内部结构的分布信息输入包括1）委员会的投票结果，2）配对之间的相似性，以及3）配对之间的局部密度。最后两个输入跨通信和基站模块的所有成员测量。对于“comm itte”模块和“med i at”模块，我们可以在未标记数据上使用直接graph来创建对象。最后，我们在图上传播伪标签，以形成一个辅助任务，用于使用未标记的数据训练我们的基础模型。总而言之，我们研究了使用大量未标记数据（超过600万张图像）进行大规模人脸识别。我们的设置非常类似于现实世界的情况下，从不受约束的环境中收集的未标记的数据和他们的身份是从标记的独家。我们提出了共识驱动传播（CDP）来解决这个具有挑战性的问题，具有两个完全独立的模型，“commitee”和“medidiat”，其中通过聚合多视图信息来鲁棒地选择积极的人脸对。我们表明，明智地使用未标记的数据可以补充稀缺的手动标签，以实现令人信服的结果。通过共识驱动的传播，与完全监督的标签相比，我们可以只使用9%的标签来实现类似的结果2相关工作半监督人脸识别。半监督学习[34，4]被提出来利用大规模的未标记数据，给定少量的标记数据。它通常旨在通过各种方式将标签从有限的标签传播到整个数据集，包括自训练[30，19]，共同训练[2，16]，多视图学习[20]、期望最大化[6]和基于图形的方法[36]。对于人脸识别，Roli和Marcialis [18]采用了基于PCA的分类器的自训练策略在这项工作中，未标记的数据的标签推断与初始分类器，并添加到增加标记的数据集。Zhao等人。 [33]采用线性判别分析（LDA）作为分类器，并类似地使用自训练来推断标签。 Gao等人[8]提出了一种基于半监督稀疏表示的方法来处理少量学习中的问题，即标记的示例通常会被讨厌的变量（如糟糕的照明，戴眼镜）破坏。所有上述方法都是基于这样的假设，即类别集在标记数据和未标记数据之间共享。然而，如前所述，当面部身份的数量变得巨大时，这种假设是不切实际的委员会质询。委员会查询（QBC）[22]是一种依赖于多个判别模型来探索分歧的策略，从而为机器学习任务挖掘有意义的示例 Argamon-Engelson等[1]将QBC范式扩展到概率分类的上下文中，并将其应用于Nat-4X. 詹，Z.Liu，L.Lin和C.C. Loy语言处理任务。 Loy等人[15]扩展QBC以通过联合探索-利用主动学习的框架来发现未知类。这些以前的作品利用委员会的分歧进行无门槛选择。相反，我们利用委员会的共识，并将其扩展到半监督学习场景。3方法我们首先提供一个概述所提出的方法。我们的方法包括三个阶段：1) 监督初始化-给定一小部分标记数据，我们以完全监督的方式分别训练基础模型和委员会成员。更准确地说，基地模型B和所有N委员{C i|i = 1，2，. . . ，N}使用标记数据D1学习从图像空间到特征空间Z的映射。对于基本模型，这个过程可以表示为映射：FB：D l<$$>→ Z，对于委员会成员：FCi：D l<$$> → Z，i = 1，2，. . . 、N.2) 共识驱动的传播- CDP应用于未标记的数据，以选择有价值的样本和推测其上的标签框架如图1所示我们使用来自第一阶段的训练模型来提取深度特征以用于a处和c处的非线性神经网络组。 “committee“是指地理位置的差异。该“改进”或“网络”任务被设计为聚集k-NN图的局部结构中的改进意见以选择有意义的与选定的对，共识驱动的图上创建的未标记的数据和节点被分配与伪标签通过我们的标签传播算法。3) 使用标记和未标记数据进行联合训练-最后，我们在多任务学习框架中使用标记数据重新训练基础模型，使用伪标签重新训练未标记数据3.1共识驱动传播在本节中，我们正式介绍CDP的详细步骤。i. 构建k-NN图。对于基础模型和所有委员会成员，我们向他们提供未标记的数据Du作为输入，并提取深度特征FB（Du）和FCi（Du）。与功能，我们找到k最近的邻居为每个样本在Du的余弦相似。这导致了不同版本的k-NN图，基本模型为G B，每个委员会成员为G C i，总共N+1个图。图中的节点是未标记数据的示例。k-NN网格中的每个边都是一个对，并且来自该对的所有对都是用于后续选择的候选，如图12所示。1.一、ii. 收集委员会的意见。委员会成员通过不同的映射函数{F C i}将未标记的数据映射到特征空间|i = 1，2，. . . ，N}。假设由基础模型创建的图中的两个任意连接的节点n0和n1，并且它们由深度特征{FCi（n0）}的不同版本表示|i = 1，2，. . . ，N}和{FCi（n-1）|i = 1，2，. . . ，N}。commit- tee提供以下因素：共识驱动传播51 2基础模型123482 35679123未标记的数据委员会#1458679123委员会#n458中介的输入679R=Ci1424对自25基础模型8912✓1 4✗2 3 ✓2 4✗2 5✓61234 587 98 9✓中介者（MLP分类器）分类对图驱动图传播标签深度特征KNN图图1：共识驱动的传播。我们使用基本模型和委员会模型从未标记的数据中提取特征并创建k-NN图。中介器的输入由基本模型和补偿的k-NN图的各种局部统计量构造。通过使用“consensensus-drivengraph”这一改进的数据库概念来解决这一问题最后，我们在图中进行预处理，并且通过递归地消除低置信度边缘来结束对图像的预处理。1) 两个节点之间的关系R直观地，它可以被理解为两个节点在每个委员会成员的视图中是否是邻居。.（n0，n1）Ci1若（n0，n1）∈E（Gci），i = 1，2，. . . ，N，（1）0否则。其中G_c_i是第i个委员会模型的k-NN图，并且E表示图的所有边2) 两个节点之间的亲和性A。它可以被计算为在特征空间中测量的相似性，具有由委员会成员定义的映射函数。假设我们使用余弦相似度作为度量，A（n0，n1）= cos（∠ F（n），F（n）>），i= 1，2，. . . 、N.（二）CiCiCi13) 每个节点的局部结构这一概念可以指节点的初始分布或延迟分布、节点分布或延迟分布以及节点的高分布或延迟分布。其中，一阶邻域在表征局部结构中起着最重要的作用R. 我不知道。并且可以将其表示为节点x与其所有邻居x，k之间的相似性的分布，其中k = 1，2，… K.x={ cos（∠FC（x），FCi（x k）>），k =1，2，. . . ，K}，i = 1，2，. . . 、N.（三）就像在Fig中使用的2、从图中可以看出，委员们对关系的D我6X. 詹，Z.Liu，L.Lin和C.C. LoyCiCi基地委员会✓关系：1A值：0.8关系：0A值：0.7关系：1A值：0.7关系：1A值：0.6关系：1A值：0.7✗关系：1A值：0.7关系：1A值：0.6关系：0A值：0.3关系：0A值：0.5关系：0A值：0.4图2：委员会和调解员。该图说明了委员会和调解人的机制。图中显示了基础模型和委员会带来的不同版本图中的一些采样节点。在每一行中，两个红色节点是候选对。第一行中的对被介体分类为正，而第二行中的对被认为是负。该委员会提供“关系高度”、“效率”和“本地化”方面的不同操作。“局部纹理”表示为一阶（红色边缘）和二阶（橙色边缘）的网格的分布。该图不完全显示两个节点中的一个（具有双圆的节点）的“局部图”亲和力和局部结构，由于其异质性的性质从这些不同的意见中，我们寻求在下一步通过调解人找到一个同意。iii. 通过调解员汇总意见。中介者的作用是聚集和协调用于配对的共同的中介者选择。我们将中介器作为多层感知器（MLP）分类器进行复用，尽管其他类型的分类器也同样适用。从模型的图中提取的所有对都构成候选。调解员应重新权衡委员会成员的意见，并通过为每一对分配一个概率来表明一对是否具有相同的身份，即、正的，或者具有不同的身份，即，，阴性。对于每一对（n0，n1），到中介器的输入是包含三个部分（herewededededenoteB）的级联向量。asC0forsimpΣlicityofnotation）：1) “r委员会∈RN：IR=.. . . R（n0，n1）. . .Σ，i = 1，2，. . . ，N，从2) “affi∈RN+1：IA=. . . A（n0，n1）. . .，i =0，1，2，. . . ，N，从基础模型和委员会都3) “n和dID平均值= ... . . En0ΣCi.. . .，的。. .En1Ci . . .Σ，i = 0，1，2，. . . ，N，IDvar= ... . . σn0ΣCi.. . . ，的。. . σn1Ci . . .Σ，i = 0，1，2，. . . ，N，（四）调解人调解人DDDD共识驱动传播7从每个节点的基本模型和委员会。结果呢在输入向量的6N + 5维中。在Dl上训练中介器，并且目标是最小化对应的交叉熵损失函数。为了测试，将来自Du的对馈送到中介器中，并且收集具有高概率为阳性的那些对由于大多数正对是冗余的，我们设置了一个高阈值来选择对，从而牺牲召回率，以获得高精度的正iv. 伪标签传播。在前一步骤中由中介器选择的对组成“共识驱动图”，其边通过对的概率来加权以成为概率。不是所有的图都是连通图。与传统的标签传播算法不同，我们不假设图上的标记节点。为了准备后续的模型训练，我们根据节点的连接性传播伪标签。为了传播伪标签，我们设计了一个简单而有效的算法来识别连接组件。首先，我们根据图中的当前边找到连通组件对于每个识别出的分量，如果其节点号大于预定义值，则我们消除分量中的低得分边缘，从其找到连接的分量，并将新的不相交分量添加到队列中如果组件的节点编号低于预定义值，则我们使用新的伪标签注释组件中的所有节点。我们重复这个过程，直到所有符合条件的组件都被标记时队列为空。3.2使用标记和未标记数据的联合训练一旦为未标记的数据分配了伪标签，我们就可以使用它们来增强标记的数据并更新基础模型。由于两个数据集的身份交叉是未知的，我们以多任务训练方式制定学习，如图所示。3.这两个任务的CNN架构与基本模型完全相同，并且权重是共享的。这两个CNN都遵循了一个完整的连续性，以将每个节点的速度映射到特定的节点。tivela bΣelspace. 最优解为L=λ xl，yl（xl，yl）+ λxl，yl（xl，yl）+ λxl，yl（xl，yl）+ λ xl。（1−λ）xu，ya<$（xu，ya），其中损失<$（·）与训练时的损失相同基础模型和委员会成员。在下面的实验中，我们使用softmax作为损失函数。但请注意，对哪种损失配备CDP没有限制。在第4.3节中，我们表明，尽管使用了高级损失函数，CDP仍然有很大的帮助在该等式中，{xl，yl}表示标记数据，而{xu，ya}表示未标记数据和分配的标记。λ∈（0，1）是平衡两个分量的权重。它的值是固定的以下比例的图像中的标记和未标记的集合。该模型是从头开始训练的。4个实验训练集。MS-Celeb-1 M [9]是一个大规模的人脸识别数据集，包含100K身份的10M训练样本以解决原件8X. 詹，Z.Liu，L.Lin和C.C. Loy标记数据基础体系结构FC #1损失#1具有指定标签的未标记数据基础体系结构FC #2损失#2共享参数图3：以多任务方式更新模型。两个CNN的权重是共享的。“F C”d e n o t e sfully-conn e c t e d a s i s i f i e r。我们的实验是将新的交叉熵损失作为目标。注释噪声，我们清理了官方训练集并抓取了更多身份的图像，产生了大约7M的图像，其中有385K个身份。我们将清洗后的数据集按身份随机分成11个平衡的部分，以确保不同部分之间没有身份重叠。请注意，尽管我们的实验采用了这种较难的设置，但我们的方法可以很容易地应用于身份重叠的设置，因为它对身份没有任何假设在不同的部分中，一个部分被认为是标记的，并且其他十个部分被认为是未标记的。我们还使用其中一个未标记的部分作为验证集，以调整超参数并执行消融研究。标记部分包含634K图像，具有35，012个身份。仅在标记部分上训练的模型完全监督版本使用来自所有11个部分的完整标签进行训练。为了研究未标记数据的实用性，我们比较了不同的方法，分别包含2，4，6，8和10部分未标记数据。测试集。MegaFace [13]是目前最大的人脸识别公共基准。它包括一个包含1M图像的图库集，以及来自FaceScrub [17]的具有3，530个图像的探针集。然而， FaceScrub 中有一些噪声图像，因此我们使用InsightFace2提出的噪声列表来清理它。我们采用MegaFace基准测试中的rank-1识别率，即从1M图库中选择前1个图像并平均前1个命中率。IJB-A [17]是一个人脸验证基准，包含来自500个身份的5，712张图像。我们在假阳性率为0.1%的条件下报告真阳性率0.001用于评估。CommitteeSettup. 为了实现与高数据率的“兼容”，我们采用了流行的CNN架构，包括ResNet18[10]，ResNet34，ResNet50，ResNet101，DenseNet121[12]，VGG16[23]，InceptionV3[28]，Inception-ResNetV2[27]和NASNet-A的较小变体[37]。实验中委员人数为8人，但我们也探讨了我们用数据的标记部分训练了所有架构，性能如表1所示。还列出了参数的数量Tiny NASNet-A在所有架构中表现出最好的性能模型ensemble结果也。根据经验，最佳的整体组合是2InsightFace：https://github.com/deepinsight/insightface/tree/master/src/megaface共识驱动传播9表1：基本模型和委员会成员的性能和参数数量。架构MegaFace IJB-a参数基地微型NASNet-A61.7875.8720块1M委员会VGG1650.2270.7575. 6MResNet1851.4869.2323岁5MResNet3452.4472.52三十三岁。6MInception V352.8275.53三十三岁。0m的ResNet5056.1673.21 三十六3米ResNet10157.8774.5255. 3米Inception-ResNet V258.6875.13 66岁。1MDesNet12160.7769.7828岁9M合奏（多次）69.8676.97-组装四个性能最好的模型，即，Tiny NASNet-A，Inception-Resnet V2，DenseNet 121，ResNet 101，在两个基准上的收益率分别为68.86%和76.97%。我们选择TinyNASNet-A作为我们的基础架构，其他8个模型作为committee-meber的。下面的性能指标决定了“通用”的性能，尽管它是最好的，但仍然会影响到数据库的性能。在第4.3节中，我们还通过切换基础架构来证明我们的方法具有广泛的适用性。I mplementationDetals. 该“mediat“是一个MLP c l as i f i e r w i t h2 h i d e n层，每层包含50个节点。它使用ReLU作为激活函数。在测试时，我们将概率阈值设置为0。96选择高信心对。更多详情请参见补充材料。4.1比较和结果竞争方法。1)监督式深度特征提取器+分层聚类：我们通过使用监督式深度特征提取器的分层聚类来准备强基线与其他聚类方法相比，层次聚类是一种处理海量数据的实用方法。聚类是作为签名的伪标签并且扩充训练集。为了获得最佳性能，我们使用验证集仔细调整分层聚类的阈值，并丢弃仅具有单个图像的聚类2）通过朴素提交投票的对选择：如果一对被所有委员会成员投票，则选择该对（经验上最佳设置如果在委员会成员的k-NN图中存在边，则对投票进行计数基准。如图4，所提出的CDP方法在两个基准上都取得了令人印象深刻的结果。从结果中，我们观察到：1) 与没有未标记数据的下限（未标记：标记的比率为0：1）相比，CDP在给定不同数量的未标记数据的情况下获得显著且稳定的改进2) CDP通过大规模的管理来实现“高级C语言学习”，从而获得与完全监督的同类产品相比具有竞争力甚至更好的结果。在MegaFace基准测试中，添加10倍未标记数据，CDP产生78.18%的识别率。与无未标记10X. 詹，Z.Liu，L.Lin和C.C. LoyMegaface等级-1识别率@1M IJB-A TPR @ FPR=0.001图4：MegaFace识别任务和IJB-A验证任务的性能比较，其中未标记数据的不同比例添加到标记数据的一部分。CDP被证明1）在下界（未标记：标记的比率为0：1）上获得大的改进; 2）大大优于聚类法; 3）获得比完全监督的对应物有竞争力或甚至更高的结果。结果表明，CDP算法的数据效率为61.78%，CDP算法的数据效率提高了16.4%。值得注意的是，CDP与达到78.52%的完全监督设置之间只有0.34%的差距。结果表明，CDP是能够最大限度地利用未标记的数据。3) C DP通过自动化操作，通过“改进”或“部分”来实现，因为“改进”或“部分”在集成的通用操作中更适用。4) 在IJB-A面部验证任务中，CDP的两个设置都超过完全监督的对应物。在完全监督的基线上观察到的较差结果表明该任务对训练集中的噪声注释的脆弱性，如第1节中所讨论的。相比之下，我们的方法对噪声更具弹性。接下来我们将根据图1讨论这个问题六、目视检查结果。我们将CDP的结果可视化在图1B中。6.可以观察到，CDP在身份标签分配中是高度精确的，而不管不同的背景、表情、姿势和照明。还观察到，CDP在选择成对候选的样本时表现为选择性的，因为它自动丢弃1）不属于任何身份的错误注释的面部;2）具有极低质量的样本，包括严重模糊和卡通图像。这就解释了为什么CDP在IJB-A人脸验证任务中优于完全监督基线（图1）。4）.4.2消融研究我们对验证集进行消融研究，以显示每个组件的增益，如表2所示。包括几个指标以供比较。更高的召回率和精确率将导致更好的共识驱动图，从而提高分配标签的质量。对于分配的标签，成对召回率和精确率反映了标签的质量，并且直接关联最终的标签。8090758570受监督CDP（中介）CDP（投票）80层次聚类656075监督CDP（调解员）CDP（投票）层次聚类55 700 2 4 6 8 10 0246810比值（未标记：标记）比值（未标记：标记）MegafaceIJB-a共识驱动传播11问题2：一个很好的解决方案。 IR：“相关性高”，IA：“有效性高”，ID：“不存在任何错误”。此外，所分配标签的识别和精确度与基准测试结果直接相关。结论是，更多的委员会成员带来了更多有意义的配对，而不仅仅是相关的配对，并且“改进的配对”可以在一个区域中收集多个相关信息的配对。方法委员会编号中介人投入对选择指定标签对number 召回精度成对召回成对精度聚类-----0.5580.950投票0-1 .一、4M0.3130.9660.6800.8292-1 .一、4M0.3130.9860.7830.8494-1 .一、4M0.3130.9870.7910.8626-1 .一、4M0.3130.9840.8010.8778-1 .一、4M0.3130.9790.8070.876调解人8IR1 .一、4M0.3180.9750.8250.822IR+IA二、5M0.5610.9820.8320.888IR+IA+ID二、4M0.5270.9830.8250.912在两个基准上的性能较高的成对召回率表明类别中更多的真实较高的成对精度指示类别中较少的噪声。“通信”的有效性。当我们改变社区成员的数量时，为了方便，我们调整对相似度阈值以获得固定的召回率。随着委员会数量的增加，一个有趣的观察结果是，精确度的峰值出现在数量为4的地方。然而，它不会带来分配的标签的最佳质量，这发生在数字为6- 10的情况下8.这表明，更多的委员会成员将带来更多有意义的配对，而不仅仅是正确的配对。这一结论与我们的假设一致，即委员会能够相对于基础模型选择更多的硬阳性对。“医疗”的功效。对于“改进”，我们将跟踪差异输入设置的影响。在仅输入“相对投票”或“IR”的情况下，这些指标的值接近于直接投票的值。然后，“亲和向量”I可标记为对所选择的标记对的检索和预处理，并且还提高了所分配的标记的成对召回率和精确度。“邻居ID”是指和ID值，以确定所指定标签的数量。这些改进源于这些方面的创新所带来的效果，以及“改进”或“改进”所带来的效果。4.3进一步分析不同的基础架构。在之前的实验中，我们选择Tiny NASNet-A作为基本模型，其他架构作为委员会成员。为了研究基础模型的影响，这里我们将基础模型分别切换到ResNet 18、ResNet 50、Inception-ResNetV2，并在表3中列出它们的性能我们观察到从较低水平持续和大幅改善，12X. 詹，Z.Liu，L.Lin和C.C. Loy表3：不同基础架构的比较。下限：仅在1倍标记数据上训练的模型;CDP：我们的半监督模型，包含1倍标记数据和10倍未标记数据;监督：模型在所有具有标签的11倍数据上训练。使用更高容量的体系结构，CDP可以实现更大的改进。基地ResNet18ResNet50微型NASNet-A Inception-ResNet V2MegaFace IJB-a MegaFace IJB-a MegaFace IJB-a MegaFaceIJB-a下界51.4869.2356.1673.1261.7875.8758.6875.13CDP72.7586.2375.6688.3478.1890.6481.8892.07监督73.8885.0877.1387.9278.5289.4084.7491.90表4：k在k-NN中的影响。改变k提供了成对召回和所分配标签的精确度之间的权衡。IRIAID表示IDvar图5：中介权重。绑定在所有基础架构上。具体来说，通过高容量Inception- ResNetV2，我们的CDP在MegaFace和IJB-A基准测试中分别达到81.88%和92.07%，分别提高了23.20%和16.94%。考虑到CDP使用与下限（9%）相同的标记数据量，这一点非常重要所有标签）。我们的性能也远远高于基本模型和委员会的集成，这表明CDP实际上利用了未标记数据的内在结构来学习有效的表示。k-NN中的不同k。在这里，我们检查k在k-NN中的效果。在该比较研究中，一对为正的概率阈值固定为0。96.如表4所示，k越高，选择的对越多，因此共识驱动图越密集，但精度几乎不变。请注意，召回率下降是因为基数真对的数量比所选对的数量增加得更快。实际上，如果选择的对足够多，对于指定的标签，密集的图带来更高的两两召回率和更低的精度。因此，这是通过改变k在成对召回率和所分配标签的精确度之间的权衡。委员会异质性。为了研究委员会异质性的影响，我们进行实验，同质委员会架构。同质委员会由八个ResNet50模型组成，这些模型使用不同的数据馈送顺序进行训练，并且基础模型与异构设置相同。为了公平比较，ResNet50的模型容量处于异质委员会的中位数。如表5所示，异质委员会通过以下两种方式比同质委员会表现更好：K对选择指定标签对number 召回精度成对召回成对精度10 1.61M 0.6010.9850.8100.94020 2.54M0.5270.9830.8250.91230 2.96M0.5070.9820.8340.88640 3.17M 0.4640.9820.8370.874共识驱动传播13表5：委员会异质性的影响作为比较，异质委员会比同质委员会表现更好。委员会方法对选择指定标签对数召回精度成对召回成对精度均匀投票1.93M0.3680.6480.7460.681调解人2.46M0.5080.8530.7980.831异构投票1.41M0.3130.9790.8070.876调解人2.54M0.5270.9830.8250.912votingorthe“m ed d i at or“. 您的调查结果表明，该社区的记录很有帮助。内部调解员。为了评估每个输入的参与，我们在“媒体”中可视化第一层的网络，如图所示。五、它是在“中间件”中的第四层的50×53个W，其中输入和输出通道的数目是53和50。因此，每列表示每个输入的权重绿色的值接近0，蓝色小于0，黄色大于0。黄色和蓝色的值都表示对相应输入的高响应。我们将计算共同使用者的“affinityvector“（IA）和“neighborsdistitin“（ID）的一个v ectormeans（意思），它们对这些角色、”reelatsh ip vect or“（IR）和“neigh b orsd isti tin“（IDvar）的一个v ector（变量）的影响。该结果是合理的，因为相似性包含比V〇t_r_e_u_s更多的信息，并且n_h_b_d_s_d的方法是直接影响局部密度的。包含高级损失函数。我们的CDP框架与各种形式的损失函数兼容。除了softmax，我们还为CDP配备了高级损失函数ArcFace [7]，这是MegaFace基准测试的当前顶级条目对于与ArcFace相关的参数，我们设置边距m = 0。5并且输出设置为“E”，其为“BN-D r 〇 p 〇 ut-FC-BN”。我们还使用更干净的训练集，旨在获得更高的基线。见表6，我们观察到CDP仍然在这个更高的基线上带来了很大的改进。表6：在先前基线（Softmax）和新基线（具有更清洁训练集的ArcFace[7]）之间，CDP与2倍未标记数据带来的增益的比较在MegaFace测试集上报告性能。SoftmaxArcFace [7]基线61.78%76.93%CDP（比率=2）70.51%83.68%效率和可扩展性。CDP的逐步运行时间如下所示：对于百万级别的数据，图构造（k-NN搜索）在具有48个处理器的CPU上花费4分钟来形成，“comm itte ee”+“medi at” 或 “net t w” 或 “k” 推断在8个GPU 上花费 2分钟来执行，并且传播在单个CPU 上花费另外2分钟。由于我们的方法在14X. 詹，Z.Liu，L.Lin和C.C. Loy图6：该图显示了未标记数据中的两组人脸根据原始注释，组中的所有面每个人脸左上角的数字是我们提出的方法分配的标签，红色框中的人脸结果表明，我们的方法在识别同一身份的人有趣的是，我们的方法在精确定位错误注释的面部（组1）、极低质量的面部（例如，严重模糊的脸，卡通组2），这对训练没有有关更多视觉效果，请参见在局部结构上使用“组件”+“中间件”时，CDP的运行时间随未标记的组件数量线性增长数据因此，CDP既高效又可扩展。5结论我们提出了一种新的方法，共识驱动传播（CDP），利用大量的未标记的数据，以提高大规模的人脸识别。我们只使用了9%的标签，就实现了与完全监督对应的高度竞争的结果对CDP的不同方面进行了广泛的分析，包括委员会成员数量的影响，对中介人的输入考虑到它带来的实际和非平凡的挑战，该问题在文献中首次鸣谢：此工作部分由商汤科技集团的大数据协作研究资助（香港中文大学协议编号：（TS1610626）、香港优才研究基金（第14236516、14241716）。共识驱动传播15引用1. Argamon-Engelson，S.，达根，I.：概率分类器的基于委员会的样本选择。人工智能研究杂志11（335）（1999）2. Blum，A.，Mitchell，T.：结合标记和未标记数据与协同训练。第十一届计算学习理论年会论文集3. Cao，K.，Rong，Y.，Li，C.，唐，X.，Loy，C.C.：基于深度残差等变映射的姿态鲁棒人脸识别。来源：CVPR（2018）4. 夏佩尔岛Scholkopf，B.，Zien，A.：半监督学习（chapelle，o例如，eds.;2006）[书评]。IEEE Transactions on Neural Networks 20（3）（2009）5. Chen，L.，中国地质大学，王福，Li，C.，Huang，S.，（1996年），中国科学院，陈玉，钱，C.，Loy，C.C.：人脸识别的魔鬼就在噪音中。In：ECCV（2018）6. Dempster，A.P.，Laird，N.M.，Rubin，D.B.：基于em算法的不完全数据最大似然估计。英国皇家统计学会会刊。B系列（方法学）（1977年）7. Deng，J.，郭杰，Zafeiriou，S.：Arcface：用于深度人脸识别的附加角度余量损失。arXiv预印本arXiv：1801.07698（2018）8. 高，Y.，妈，杰，Yuille，A.L.：基于半监督稀疏表示的分类用于标记样本不足的人脸识别TIP 26（5）（2017）9. Guo，Y.，中国科学院，张，L.，Hu，Y.，他，X.，高杰：Ms-celeb-1 m：大规模人脸识别的数据集和In：ECCV（2016）10. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）11. 黄，C.，李，Y.，Loy，C.C.，唐X：用于人脸识别和属性预测的深度不平衡学习arXiv预印本arXiv：1806.00194（2018）12. Iandola，F.，Moskewicz，M.，Karayev，S.，格尔希克河Darrell，T.，Keutzer，K.：Densenet：实现高效的convnet描述符金字塔。ArXiv预印本arXiv：1404.1869（2014）13. Kemelmacher-Shlizerman岛Seitz，S.M.，Miller，D.，Brossard，E.：megaface基准测试：100万张人脸可大规模识别见：CVPR（2016）14. 刘志，Luo，P.，王，X.，唐X：在野外深度学习人脸属性。In：ICCV（2015）15. Loy，C.C.，医院特姆Xiang，T.，龚，S.：基于流的联合探索-开发主动学习。在：CVPR（2012）16. Mitchell，T.M.：未标记数据在监督学习中的作用。《语言、知识与表征》（Language，Knowledge，and Representation）（2004）17. Ng，H.W.，Winkler，S.：一种数据驱动的清理大型人脸数据集的方法在：ICIP（2014）18. Roli，F.，Marcialis，G.L.：使用自我训练的半监督pca人脸识别。在：关于模式识别（SPR）和结构和句法模式识别（SSPR）统计技术的联合IAPR国际研讨会19. Rosenberg，C. Hebert，M.，Schneiderman，H.：目标检测模型的半监督自训练（2005）20. de Sa，V.R.：使用未标记数据学习分

下载后可阅读完整内容，剩余1页未读，立即下载