基于对称增强对比损失的弱监督人脸识别

11 浏览量更新于2023-10-15 收藏 718KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3505具有对称增强对比损失的弱监督人脸识别[1][2][3][4][5][6][7][8][9][10][11][11][12][13][14][15][16][17][18][19][19]2鲁汶大学电气工程系@ kuleuven.be摘要我们重新审视了弱监督的跨模态脸名对齐任务;也就是说，给定图像和标题，我们用标题中出现的名字来标记图像中的面孔。鉴于过去的方法已经通过对一组图像及其各自的帽子进行不确定性推理来学习姓名和面孔之间的潜在对齐，在本文中，我们依靠适当的损失函数来学习神经网络设置中的对齐，并提出SECLA和SECLA-B。SECLA是一种基于对称性增强的C对比学习的A对齐模型，其可以以弱监督的方式有效地最大化对应的面部和姓名之间的相似性得分。该模型的一个变体SECLA-B学习像人类一样对齐名字和面孔，也就是说，从简单到困难的情况学习，以进一步提高SECLA的性能。更具体地，SECLA-B应用两阶段学习框架：（1）在每个图像-标题对中具有几个名字和面孔的简单子集上训练模型(2)利用简单案例中已知的姓名和面孔对我们在Wild数据集和 Celebrity Together 数据集中实现了增强的Labeled Faces的最新结果。此外，我们相信我们的方法可以适用于其他多模态新闻理解任务.1. 介绍随着网络媒体的迅速发展，多媒体形式的新闻（例如，文本、图像和视频）已经成为主流，这推动了对多模态新闻理解的需求在多模态新闻报道中，图像及其对应的标题丰富了新闻文本的内容不像在传统的图像字幕任务[10，23，26]，*我们感谢中国国家留学基金管理委员会、CELSA/19/018和MACCHINA项目（KU Leuven C14/18/065）的支持。图1.新闻图片与标题：总统老2002年7月25日，布什在北卡罗来纳州格林斯伯勒出席前交通部长伊丽莎白·多尔的筹款活动。多尔正在竞选美国总统。参议院席位将于11月由参议员杰西·赫尔姆斯空缺。在图像的内容和它的标题经常在语义上很好地对准的情况下，新闻图像-标题对通常具有弱语义对准，这使得新闻图像的自动理解成为一项具有挑战性的任务。新闻图像中经常出现一些不出名的人，因此没有专门的人脸识别器进行训练。然而，在这种情况下，对标题的监督不力有助于为面孔分配名字。查找cap-tion中的哪个名字对应于图像中的哪个脸被称为脸-名字对齐任务。解释图1中的图像和标题，我们将把蓝色边界框中的脸分配给姓名GeorgeW。布什，红框中的脸，以名字伊丽莎白多尔和“NOFACE”（即，没有对应面孔的名字）将被分配给“Jesse Helms”这个名字在这项工作中，我们重新审视了弱监督的面孔名称对齐任务。该任务通过在缺乏面部的明确注释的弱监督环境中消除不同人的姓名和面部的歧义而被定制为现实世界的多模态新闻理解。该任务不同于人脸识别任务[18]，后者通常需要精心策划的标签进行训练。由于每天发布的新闻文章数量巨大，要为Face维护这样一个数据库几乎是不可能的3506识别.具体来说，为了解决弱监督的人脸-姓名对齐问题，我们提出了SECLA，一个由用于特征提取的预训练特征提取器和用于将人脸和姓名的特征映射到同一嵌入空间的多层感知器（MLP）投影器组成的S对称增强的C对比学习A给定投影特征，SECLA使用增强的损失函数进行训练，包括双向对比损失函数和一致性损失函数。匿名增强损失函数的设计是由假设每个面部对应于至少一个名字（即，密集对齐），当存在空链接时，即名称没有对应的面或面没有对应的名称时，经常违反这一点，如[12，13]所指出的。SECLA实现了比以前的最先进的（SOTA）模型更好的性能[17]。此外，对于每个图像-标题对中包含很少面孔和姓名的更简单的子集，SECLA可以实现（接近）完美的对齐结果，这促使我们提出SECLA-B，一种使用两阶段学习策略和bootstrap- ping学习的模型。我们首先在一个简单的子集上训练SECLA模型，然后将其余的数据添加到第二阶段的训练中，损失函数可以利用已知的面孔和姓名及其原型。SECLA-B进一步提高了SECLA的性能。由于简单的架构，我们提出的方法有很大的潜力，以适应其他多模态新闻理解任务。总之，我们的贡献有三方面。（1）提出了一个基于对比学习的SECLA模型，该模型能够以弱监督的方式准确地学习图像标题对中人脸和姓名的对齐。(2)为了解决违反密集对齐假设的问题，我们提出了一种新的增强对比损失函数，当模型不确定正确对齐时，该函数可以学习消除歧义。SECLA模型与增强的损失，实现SOTA的每一个任务。我们实现了（接近）完美的perfor-曼斯简单的数据集，在每个图像标题对几个面孔和名字(3)我们提出了一个两阶段的学习策略与引导，利用（近）完美的每一个容易的子集上的SECLA。使用这种策略训练的模型称为SECLA-B，进一步提高了SECLA的性能。2. 相关作品过去的研究可以分为两大类：没有外部数据。大多数人脸-姓名对齐研究都集中在探索数据集中图像-标题对的关系，而不使用从网络上这些方法通常是用不确定性推理框架。Berg等人[1，2]提出了基于改进的k均值聚类的标题新闻图像的方法。Guillaumin等人[11]采用了一种基于图形的方法来检索同一个人的所有面孔，并将姓名与每个图像-字幕对中的面孔对齐。Su等人[19，20]集中在一个更容易的问题，其中只有名字出现超过一定次数的人Pham等人[17]在EM框架下用概率方法扩展了[1]。给定具有图像标题对的聚类的良好初始化，他们的方法可以使用不确定性推理在两个方向上进行对齐，即名称到脸部和脸部到名称。他们的方法在Labeled Faces in the Wild（LFW）数据集上实现了SOTA结果。在本文中，我们研究了弱监督的人脸-姓名对齐问题，如[17]所述。与过去没有外部数据的工作不同，我们不依赖于不确定性推理;相反，我们通过设计适当的损失函数来学习神经网络设置中的对齐，这些损失函数有助于消除弱超监督设置中可能的对齐问题外部数据。另一条研究路线集中在设计利用外部数据（主要是网络数据）来增强内部数据的系统，特别是只出现几次的非名人数据。Zhang etal. [27]探索了用于初始化姓名排名的标题的句法结构，并应用web挖掘来获取稀有名人的额外数据。Chen等人[5，6]设计了基于图形的对齐方法以满足预定义的约束条件，并使用Google图像搜索外部数据。Tianet al的近期工作。[22]提出了一个集成了深度多模态分析、跨模态相关学习和Web挖掘的系统。他们提出的系统类似于[27]。除了面孔-姓名对齐任务，我们的工作也与一个类似的任务密切相关，即图像-句子匹配。Karpathy等人[13]讨论了对密集对准假设的违背，提出了一种基于铰链损失的对准模型。Hessel等人[12]研究了一个无监督的图像-句子匹配问题。他们提出了一种用于计算图像-句子对之间相似性的密集相似性度量，以及我们采用了一个类似的密集相似性度量，如第二节所述。三点三最后，我们的工作与视觉基础有关。Wang等人[25]采用对比损失以弱监督方式学习对象和短语之间的对齐。Cui等[7]提出了以人为中心的视觉基础任务，称为Who作者添加了一个NONAME常量来处理空链接。3507pp ∈∈·→·→fp--np--npXFnnDnJfp·最大值（mm）M面��={1��proj。 facefeat.P.P.$( , )图像IGeorge W.布什、伊丽莎白·多尔、杰西·赫尔姆斯、NONAME姓名-面孔匹配面孔与姓名匹配协议总统老布什出席前交通部长伊丽莎白多尔的筹款活动...由参议员杰西赫尔姆斯。标题S名称={1��... m }项目名称feat.np$( , )1/Σ最大值（′）n图2.建议SECLA模型的架构我们首先使用特征提取器（FaceNet用于人脸，BERT用于名字）来获得人脸f1，. . . fn在图像I和名称n1，. . . ，nm（添加一个NONAME），在标题S中。特征通过投影仪传递到公共嵌入空间。然后，我们在两个方向上学习面孔和名字的对齐，即名字到面孔和面孔到名字的对齐，具有对比损失。为了进一步增强从两个方向的对称性，我们应用协议损失的相似性矩阵，从计算密集的相似性措施。3. 方法在本节中，我们正式描述了脸名对齐问题，并介绍了建议SECLA模型。然后，我们提出了训练SE- CLA的框架，并详细解释了SECLA-B的自举策略的两阶段学习我们用问题的对齐方案结束本3.1. 问题公式化给定具有面部F=f1，f2，.的新闻图像I，f n和相应的标题S，名称为N=n1，n2，.，n m，脸-名对齐任务的目标是找到对应的脸fi和名n j之间的联系。我们观察到两种类型的链接：（1）正常链接：这些是与正确检测到的出现在图像和相应字幕中的面孔和姓名的链接。（2）匿名链接：这些链接包含没有名称的面3.2. 模型架构如图2所示，我们的SECLA模型由两个模块组成：（1）特征提取器模块，用于提取特征向量;torgn（）：Rdn Rdf得到投影嵌入Xn′，它与面嵌入Xf具有相同的维数. 然后，利用两个公共投影器gc（）：RdfRdp将Xn′和Xf投影到同一个低维dp的嵌入空间上.我们将XnRdp和XfRdp记为Xn′和Xf，rep的投影特征。我们计算fi和n j之间的相似性得分为sim（fi，n j）=（Xi）TXj，用于模型训练和后续推理。3.3. SECLA模型为了训练我们的SECLA模型，我们提出了以下对投影特征Xj进行操作的损失函数和i：（1）对比度损失，使对应图像和字幕之间的密集相似性最大化，以及（2）一致性损失，迫使相似性对称从两个方向计算的矩阵。对比损失。受先前在 cap-tion ranking [9]和 visualgrounding [25]方面的工作的启发，我们应用以下从脸到名字方向计算的对比损失：esimd（F，N）从面fi生成的图形名为nj以及（2）投影仪模块Lf，n=−logΣesimd（Fk，N）（一）用于将特征投影到公共嵌入空间上。特征提取器模块包括（1）预训练的FaceNet[18]用于提取facefi的嵌入Xi∈RdfFk∈batch图像I和字幕S之间的密集相似性度量simd（F，N）被定义为：（2）一个预训练的BERT [8]来产生名字嵌入Xj∈Rdn表示名称nj。sim（F，N）=1maxAi=1（二）首先通过名称projec传递名称嵌入Xn，其中Ai，j= sim（fi，n j），i = 1，2，.. . . ，n，j =1，2，. . . ，m1/Σ脸特征投影仪提取器名称特征提取器名称投影仪投影仪投影仪模块由两种类型的投影仪组成，（1）名称投影仪和（2）普通投影仪。我们i、j3508L·K·××× ×DMj=1我 j，ij，i类似于面对面对比损失f，n，我们将面对面对比损失定义为：分别为。diag（）表示矩阵的对角元素。我们结合等式1、3和4来获得Ln，f=−logΩesimd（N，F）N∈batchesimd（Nk，F）（三）最终损失函数：L=L+L+αL（五）其中sim（N，F）=1Σm最大A′ ，其中A′=f，nn，f同意sim（nj，fi），j = 1，2，. . . ，m，i = 1，2，. . . ，n，.在弱监督设置中，同一图像-标题对中的人脸和姓名之间的联系在训练过程中仍然是未知的，我们必须依靠密集的相似性度量来学习有意义的嵌入空间。然而，如[12，13]所示，当存在空链接时，可能违反密集对齐假设。与视觉背景中的短语区域匹配过程不同，空链接在我们的任务中非常常见。只要一个图片-标题对中的面孔和名字的数量不相等，或者存在非名人面孔，就可以预期空链接即使图像中只有一张脸，我们也可以在标题中没有对应的名字，反之亦然。为此，不像在视觉基础[25]中，更对称的对比损失函数的影响是有限的，我们的任务中的对称损失函数很重要。因此，我们在两个方向上计算对比损失函数，即，脸到名字和名字到脸，对称的相似性分数的计算。3.4. Bootstrapping的两阶段训练我们扩展SECLA与两个阶段的培训策略，以适应需要学习新的面孔和名字从新闻流在现实世界的场景。对于stage1训练，我们在完整数据集（Dall）的一个简单子集（Deasy）上训练SECLA模型（stage1模型），每个数据集中包含一个或两个潜在的链接。我们将出现在第1阶段训练中而没有重复的名称集表示为N唯一。接下来，我们将在这一部分介绍第二阶段培训的不同策略。我们首先提出了一个两阶段的训练策略，使用算法1中的简单算法。在stage1训练之后，我们将数据集Drest的其余部分分成两个子集，即Dmatch和Dunmatch，其中Dmatch包含stage1模型*匹配的所有对，Dunmatch包含所有不匹配的对。然后，我们对Dunmatch的stage1模型进行微调，使用与stage1训练相同的损失。协议丢失。双向对比损失可以减轻对密集对齐假设的违反。然而，这对我们的任务来说是不够的特别是在训练的早期阶段，使用随机初始化的投影仪，模型很难区分名称或将梯度流引导到正确的方向。为了进一步增强我们的双向模型的对称性，我们设计了一个协议损失，用于在训练期间进行额外的正则化，这在单词对齐模型中已被证明是有效的[4，16]。我们的一致性损失迫使从脸到名字和名字到脸的方向计算的密集相似性分数尽可能接近。如果没有它，我们可以有更多的脸-名字对，由于max（）操作符而从两个方向不同。具体来说，对于一小批B个样本，每个样本包含m个名字和n个面孔，我们得到一个大小为B B n m的张量Z来表示B个图像和B个字幕的所有组合。通过从两个方向计算稠密相似性度量，我们得到大小为B B的矩阵Dn，f和Df，n，其对角元素对应于图像-字幕对。然后，我们将协议损失定义为：Lagree=MSE（diag（Dn，f），diag（Df，n））（4）其中相似性矩阵Dn，f和Df，n由simd（Fk，Nk）的计算得出，simd（Nk，Fk），用于该批次中的第k个图像-字幕对，重新算法一：使用Simple的两阶段训练试探法输入：简单子集Deasy，互补子集Drest，在Deasy上训练的阶段1模型gstag1（·）的参数θo，Deasy中唯一的唯一名称的集合N唯一阶段2模型g阶段e2（·）初始化：Dmatch=0，包含使用stage1模型在Drest对于每个图像-字幕对{I，S} ∈ Drest包含{fi，n j}，i = 1，. . . n，j = 1，. . .m do如果n j∈N唯一，则faligned=argmaxfi∈F（gstagege1（fi，nj））Dmatch ← D match {faligned，nj}其他继续设D不匹配=D剩余\D匹配gstage2 （ · ） ←Fine-tune （ L ， gstage1 （ · ），Dunmatch）使用简单的算法，经过训练的模型可以获得相当好的性能，如下所示，给定具有完美对齐结果的第1阶段模型。然而，（1）具有100%正确性的stage1模型不可能总是* 匹配是基于通过用来自g阶段1的面部fi和姓名n j的投影特征计算sim（fi，nj）的推断。我们将Nunique中的名字与面孔进行匹配。输出其中α是超参数。3509eiL=−logΣei·DDDBBB对于每批具有B图像-标题对的图像，+L我Pj∈P我们将双向损失表示为：我（2）即使有一个阶段1的模型，实现完美的对齐结果D容易，我们仍然可以犯错误，而匹配新的面孔在D休息与已知的名字，导致错误的D不匹配微调模型。（三）{N1′，N2′，.， Nk′}，匹配面集{F1′，F2′，.， Fk′}和检索到的原型集合{P1，P2，.，P k}，我们有：esimd（Fi′，Ni′）随着更多的新名字和面孔在训练中加入，模特儿往往会忘记已知的名字和面孔。Lf，n，p=−logesimd（Fi′，Ni′）+nPj∈P\{Pi}simd（Pj ，N′）（6）为了解决算法1的问题，我们提出了一种结合自举的两阶段训练策略，如算法2所示;它包括新的损失函数来预训练。esimd（Ni′，Fi′）n，f，pesimd（Ni′，Fi′）+ Pj∈P\{Pi}simd（N′，Pj）（7）发泄遗忘并学习更好的对齐。算法二：使用Bootstrap- ping的两阶段训练（SECLA-B）输入：Easy子集easy，完整数据集 all，Stage1模型g stage1（）在easy上训练，参数为θ o，一组唯一的名字和在stage 1中看到的对应的脸我们从两个方向强制对称：Lf，n，p=Lf，n，p+Ln，f，p（8）此外，为了学习更多的人脸聚类表示，我们希望能够将匹配人脸的表示拉到更接近同一样本中的原型我们设计了一个在面部原型水平上操作的对比损失：{Nunique，Fseen}简单第2阶段型号g第2阶段e（·）Lf，p=−logΩesimd（Fi′，Pi）esimd（F′，Pj）（九）初始化一批匹配的姓名和面孔Bmatch={}，一批不匹配的名称，g（·）θ0Lp，f=−logΩesimd（Pi，Fi′）esimd（Pj，F′）（十）g阶段e1（·）对于每对{I，S} ∈批Dall，包含Lf，p=Lf，p+Lp，f（11）{fi，nj}，i = 1，. . . n，j =1，. . . m do如果n j∈N唯一，则最后，我们表示B的附加损失匹配如：faligned=argmaxfi∈F（g（nj，fi））L阶段2=Lf，n，pBf、p（十二）其他Bmatch←Bmatch{faligned，nj}在实践中，给定来自阶段1训练的已知姓名和面孔，可以生成不同类型的原型面孔Bunmatch←Bunmatch<${fi，nj}如果Len（B匹配）>0，则gstagege2（·）←Train（L，g（·），Bunmatch）+训练（L阶段2，g（·），B匹配）其他gstagege2（·）←Train（L，g（·），Bunmatch）在使用Nunique和stage1模型匹配人脸之后，我们考虑在stage1训练中没有看到的Bunmatch中剩余的不匹配对。当然，我们可以像在第一阶段训练中简单地处理D中的对一样处理这些对。因此，我们应用相同的损失用于阶段1训练，如公式5所示，用于B不匹配。输出Pj∈P面临 B不匹配={}，模型与的3510我 Jfpnp选择：（1）随机采样的面部，（2）平均面部，（3）与同一人的其他面部具有最小平均距离的中心点面部，以及（4）被模型匹配的面部，因为它们具有与名字的最高相似性分数。然而，由于诸如方向、模糊条件或照明条件之类的因素，即使对于同一个人，面部表示也可能变化很大。根据数据分布，模型性能受到不同类型的原型脸的影响。我们讨论了不同的选择的原型面临的效果。五点三。3.5. 对准方案我们根据sim（f，n）=（Xi）T·Xj的相似性分数将人脸与姓名对齐。具体而言是对于B匹配，期望我们的模型能够最大化来自同一样本的匹配人脸集合Fi′和匹配姓名集合Nj′之间的密集相似性度量。受Liet al启发。 [15]，我们提出一个骗局-在同一个样本中，将匹配的面孔拉得更接近它们各自的名字，但在其他样本中将它们推离重新测试的原型面孔具体地说，给定k个具有匹配名称集的图像-标题对路线图包括三部分：• 对于训练和推理，我们将额外的NONAME添加到所有没有 NONAME 的名称列表中。 [2] 然后，NONAME被视为一个额外的名称。NONAME嵌入在训练期间是固定的。由于3511×·→·→LL• 对于面fi，如果argmaxmAi，j =nm，我们将fi对齐到nm。• 如果我们采用查准率、查全率和F1得分作为评价指标，其中我们将剩下的名字与NOFACE对齐。Precision=#linkcorrect，Recall=#linkcorrect，F1=2Recall·Precision（十三）#找到链接#链接gt查全率+查准率在推理期间应用对齐方案。4. 实验装置4.1. 数据集我们在[17]中使用在[17]之后，我们使用OpenNLP包命名实体识别器提取名称，并使用OpenCV实现[24]检测人脸的边界框。我们从LFW获得了10976对新闻图片和标题，覆盖23928个链接平均来说1.97名字和1.32张面孔出现在每一对中。我们还使用名人在一起（CelebTo）数据集[28]。CelebTo在每对中有相同数量的面孔和名字。它不包括它包含193523张图片，545519张面孔和2533个身份。每张图像中的平均面数为2.82，NONAME为1.16。4.2. 实现细节我们采用在 VG-GFace 2 [3] 上预训练的 InceptionResNet（V1）[21]作为人脸特征提取器，并基于BERT[8]作为名称特征提取器。名称表示是BERT最后四层总和的所有标记的平均嵌入。我们将“NONAME”的嵌入修复为“[UNK]”的- ken。我们构造一个单层MLP，命名为投影机g n（）：R768R512和三层MLP作为COM-monprojector g c（）：R512R128。我们使用ReLU作为激活函数我们设置超参数α = 0。15，铰链损失阈值为0.2 [12]。我们使用Adam优化器[14]训练我们的模型，学习率=3 10−4。我们训练SECLA，批量大小为20，分别用于LFW和CelebTo的30个epoch和3个epoch。对于SECLA-B，阶段1模型分别在LFW和CelebTo的具有一个名字和一个面孔的子集（Done）和具有两个名字和两个面孔的子集（D2name）上训练。我们从两个集合中排除NONAME。对于LFW和CelebTo，第1阶段训练分别需要15个epoch和5个epoch，第2阶段训练分别需要20个epoch和2个epoch。这些模型在一个NVIDIATITAN Xp GPU上进行训练。4.3. 评估指标由于LFW数据集中存在可能指向不同姓名或面孔的空链接，我们不使用准确度[1，2]来评估对齐链接。在[17]之后，‡http://opennlp.sourceforge.net/对于CelebTo，我们使用准确性进行评估。5. 结果5.1. 整体性能在表1中，我们比较了LFW和CelebTo数据集上的不同比对模型。对于LFW，我们选择[17]中报道的F1评分和召回率方面的最佳性能进行比较。我们还实现了用[25]中提出的损失训练的模型，这相当于我们的对比损失的单向版本，以及[12]中提出的学习策略。对于CelebTo，我们通过排除所有上下文信息（例如，标题的语法结构，图像中面部的共现），这在[17]中非常依赖。我们的SECLA模型优于以前的SOTA和其他相关领域的方法，如表1所示。特别是，我们发现，对于LFW，SECLA在很大程度上改进了[17]中模型的结果，召回率和F1，但仅达到略好的精度（74.90%比76.96%）。这是因为SECLA总是识别图像-标题对中的所有链接，而[17]只找到高于某个阈值的部分链接。根据等式13，我们将精度计算为正确链接的数量除以找到的链接的数量，因此预计在这种情况下我们无法实现此外，使用单向损失f，n和n，f训练的模型在LFW上的F1得分分别为43.61%和39.34%，在CelebTo上的准确率分别为44.77%和41.29%。我们随机初始化我们的投影器，使得面部特征和姓名特征的语义含义不够接近，导致不同姓名和面部的初始化分数落入接近零的在这种情况下，如果没有适当的增强正则化，模型不是将匹配对的相似性分数优化到积极的一面，而是随机优化分数。[12]中的模型在LFW上实现了相对更好的结果，但在CelebTo上表现得更差。由于决策边界中边界的强烈约束，[12]中使用的铰链损失使得在训练的早期阶段缺乏面部和姓名的语义相似性成为一个我们在等式1和3中的对比损失函数不具有解决这个问题，从而获得明显更好的结果。增加协议损失可提高在LFW上，F1的SECLA =78.14%~ 80.83%，在CelebTo上，准确率=81.79%~ 87.46%。协议损失3512L|L|LL模型对比对称性精度LFW CelebTo召回F1准确度Pham等人[17]（使用P（f n））74.90% 70.56% 72.66%/Pham等人[17]（使用P（n f））69.99%72.73%71.33%/Wang等人[25]（男，女）41.52%45.92%43.61%44.77%Wang等人[25]（男、女）37.46% 41.42% 39.34% 41.29%Hesssel等人[12]（不含TK）61.35% 67.84% 64.43% 45.70%Hesssel等人[12]（TK）63.51% 70.23% 66.70% 40.31%SECLA-α同意（我们的）74.40% 82.28% 78.14% 81.79%SECLA（我们的）销售额76.96% 85.11% 80.83% 87.46%SECLA-B（我们的）销售额 77.94% 86.19% 81.86% 88.36%表1.比对模型在LFW和CelebTo数据集上的性能比较。我们将我们的结果与[17]中的最佳结果，[25]中使用损失函数训练的模型的结果（相当于我们的单向损失函数），以及使用铰链损失和前k选择策略（TK）训练的模型的结果进行比较[12]。当出现更多的面孔和名字时效果更好。型号LFW CelebToSECLA-B77.94%86.19%81.86%88.36%表2. SECLA-B在LFW和CelebTo上的性能比较。流水线模型使用算法1进行训练。我们在表2中给出了SECLA-B与基线的性能比较。我们将SECLA和使用算法1（表示为Pipeline）学习的模型作为基线。如表2所示，我们使用Pipeline获得了良好的结果;也就是说，F1 = 73。LFW为46%，准确率为67。50%在CelebTo。然而，Pipeline的性能比SECLA差得多。基于算法1，由阶段1模型产生的误差在微调期间累积具体来说，在对一个简单子集进行第一阶段训练后，我们将数据集的其余部分分为D匹配和D不匹配，并对D不匹配的第一阶段模型进行微调。D匹配包含成对的匹配的面孔和姓名，这些面孔和姓名不保证正确对齐。即使SECLA在第一阶段训练中取得了完美的对齐结果，对于一个已知名字的新面孔，模型仍然可能出错。由stage1模型进行的不正确匹配导致Dunmatch中的不正确匹配的面部和姓名，其用于微调stage1模型。因此，错误会导致性能下降。尽管stage1模型产生了错误，SECLA-B进一步提高了强SECLA模型的性能。5.2. SECLA案例研究Deasy上的实验在这一部分中，我们将SECLA模型应用于简单子集Deasy，这也是SECLA-B的第一阶段训练。阶段1模型的性能对SECLA-B至关重要，模型添加NONAME精度SECLA公司96.26%SECLA 90.52%SECLA-α一致率为95.27%表3. SECLA在CelebTo的D2名字在第二阶段的训练中，我们必须依靠它来匹配人脸。对于LFW，我们提取一个子集，每对中有一个面（ D 一个）作为 D 容易。我们排除了 NONAME 和NOFACE，以减少歧义。[17]实现的最佳对齐结果是精度= 85。41%，回忆率= 91。17%，F1 = 88。百分之十九将一个名字与一个面孔对齐是我们最简单的任务，然而[17]中的模型在大约10%的情况下将相比之下，我们的SECLA模型通过正确对齐所有链接实现了完美的对齐结果。在CelebTo中，每个图像至少包含两张面孔。因此，我们提取一个子集，在每一对（D2名称）的两个面D容易，它包含53334个样本2437个独特的名称。虽然这是一个更困难的任务，我们必须在每个样本中将两个名字与两个面孔对齐，但大多数名字在D2name中出现超过10次，使任务稍微容易一些。此外，我们还对D2的SECLA进行了消融。如表3所示，在没有一致性损失的情况下，准确度从96. 26%到95。百分之二十七由于大多数名称频繁出现在D2名称中，这有利于对比损失区分对，因此一致性损失施加的对称性约束确实有助于模型学习更准确的比对。在训练过程中将NON- AME添加到姓名列表中，我们观察到准确率从90%大幅提高。52%到96。百分之二十六更多模棱两可对于具有更多模糊性的情况，我们在具有至少2个面孔的LFW的子集上进行实验。该子集包含3029个图像-标题对，具有8960个链接。Al-精度召回F1精度管道69.94%77.34%73.46%67.50%塞克拉76.96%85.11%百分之八十点八三87.46%3513Lf、p使用Lf、pn，f，p尽管与具有更多多样性的面（随机面/匹配面）相比，链接的数量不是很高在图像-标题对中，有4177个唯一名称8960个链接大多数名字只出现一两次。此外，我们获得了776个不正确的链接，这可能会误导模型学习不正确的对齐。我们在表4中给出了结果。[17]中的模型在这个更模糊的任务中挣扎，即，F1 = 47。百分之四十八。单向模型的性能变化很大原型类型精度LFW CelebTo召回F1准确度(F1= 65。45%为面对面，F1= 47。87%的人是面对面的）。无论是否有协议损失，我们的双向模型都取得了非常积极的结果，即，F1= 66。89%，F1= 65。分别为97%。这个任务的挑战是，与链接的数量相比，有太多的唯一名称然而，我们的模型仍然优于以前的SOTA [17]，并且协议损失被证明是有用的。我们还观察到通过将一致性损失添加到单向模型来改善性能。表5. SECLA-B在第2阶段训练中使用不同的原型面选择实现了最佳性能。SECLA-B的消融研究在这一部分中，我们介绍了SECLA-B的消融研究我们展示了使用匹配人脸训练的SECLA-B的结果，这些结果对于两个数据集都是令人满意的。我们还探讨了将NOFACE添加到匹配的人脸列表中的效果，这对于SECLA是不考虑的与SE-CLA不同，在SE-CLA中没有实现匹配，不正确匹配的面部可能导致在阶段2期间累积的错误SECLA -Ln，f链接. 总的来说，我们实现了最佳性能，SECLA-Lf，n63.06% 69.04%65.91%Bn，f，p 和lb在第二阶段训练中使用。我们观察SECLA -αL一致-Ln，f45.79% 50.13% 47.87%SECLA -αL一致-Lf，n62.61% 68.55% 65.45%Bn，f，p对SECLA-B性能的贡献最大曼斯。和lb仅仅满足是不够的，表4.SECLA在具有至少2个面的LFW上的性能当stage1模型的性能受到限制时，5.3. SECLA-B案例研究型号NOFACE精度LFW CelebTo召回F1准确度原型面孔SECLA-B系列77.74% 85.97%81.61% 87.94%SECLA-B 77.25% 85.43% 81.13% 86.74%如图所示。3.4我们认为，四种类型的亲-SECLA-B-LBSECLA-B-LB✓77.47% 85.67% 81.37% 80.90%✓77.62% 85.84% 81.52% 87.11%totype面，即（1）随机选择的面（随机脸），（2）平均脸（avg.面），（3）与其它面具有最小平均距离的面（正中面），以及(4)具有与相应姓名的最高相似性分数的面部（匹配面部）。我们在表5中展示了SECLA-B在不同原型面选择下实现的最佳对于LFW，原型面的不同选择对SECLA-B的性能影响有限其主要原因是用于stage1训练的子集（Done）中的大多数名称只出现一次或两次。在这种情况下，不同的原型选择的效果是有限的。对于CelebTo，我们观察到，与使用其他类型的原型脸相比，使用平均脸会导致性能显著下降，甚至87. biggest biggest 在CelebTo上的准确率为46%）。这也与数据分布有关。如前所述，在53334个样本中只能找到2437个唯一名称。D2的名字。对于大多数身份，由于面孔的变化，从数百张面孔中计算出的平均面孔不再是一个很好的代表。总的来说，CelebTo更喜欢原型f、p表6.使用匹配面的SECLA-B的消融研究6. 结论我们提出了一个双向对比学习框架（SECLA），增强了强制对称性，以解决弱监督的脸名对齐问题，没有任何注释的训练样本或从网络上挖掘的外部数据。该方法在LFW和CelebTo上显示出令人满意的性能。此外，我们提出了SECLA-B模型的训练与两阶段的学习策略和引导;它进一步提高了SECLA的性能。我们的方法可以适用于其他多模态新闻理解任务，包括多模态摘要和新闻图像字幕，我们留给未来的研究。§我们的实验还表明，额外的NOFACE对SECLA的性能影响不大。我们将NOFACE的嵌入固定为[F n，1，F n，2，.. . . F n，512]，其中F n，i<$N（0，1）。随机面77.65%85.87%81.55%88.36%avg.脸77.94%86.19%81.86%81.19%正中面77.87%86.12%81.79%86.07%匹配面77.74%85.97%81.61%87.94%模型Pham等人[17个]精度44.05%召回51.51%F147.48%SECLA-B的培训。§额外的NOFACE可以-可以缓解这个问题。表6中的结果表明塞克拉64.00%70.06%66.89%添加NOFACE是有效的，特别是对于CelebTo，SECLA -αL同意63.11%61.80%69.10%67.66%65.97%64.59%其中第1阶段模型仅正确对齐96.26%的3514引用[1] 塔玛拉·伯格，亚历山大·伯格，杰蒂·爱德华兹和大卫·福赛斯。谁在照片里。在洛Saul，Y. Weiss和L.Bottou，编辑，神经信息处理系统，第17卷。麻省理工学院出版社，2005年。[2] 朗格贝格 Berg ， J.Edwards ， M. 迈尔河 White ， Yee-Whye Teh，E.Learned-Miller和D.A.福赛斯新闻里的名字和面孔。2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004。，第2卷，第II-II页[3] 曹琼，李申，谢伟迪，Omkar M.帕克希，还有安德鲁·齐瑟曼。Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在FG中，第67-74页。IEEE计算机学会，2018年。[4] 陈池，孙茂松，杨柳。Mask-align：自我监督的神经单词对齐。在计算语言学协会第59届年会和第11届自然语言处理国际联合会议论文集（第1卷：Long Papers），pages 4781 -4791，Online，Aug. 2021年。计算语言学协会[5] Zhineng Chen，Bailan Feng，Chong-Wah Ngo，CaiyanJia，and Xiangsheng Huang.利用网路上的名人图像改善自动姓名-面孔关联。在亚历山大G。Hauptmann，Chong-Wah Ngo ， Xiangyang Xue ， Yu-Gang Jiang ，Cees Snoek，and Nuno Vasconcelos，editors，ICMR，pages 623-626. ACM，2015.[6] 陈志能，张伟，邓斌，谢洪涛，顾晓艳.网络人脸图像监督下的姓名-人脸关联。多用途系统，25（1）：1[7] Yuqing Cui ， Apoorv Khandelwal ， Yoav Artzi ， NoahSnavely，and Hadar Averbuch-Elor.沃尔多是谁？通过文字和图像将人们联系起来。在IEEE/CVF计算机视觉国际会议（ICCV）的会议中，第1374-1384页[8] 雅各布·德夫

下载后可阅读完整内容，剩余1页未读，立即下载