公平损失：基于深度人脸识别的学习方法

17 浏览量更新于2023-10-12 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10052公平损失：用于深度人脸识别的刘冰宇，邓晓波，钟瑶瑶，王梅，胡佳妮北京邮电大学{刘冰玉，邓惠，钟瑶瑶，王梅1，胡建民}@ bupt.edu.cn陶训强，黄耀海佳能信息技术（北京）有限公司公司{taoxunqiang，huangyaohai}@ canon-ib.com.cn摘要最近，大余量softmax损失方法，例如角softmax损失（SphereFace）、大余量余弦损失（CosFace）和加性角余量损失（Arc- Face），已经在深度人脸识别上展示了令人印象深刻的性能。这些方法将固定的附加余量纳入所有类，忽略了类不平衡问题。然而，不平衡的问题广泛存在于各种现实世界的人脸数据集，其中的样本从某些类是在比其他人更多。我们认为，一个类的数量会影响其对附加保证金的需求。在本文中，我们引入了一种新的基于边缘感知强化学习的损失函数，即公平损失，其中每个类将通过深度Q学习来学习适当的具体来说，我们训练一个智能体学习每一类的利润率自适应策略，使不同类别的附加利润率更合理。我们的方法在三个基准测试中，Labeled Face inthe Wild（LFW），Youtube Faces（YTF）和MegaFace上具有比目前大幅度损失函数更好的性能，这表明我们的方法可以在不平衡的人脸数据集上学习更好的人脸表示。1. 介绍深度卷积神经网络（DCNN）[28，17，10，31，43，11，37，18]已成为深度人脸识别的主流技术，在识别精度和鲁棒性方面取得了显着进展。深度人脸模型通常以监督的方式学习各种损失函数。经典softmax损失函数最广泛用于一般对象，但由于细粒度属性，它对人脸识别的区分力不够[40，21，20]。为了解决这个问题-*通讯作者为了提高softmax loss的泛化能力，已经提出了几个大范围的损失函数，例如SphereFace [20]，CosFace [36]和ArcFace [5]。这些损失通过将固定裕度并入softmax成功地提高了DCNN的泛化能力，并在主要面部基准上实现了最先进的性能，例如LFW [13]，YTF [41]和MegaFace [14，24]。然而，如图所示。1、以往的大样本分割方法忽略了训练数据的类别不均衡性，即多数类的样本远多于少数类的样本。深面模型不可避免地受到类不平衡问题的影响。由于缺乏类内方差，少数类往往不能描述真实的特征空间。在这种情况下，多数类和少数类的固定加性裕度将加剧有偏决策边界。图1（b）表明，该模型倾向于在少数类的新测试样本上出错，这反映了深度表示的泛化能力差。因此，固定的保证金可能会误导不平衡的类。为了改善大裕度损失，我们致力于探索各种类别之间的自适应边界，考虑它们的代表性来表征实际的分布。多数阶级不会以一个非常大的差距趋同，而少数阶级则会被挤向多数阶级，只要有一个相对较小的差距。我们建议平衡不同类别之间的附加利润。如图1（c），多数人类别需要相对较小的差额，而少数人类别需要相对较大的差额。通过自适应余量的引入，显著提高了测试精度.同时，我们假设随着训练状态的变化，训练过程中对特定类的裕量需求可能会有所不同，例如类内方差。受此启发，我们提出了一种新的公平损失与强化学习的边缘自适应策略。具体来说，我们模拟了添加剂的各种变化，10053(a) （b）多数类别与非多数类别之间的固定差额少数类(c) 多数阶级和少数阶级图1.阶级不平衡的影响（a）固定的附加差额对两个多数类别是相当适当的（b）模型倾向于在具有固定加性裕度的少数类别的新测试样本上犯错误。(c)我们建议，附加利润的需求应该是不同的：多数类需要一个相对较小的利润，而少数类需要一个相对较大的利润。在训练过程中为类提供边缘，并收集对训练模型的影响，从中我们通过使用深度Q学习得出自适应边缘的通用策略[23]。最后将该策略推广到其他模型的训练过程中，指导类根据特定的训练状态调整其加性裕度。我们的贡献可归纳如下：(1) 我们提出了一个新的公平损失函数，考虑到普遍的类不平衡的问题，学习自适应的利润。公平损失法充分考虑了相邻类的分布特性，为识别问题提供了更全面的边界设置。(2) 我们成功地应用强化学习来优化公平损失，通过训练智能体来学习边缘自适应策略。我们的实验表明，S-策略可以适用于各种模型的大幅度，这证实了我们的方法的泛化能力。(3) 对LFW [13]，YTF [41]和MegaFace [14，24]的广泛实验表明，我们的方法在人脸识别方面达到了最先进的性能与其他大间隔方法相比，该方法在从不平衡数据集学习鉴别特征方面具有表现力优势2. 相关工作大利润损失函数。由于DC-NN的进步，深度人脸识别已经成为一个热点。损失函数在CNN模型中起着重要作用softmax损失函数通常用作人脸识别中的监督信号。然而，softmax损失对于学习区分表示作为百万级身份的训练是无效的，使得类内变化可能大于类间距离。最近，主流方法是使用大间隔损失函数[20，36，5]（基于传统的softmax损失函数）来训练特征提取器，以使特征更具鉴别力。Liuetal. [20]提出了A-softmax（SphereFace），通过将乘法角度裕度引入softmax损失，使决策区域变得更加分离。Wang等人[36]提出大余量余弦损失（CosFace）以进一步最大化余弦空间中的决策余量。CosFace克服了SphereFace的优化困难，并且更容易重现。Deng等[5]直接在角空间中添加角边距，具有更清晰的几何解释。这些大余量损失函数都通过合并固定余量来改善softmax损失。然而，他们忽视了阶级不平衡的问题。深度不平衡学习为了解决类不平衡问题，最初的努力主要可以分为两组：数据重新采样[9，2，6，7，8]和成本-敏感学习[16，33，35，50]。在过去的几年里一些作品[49，38，15，39]已经通过深度模型解决了不平衡学习。然而，对于人脸识别任务，很少有方法关注类不平衡问题. Yin等[45]通过在特征空间中扩充少数类，调整来自少数类的学习特征的分布，Wu等[42]提出了一种中心不变损失，它将少数类的特征中心与多数类对齐。Zhang等人[48]提出了一个范围损失最小化范围（最大类内距离），以增强模型对少数类的学习能力。不幸的是，阿尔- 这些方法不能保证所有类别之间的高区分能力。我们的方法通过提供具有自适应余量的公平损失来补充它们，使不平衡的类具有适当的余量，这不仅可以避免少数类被淹没，而且可以增加特征的区分度。强化学习（RL）。强化学习训练代理学习策略的基础上试错在一个动态的环境中，通过最大化积累的奖励。深度RL10054yiyi图2.我们提出的方法的一个例子首先，我们通过手动改变损耗中的裕度来训练一系列样本网络′ ′为代理收集样本，由{（si，ai，ri，si）}表示。{（si，ai，ri，si）}的细节参见第3.2节和图3。然后，我们使用样本来训练代理的边缘自适应策略，这将为状态输入提供动作输出。最后，我们训练我们的公平损失网络的变化幅度的行动从代理输出CNN在Atari Games中实现了人类水平的表现除了在机器人和控制方面的传统应用RL被用于目标跟踪，在[12]中进行了研究。智能体被训练来学习何时停止将特征推进到下一层并进行预测，这在跟踪速度和准确性之间实现了显着的平衡。为了解决多镜头行人的重新识别问题，Zhanget al.[46]训练代理在接收到足够的对之后停止比较，这在使用少得多的图像的同时获得了与现有技术方法竞争的性能在我们在函数P中，我们有一个自适应裕度mi（t）。与其他大幅度损失函数相比，我们使m在训练过程中变化而不是保持不变。事实上，不同的班级对边缘语有不同的要求，而且在训练过程中要求可能会发生变化。我们的自适应裕度mi（t）取决于i并且是t的函数，其中t表示训练的阶段。P的公式可以表示如下：Pj（xi）=escosθj，（2）受工作，RL是用来学习一个边缘自适应策略，用于双，WJxiT诗训练的身份。Wj=<$Wj，xi=<$xj，cosθj=Wjxi。（三）J I3. 该方法我们的方法的概述在图1中描绘。二、首先，我们通过手动改变损失中的裕度来训练CNN，以收集我们定义的一系列样本。然后，我们使用的样本，以训练一个代理的边缘自适应策略，这将提供行动输出的状态输入。最后，我们训练我们的公平损失网络，保证金根据代理的动作输出而变化。在本节中，我们将介绍我们的方法的细节。我们首先从提出的公平损失函数开始。然后，在基于强化学习的公平损失算法中引入自适应间隔，包括样本空间的构造、智能体的训练以及间隔自适应策略的应用3.1. 公平损失我们将建议的公平损失函数定义如下：Wj∈Rd表示权重W∈Rd×n在最后一个完全连接的层中。考虑到函数P的公式化，我们是基于其他大裕度损失函数，例如。CosFace（LMCL）[36]和ArcFace[5]。具体地，基于Cos- Face，函数P_f可以公式化如下：P （ mi （ t ）， xi ） =es （ cos （ θyi ） −mi（t）），（4）基于ArcFace，P可以用公式表示如下：P∈（mi（t），xi）=es（cos（θyi+mi（t），（5）其中cos（θyi）可以类似于cosθj计算。我们通过L2归一化来固定xi，并将xi重新缩放为s，遵循[20，36，5]。在本文中，我们使用s= 64进行人脸识别实验。1ΣNP（mi（t），xi）10055yi3.2. 间隔自适应策略学习L=−N i=1日志yiP（mi（t），xi）+Σnj= l，ji=yiPj（xi）、（一）我们将寻找合适的边际自适应策略的问题表述为马尔可夫决策过程（MDP），其中xi∈Rd表示第i个样本的深度特征，属于第yi个类。批量大小和类数字分别为N和n由（S，A，T，R）描述为状态、动作、转换和奖励。我们将培训一名代理，每个州。探员会被输入一系列的样本，10056我我yi′yiV=JJJyi我KKIyi它可以表示为{（si，ai，ri，s′）}。这里，si∈ S，ai∈ A，ri∈ R，s′∈ S表示主体通过动作ai转向的下一个状态。在那之后，在公平损失网络的训练过程中，智能体会给出保证金自适应策略。国家：我们认为，每个类因此，状态si包括三个部分。第一部分相当于自适应裕度M.在第二部分中，我们根据图像的数量和类内方差将所有的类分成几组。在这里，类内方差是通过使用一个训练好的神经网络来获得的，该神经网络具有一个固定的参数。图3.代理人的培训过程。我们使用样本网络收集的样本来训练智能体。每个样品包括四个部分：当前状态、下一状态、动作和奖励，增益损失函数WeMakeG（NYI，V∈G）表示其可以由（si，ai，ri，si）表示。Q-Net输出Q-群，其中G={g1，···，gkG}。nyi表示数字属于第yi类的图像V代表类内方差，公式如下：1nyi值的三个动作与状态输入和代理选择Q值最大的动作作为输出。一个固定的步长，使m减去一个固定的步长。我们的样本将包括所有的行动和奖励相关的哪里∗一个一个ij=11第二章（6）Σnyi每一个动作都是为了训练智能体做出更好的决策。奖励：我们为较小的类内方差和较大的类间距离定义奖励。在此之前，我们首先定义一个函数Ri，它与状态si有关，可以用公式表示如下：x= nyij=1x*。（七）Ri=Di -V i.（十一）x是由预先训练的神经网络提取的特征，并进行L2归一化。我们还将当前类内方差Vi增大为第三部分。对于群g（ny，V）中的每个类，我们Di可以用于评估类间距离，其可以用公式表示如下：¨∗ ¨2IyiDi=<$Wy−Wy<$，（12）使用当前神经元ii计算类内方差网络与我们的公平损失函数，并得到平均值为Vi。该公式可表示如下：其中，W表示类的权重向量，其与第yi个类具有最短距离Vi等于Vi= 1挪威尼Nik=1V′，（8）由Eq定义8. 此外，奖励ri可以用公式表示如下：ri=R′−Ri，（13）其中R′类似于Ri，并且与状态s′相关。其中，Ni表示组i ig（ny，V），以及V′=1NYK越南j=1xj−x<$$>2，（9）深度Q学习：我们使用深度Q学习[23]来让代理人找到一个最优策略，因为我们没有关于选择正确行动的先验知识。对于每个状态和动作（si，ai），Q（si，ai）表示状态和动作的贴现累积奖励。在训练过程中，我们通过以下方式迭代更新Q函数：x¯=1nykxj.（十）Q（si，ai）= ri+ γ max Q（s′，a′）.（十四）nykj=1伊伊我这里，xj是由我们当前的神经网络提取并进行L2归一化的特征。为了使状态空间离散，我们设mi（t）∈M，定义一个函数f（Vi）∈F以量化Vi，其中M={m1，· · ·，mkM}，一10057.F={f1，···，fkF}。因此，si可以表示为mi（t），g（ny，Vi），f（Vi）.Q网络的结构如图所示。3.第三章。我们简单地使用一个两层全连接网络作为Q函数，其中隐藏层为10个单元。每个完全连接的层后面都有一个ReLU激活函数。训练代理的细节总结在算法2中。最后，代理将使用策略输出一个操作Iyi行动和过渡：在每一个国家，我们有三个代理的操作：使m保持不变，使m添加at= arg maxaQ（st，a），其中st是状态表示a-楼上的10058我我我我我我伊伊算法1为代理收集样本准备工作：预训练具有稳定的边际损失函数的神经网络第将所有的类分成几组，根据图像的数量和类内方差，这是由预先训练的网络计算。采集样本：对于所有组中的g，1：从最后一个网络计算当前状态si（使用预先训练的网络初始化）。2：在动作空间中执行每个动作，以修改组g的边距。3：对于每个动作ai，通过适应的裕度训练另一个时期的最后一个网络4：计算状态s′，g组从该状态转变为算法3训练公平损失网络准备工作：训练有素的特工。列车：1：像正常的深度CNN一样进行训练。在每一个时代结束时：对于所有组中的g，2：计算组g的当前状态sg。3：将状态sg输入到训练好的agent中，得到输出动作ag。4：执行操作ag以修改组g的边距。端5：进入下一个训练阶段。工作并提取由{（s，a，r，s′）}表示的样本。一次训练。5：通过最后一个网络计算奖励ri，算法1中给出了细节。我我我我当前的Eq。十三岁6：记录（si，ai，ri，s′）作为样本。如果s′是一个新的状态，在此7：返回步骤1。结束if结束for算法2训练智能体进行边缘自适应策略数据类型：通过算法1从原始神经网络中收集样本{（si，ai，ri，s′）}。输入：一系列样本{（si，ai，ri，s′）}。保证金自适应策略的应用：将使用经训练的代理生成的边缘自适应策略利用Algorith-m3对公平损失网络进行训练。在训练过程中，代理人将决定修改每个组的公平损失利润率。4. 实验在本节中，我们将首先介绍在以下实验中的实现细节，然后描述训练代理的过程。在此基础上，我们设计了几个有效性实验.最后，我们将介绍我们的方法在三个开放的基准测试的结果，并将它们与其他国家的最先进的方法。输出量：Q-Net参数列车：当未达到最大迭代次数时，1：前向传递数据（si，ai）。2：得到Q-Net输出Q（si，ai）。3：对于动作空间中的每个动作a′，向前传递（s′，a′）。4.1. 实现细节预处理。我们只使用标准的预处理。用于训练和测试的所有图像中的面部标志由MTCNN检测[47]。然后，我们采用5个面部点进行相似性变换。之后，面部被裁剪为112×112。在[20，36]之后，每个像素（在[0，255]）通过减去127.5进行归一化我我4：计算目标产量yi= ri+ γ max Q（s′，a′）.我5：<$−α<$dQ（si，ai）（Q（s，a）−y）。然后除以128。训练我们使用两个数据集来训练模型。一个是公开的网络收集的训练数据集CASIA-WebFace [44]，其中包含属于10，575个不同个体的494，414张人脸图像。规模end while德吉伊伊我CASIA-WebFace很小（不到0.5M图像和20 K主题）[14]，因此我们可以使用它来与小型训练数据集的实验结果进行比较。另一个数据集是大规模的，这是MF2训练数据集[24]样本采集：为了训练特工，我们需要收集样本喂特工。我们首先根据图像的数量和由预训练的计算的类内方差具有稳定的大裕度损失函数的网络。然后，我们手动改变余量来训练一系列样本网络-一10059关于 MegaFace MF2 训练数据集用于 MegaFaceChallenge 2，包含470万张面孔和672K唯一身份。如图4、两个数据集都存在不均衡分布。至于CNN架构，我们使用两个先进的一个是相同的64层CNN架构作为10060(a) CASIA-WebFace数据集(b) MF2训练数据集图4.两个训练数据集的不平衡数据分布。在 [20] 中描述了 Q-Net 训练样本收集。另一个是ResNet50 [10]，在最后一个卷积层之后，修改了[5]中提出的结构。它是用来进行实验上的几个基准。我们使用MxNet [4]来实现公平损失，并使用CNN和Ten-sorFlow [1]进行深度Q学习。对于损失函数，我们以CosFace（LMCL）[36]为例，使我们的公平损失使用边际自适应策略。实际上，该方法也可用于其他具有裕度参数的基于 softmaxCNN 模型在两个 GPU（NVIDIA GeForce 1080TI）上训练，将小数据集的批量大小设置为256，大数据集的批量大小设置为200。在小数据集上，学习率从0.1开始训练过程在180K迭代时完成。在大型数据集上，我们将学习率分为256K，358K，410K迭代，并在440K迭代时完成。我们将动量设为0.9，重量衰减设为0.0005。试验. 在测试过程中，分数由两个特征向量的余弦距离计算，这两个特征向量是通过连接原始人脸特征和水平线获得的。tally翻转的功能。最后，分别采用最近邻分类器和阈值比较法进行人脸识别和验证。我们的模型在几个流行的公共人脸数据集上进行了评估，包括LFW [13]，YTF [41]和MegaFace [14，24]。4.2. 代理培训流程为了使用公平损失来训练我们的模型，我们训练了一个智能体来生成边缘自适应策略。我们首先在CASIA-WebFace [44]上预训练64层CNN，使用CosFace（LMCL）[36]，保证金设置为0.35。根据图像的数量和预训练网络计算的类内方差，我们将 CASIA-WebFace中的身份分为9组，由0.1到0.5的数字表示。0.9.我们选择50和150作为数字的图像。对于类内方差，我们还确定了两个阈值，使得三段中的身份数彼此相似。然后，我们通过训练一系列网络来为代理收集样本。详细地说，对于每个组，我们通过我们定义的所有动作手动修改余量，并从预训练的网络中训练一个历元。一个时期的训练将群引导到另一个状态，在该状态中群具有新的裕度。我们通过所有动作不断修改当前状态的边缘，并从当前网络中训练另一个epoch，直到边缘遍历整个边缘空间。在这项研究中，我们设置了从0.15到0.45（0.15，0.25，0.35和0.45）的边界我们可以从训练好的网络中获得每组的类内方差和类间距离。此外，我们计算网络传输的奖励并记录向量，这些向量代表每个网络的当前状态，下一个状态，动作和奖励，作为我们的之后，我们通过 Deep Q-learning [23]提供样本来训练代理。经过训练的智能体可以输出具有状态输入的三个动作的Q值在训练过程中，我们将选择Q值最大的动作进行公平损失保证金的调整。图5示出了来自经训练的代理的边缘自适应策略的一部分，从中我们有三个发现。首先，班级较小的群体更倾向于提高差额。第二，较大的类内方差更有可能导致利润率的增加，反之亦然。大的类内方差通常反映了一个类没有得到充分的训练，因此这种现象可以解释为需要更大的余量来优化训练不足的类。第三，对于具有特定类内方差的特定组，可能存在最佳保证金范围。第一个发现与我们的理论分析是一致的，而第二和第三个发现进一步促进了对我们的理解，增加了我们的边际自适应策略的合理性。4.3. 推广和验证实验为了证明我们的方法的泛化能力，我们进行了大量的有效性实验。我们的代理是基于CosFace训练的[36]。然而，我们使用代理生成的策略来修改CosFace[36]和ArcFace [5]上的边距。同时，我们使用了与样本网络不同的网络架构，包括基于[5]中提出的残差单元的34层和18层CNN。如表1所示，我们的间隔自适应策略可以应用于具有大间隔的各种模型，这证实了我们的方法的泛化我们还设计了三个基线与基于规则的保证金策略。MIP基线简单地使用与类别的图像数量成反比的边缘。VDM基准使利润由他们的协议决定-10061图5.来自经训练的代理的边缘自适应策略的一部分每个网格指示对状态的动作我们从战略中得出三个结论。首先，班级较小的群体更倾向于提高差额。第二，较大的类内方差更有可能导致利润率的增加，反之亦然。第三，对于具有特定类内方差的特定组，可能存在最佳保证金范围。方法层数LFWYTFMF1等级1MF1验证[36]第三十六话FairLoss Cos343499.3299.5293.9895.8275.3876.9589.1590.82ArcFace [5]FairLoss Arc343499.4299.5794.5494.6675.9378.1591.0692.89[36]第三十六话FairLoss Cos181899.2399.3593.5894.5873.5675.4086.8089.14ArcFace [5]FairLoss Arc181899.2899.3793.3693.7675.7275.9888.9890.32表1.在LFW [13]，YTF [41]和MegaFace Challenge 1 [14]上使用不同的损失函数和不同的网络架构验证我们的策略“Rank1” refers to rank-1 identifica- tion 指的是核查10- 6FAR。FairLoss Cos和FairLoss Arc代表我们在CosFace中使用的边缘自适应策略的方法[36][ 5 ]故，“五”是“五”的意思。方法LFWYTFMF1等级1MF1验证[36]第三十六话99.3396.177.1189.88CosFace MIP99.4395.476.7791.21CosFace VDM99.3795.876.7891.43CosFace RM99.3395.676.0991.36FairLoss Cos99.5796.277.4592.87表2.使用基于规则的边缘与几个基线进行比较MIP简单地使用与类的图像的数量成反比的边缘。VDM是指方差决定利润。RM使用随机边距。在训练过程中消除类内差异和类间差异。类内方差越小，类间方差越大，保证金越大，反之亦然。决策函数类似于等式中的奖励函数。十三岁RM基线使用随机边距。为了公平的比较，我们使利润率在0.15到0.45之间变化（0.15，0.25，0.35和0.45），无论是在我们的利润率自适应策略和所有的基线。结果在表2中给出。我们的方法优于所有三个不固定的利润率策略，这验证了我们的策略的有效性。图6，我们说明了一个类的权重与最后一个全连通层的其他类的权重之间的平均余弦距离的分布以50和150为阈值，根据图像的数量将类别分为三部分。可以看出，dis-图6.类权重之间的平均余弦距离分布。三个图中的类具有不同数量的图像。左：小于50。中间：50到150之间。右：超过150。使用我们的方法的少数类的比例大于原始CosFace[36]，而在多数类中较小注意，权重距离可以反映两种方法中同一类的边缘，因此图中的分布 6完全证实了我们在图中的假设。第1段（c）分段。此外，我们的方法中的权重更加正交。4.4. LFW和YTF的实验Labeled Face in the Wild（LFW）数据集[13]包含来自5，749个不同身份的13，233个网络收集的面部图像。Youtube Faces（YTF）数据集包含1，595个不同人的3，425个视频，平均长度为181.3帧。两个数据集中的人脸在姿势、表情和光照方面都有巨大的变化。在这两个数据集上遵循无限制的标记外部数据协议，我们对来自LFW的6，000个人脸对和来自YTF的5，000个视频对进行了测试。如表3所示，使用在小数据集CAISA-WebFace [44]上训练的单个网络，所提出的公平损失在LFW上达到99.57%，在YTF上达到96.2%。它显示了在WebFace上训练的最佳性能，优于在相同数据集上训练的其他模型，包括原始的 CosFace [36] 。此外，与最近在WebFace或更大数据上训练的不平衡学习方法（表3中的第二个单元格）相比，由于不平衡类之间的更强的辨别能力，公平损失被示出为实现一致的增益10062−6方法议定书MF1等级1MF1验证[40]第四十话小65.2376.72DeepSense -小型小70.9882.85北京FaceALL V2小76.6677.60GRCCV小77.6774.88Softmax损失小54.8565.92[29]第二十九话小65.2178.86[27]第二十七话小64.7978.32[21]第二十一话小67.1280.42[40]第四十话小65.4980.14[20]第二十话小72.7285.56[36]第三十六话小77.1189.88公平损失（Fair Loss）小77.4592.87表3.LFW和YTF上的人脸验证准确率（%）4.5. MegaFace挑战MegaFace [14，24]是一个具有非常挑战性任务的测试基准，目的是评估百万级干扰项下的人脸识别方法。MegaFace数据集包括一个图库集，其中包含从Yahoo的100M Flickr集收集的超过100万张人脸图像此外，MegaFace有两个独立的测试场景，包括两种协议（小型或大型训练数据集）下的识别和如果训练数据集的图像少于0.5M，则它被认为是小的，而对于其他情况则是大的。为了验证，我们比较了 TAR 在10−6FAR下的性能，其中TAR和FAR分别表示真接受率和假接受率。我们评估我们的方法在MegaFace挑战1和挑战2上的性能。MegaFace挑战1（MF1）。在MegaFace Chal- lenge 1[14]上，图库集包括100万张照片，捕获了超过69万个不同的人。我们通过在CASIA-WebFace上训练来评估小训练集协议下的公平损失[44]。结果示于表4中。我们的方法赢得了验证测试的第一名。对于秩1识别，公平损失优于所有经典的度量学习损失和大利润损失与相同的训练数据集。公平损失算法在学习不平衡数据集的鉴别特征方面显示了优越性。MegaFace 挑战 2 （ MF2 ）。对于 MegaFace 挑战 2[24]，所有算法都需要在MegaFace提供的数据集上进行训练。MF2训练数据集包含470万张人脸和672K个唯一身份，这是一个大规模的不平衡数据集。图库集与MF1不同，包含与MF2训练数据集不相交我们将我们的方法与表5中的其他先进模型进行了比较。我们合理的损失表4. MF1上的人脸识别和验证评估。“Rank 1”指的是具有1M分布器的rank-1识别准确度，而“Veri”指的是具有1 M分布器的rank-1识别准确度。参考10−6FAR的验证TAR。第二个单元中的方法和我们在最后一个单元中的方法使用相同的训练数据集（CASIA-WebFace [44]）。方法议定书MF2等级1MF2验证3DiVi大57.0466.45团队2009大58.9371.12NEC大62.1266.84GRCCV大75.7774.84[20]第二十话大71.1784.22[36]第三十六话大74.1186.77公平损失（Fair Loss）大79.4189.62表5. MF2上的人脸识别和验证评估。“Rank 1”指的是具有1M 干扰器的 Rank-1 识别精度。 “Veri” 参考 10FAR 的验证TAR。与其他模型相比，该模型具有更好的性能，从而证实了根据MegaFace Challenge 2 [24]的排行榜，我们的方法在秩1识别方面树立了新的最先进水平，并在验证方面取得了亚军的成绩，其中只有一个请注意，大多数以前的高性能模型，包括现有的最先进的方法，使用模型集成技术。5. 结论在本文中，我们通过提出一种新的损失函数，即公平损失，具有自适应的边缘，来改善具有类别不平衡问题的深度人脸识别。我们使用强化学习来学习边缘自适应策略。我们的方法通过基于CosFace的策略在几个流行的人脸基准上获得了竞争性的结果最后，通过实验证明了强化学习的方法可以用于各种大间隔损失函数，在类不平衡的情况下获得更好的性能。6. 致谢本工作得到佳能信息技术（北京）有限公司的支持，Ltd.根据批准号OLA18001。方法网数层数数据LFWYTF[32]第三十二话364M97.3591.4[27]第二十七话114200M99.6395.1VGG Face [26]1162.6M98.9597.3[30]第三十话25-0.3M99.4793.2百度[19]1101.3M99.13-中心面[40]170.7M99.2894.9[3]第三季18网站地图99.1894.88范围损失[48]1281.5M99.5293.7[22]第二十二话1191.5M98.06-中心不变损失[42]122WebFace99.1293.88特色转移[45]1-4.8M99.37-Softmax损失164WebFace97.8893.1[29]第二十九话164WebFace98.7893.5[27]第二十七话164WebFace98.7093.4[21]第二十一话164WebFace99.1094.0[40]第四十话164WebFace99.0594.4[20]第二十话164WebFace99.4295.0[36]第三十六话164WebFace99.3396.1公平损失（Fair Loss）150WebFace99.5796.210063引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在OSDI，2016。[2] Nitesh V Chawla，Kevin W Bowyer，Lawrence O Hall，and W Philip Kegelmeyer. Smote：合成少数过采样技术。人工智能研究杂志，16：321[3] Binghui Chen，Wehong Deng，and Junping Du.噪声软-最大值：通过推迟softmax的早期饱和来提高dcnn的泛化能力。在CVPR，2017年。[4] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. Mxnet：一个灵活高效的异构分布式系统机器学习库。arX- iv：1512.01274，2015年。[5] 邓建康，郭佳，薛念南，Stefanos Zafeiri- ou.Arcface：用于深度人脸识别的附加角度余量损失。在CVPR，2019年。[6] Chris Drummond，Robert C Holte，等. C4. 5、阶级不平衡和成本敏感性：为什么欠采样比过采样好2003年，《从不平衡数据集中学习的研讨会II》[7] Han Hui，Wen-Yuan Wang，and Bing-Huan Mao.边缘打击：一种新的非平衡数据集学习的过采样方法。ICIC，2005年。[8] Haibo He，Yang Bai，Edwardo A Garcia，and Shutao Li.Adasyn：用于不平衡学习的自适应合成采样方法。InIJCNN，2008.[9] 何海波和爱德华多·加西亚。从不平衡的数据中学习IEEETransactionson Knowledgeamp;Data Engi-neering，（9）：1263[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[11] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。[12] 陈煌，西蒙·露西，德瓦·拉曼南。深度特征级联自适应跟踪的学习策略。InICCV，2017.[13] Gary B Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.在野外贴上标签的脸：研究无约束环境中人脸识别的数据库。技术报告，2007年。[14] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard.megaface基准：大规模识别100万张面孔.在CVPR，2016年。[15] SalmanHKhan ， MunawarHayat ， MohammedBennamoun，Ferdous A Sohel，and Roberto Togneri.从不平衡数据中对深度特征表示进行成本敏感的IEEETransactions on Neural Networks and Learning Systems，29（8）：3573[16] 巴特尔·奥斯·克尔·瓦奇克、米奇·瓦沃·兹尼亚克和杰拉尔德·谢弗。成本敏感的决策树集成有效的不平衡分类。应用软计算，14：554-562，2014。[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。[18] Shan Li和WeiongDeng。深度面部表情识别：一个调查。arXiv：1804.08348，2018年。[19] 刘敬拓，邓亚峰，白涛，魏正平，黄昌。以终极精度为目标：通过深度嵌入进行人脸识别。 arXiv ：1506.07310，2015年。[20] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在CVPR，2017年。[21] Weiyang Liu，Yandong Wen，Zhiding Yu，and MengYang.卷积神经网络的大余量softmax损失S. InICML，2016.[22] Iacopo Masi，Anh Tun Trn，Tal Hassner，Jatuporn ToyLek-sut，andG e'rardMedioni. 我们真的需要收集数百万张面孔来进行有效的人脸识别吗在ECCV，2016年。[23] Volodymyr Mnih，Koray Kavukcuoglu，David Silver，Andrei A Rusu，Joel Veness，Marc G Bellemare，AlexGraves，Martin Riedmiller，Andreas K Fidjeland，GeorgOstrovski，et al.通过深度强化学习实现人类级别的控制Nature，518（7540）：529，2015.[24] Aaron Nech和Ira Kemelmacher-Shlizerma

下载后可阅读完整内容，剩余1页未读，立即下载