人脸识别中的离散对齐度量方法-基于局部类间差异度（LID）的DAM

134 浏览量更新于2023-10-13 收藏 714KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3814−−−−predezji=1DAM：用于人脸识别的离散对齐度量刘嘉恒*1、吴宇东*2、吴毅超2、李初明2、胡晓林3、丁亮2、王梦宇21北京航空航天大学、2商汤科技集团有限公司、3清华大学liujiaheng@buaa.edu.cn，{吴玉东，吴义超，李楚明，梁定}@ sensetime.com，1600017843@pku.edu.cn，xlhu@mail.tsinghua.edu.cn摘要随着深度学习的兴起，人脸识别（FR）领域取得了显著的进步效果-对每个面部图像对进行比较。这与优化类内和类间相似性之间的相对裕度的训练过程不一致。有效损失函数对FR起重要作用在本文中，我们观察到大多数损失函数，包括广泛的三重损失和基于softmax的交叉熵损失，将类间（负）相似性s n和类内（正）相似性s p嵌入相似性对中，并在训练过程中优化以减少（s n s p）。然而，在验证过程中，现有的度量标准直接将两个特征之间的绝对相似度作为属于同一身份的置信度，这不可避免地造成了训练和验证过程之间的差距。为了弥补这一差距，我们提出了一个新的度量标准，称为Discrep-阈值（一）阈值ID1∆1校准0ID21∆2校准0FN TP1（b）第（1）款提出了一种基于局部类间差异度（LID）的人脸图像相似度度量方法（DAM），对每幅人脸图像的绝对相似度进行归一化。为了在验证过程中估计每个人脸图像的LID，我们提出了两种类型的LID估计（LIDE）方法，它们分别是基于参考和基于学习的估计方法所提出的DAM是即插即用的，并且可以容易地应用于大多数现有的方法。在多个流行的人脸识别基准数据集上的实验证明了该方法的有效性。1. 介绍几十年来，基于深度学习的人脸识别已经得到了很好的研究[31，35，42]。大部分进展取决于大规模训练数据[9，50，16]，深度神经网络架构[37，10，11]和有效损失函数。[26，6，41，39，53，27，4，25，13，7]。尽管有许多努力，大多数先前的作品在推理期间使用样本到样本的绝对相似性度量。通过直接阈值化余弦或L2离散来确定身份图1：来自不同ID的对的不同评估度量的相似性分布绿色直方图表示阳性对，红色直方图表示阴性对。(a)：余弦相似度量的分布。ID1和ID2在正对和负对之间具有相同的裕度，而ID2的对的总体相似性小于ID1，这导致将大量ID2的正对判断为假阴性。（b）：我们提出的离散排列矩阵（DAM）的分布。ID2的正对的分数被校准到更高的水平。具体来说，流行的基于软最大值的损失函数（例如，ArcFace [5]，CosFace [41]）或基于度量学习的损失函数（例如，三重损失[27]）寻求减少s ns p或s ns p+m作为优化目标[32]，其中s p是类内（正）相似性，s n是指类间（负）相似性，m是用于增强区分能力的边缘项。因此，相对分数spsn指示在训练过程期间针对每个面部图像的优化程度。它适用于常见的闭集分类，其通过相对概率来维护分类器的类别权重，即，*同等贡献†通讯作者c=argmax{Σezi C . 然而，在开放式空间中我ID1∆1余弦01ID2∆2余弦0FNTP13815⟨⟩在识别1中，特征对s= f1，f2之间的绝对余弦相似性被认为是具有相同身份（ID）的概率，这导致训练和验证过程之间的间隙。 zi和zj是由分类器预测的logit，f1和f2是从神经网络提取的面部嵌入，并且cpred是来自C个类别的预测类别标签。典型示例的快照也示于图1中。1a，其中两个ID在正对和负对之间具有相同的裕度（即，∆1= ∆2）。这意味着它们在训练过程中被优化到相同的程度。相比之下，ID2对的总体绝对余弦相似性小于ID1。当在实践中应用优化模型时，大量的ID2的正对被判断为假阴性。另外，在实际人脸识别的训练数据中，往往存在着长尾分布或非均匀分布。因此，优化模型偏向于不同的领域[1]，这加剧了差距。因此，需要一个更准确的度量，这是更符合现有的损失函数，以弥补人脸识别的训练和推理之间的差距。出于上述分析的动机，我们提出了一个新的met-ric称为差异对齐度量（DAM），其目的是弥合人脸识别的训练和验证过程之间的差距首先，我们分析了上述差距，并介绍了DAM，它结合了每个特征的局部类间差异（LID）来归一化绝对相似性得分，并且与当前流行的损失函数更一致。然后，我们介绍了两种类型的局部类间差异估计（LIDE）方法，这是基于参考的LIDE和基于学习的LIDE方法，分别。在我们的LIDE中，我们建议从训练集中随机采样，或者使用GAN从不同的身份生成一组图像对于基于参考的LIDE方法，在特征空间中搜索来自锚图像集合的邻居以估计每个人脸图像的LID对于基于学习的LIDE方法，我们直接利用可学习的回归模块来回归每个人脸图像的LID，这避免了在验证过程中需要锚图像集。本文的主要贡献如下：1) 我们是第一个调查的训练和验证过程的人脸识别之间的差距，并提出了一个新的度量称为差异对齐度量，这是即插即用，可以很容易地集成到现有的人脸识别方法。2) 每个fea1在本文中，在新的相似性度量中引入了真实性来规范相似性，并介绍了两种局部类间差异估计（LIDE）方法，包括基于参考的LIDE方法和基于学习的LIDE方法。3) 在多个基准数据集上的实验表明，我们提出的DAM显着提高了人脸识别的性能。2. 相关作品人脸识别概述。人脸识别有三个基本因素，包括网络架构[37，34，31，35，30，36，33]，大规模数据集[9，50，16]和有效损失函数[27，46，51，20，19，41，39，6，25，13，49]。首先，随着神经网络架构的过程，许多手工设计的网络（例如， VGGNet [30] ，GoogleNet [36]和ResNet [10]）也在人脸识别方面取得了令人满意的性能。同时，提出了神经架构搜索（NAS）来减轻手工网络设计过程的负担，并且其有效性已在许多计算机视觉任务中得到证明[56，18]。对于大规模的人脸识别数据集，人们提出了许多广泛使用的人脸识别数据集，以提高人脸识别的泛化能力对于损失函数，由于人脸识别通常在真实世界场景中是在开集协议下进行的，因此大多数人脸识别方法采用基于度量学习的损失函数。例如，Triplet loss [27]利用欧氏距离来测量每个人脸图像对的相似性得分。中心损失[46]和范围损失[51]被提议通过最小化每个类内的距离来减少类内变化。然而，在欧几里得空间中的约束余量不足以实现最佳泛化。因此，提出了许多基于角度间隔的损失函数来解决该问题，其中角度约束被集成到softmax交叉熵损失函数中以改进L-softmax[20]和A-softmax [19]中的学习面部表示。此外，与上述方法相比， CosFace [41] ， AM-softmax [39] 和ArcFace [6]还可以最大化角度裕度。总的来说，现有的损失函数寻求最大化类内相似性并降低类间相似性，其中训练过程中的优化目标与验证过程中的余弦相似性不兼容。人脸识别的验证度量。在开始时，而不是使用距离或相似性度量，SVM [35，37]和联合贝叶斯[3，34]模型被用作分类器，以确定一对图像是否具有相同的身份。最近，深度CNN被用来提取每个图像的特征嵌入。度量学习损失（例如，[27][28][29]3816ΣszΣ12Le11G（f2）=e2211 i=12212i=1·我--化相似性度量[20，33，27]与CNN的广泛应用[30，36]。此外，角度NormFace损失定义如下：eszi，yi和超球流形，提出了由于最佳的泛化和歧视性表示，其中的特征显式归一化，余弦相似度是LNormFace= −logCei，jj=1、（1）用作验证度量[41，6，39]。此外，几种方法将每个面部图像视为特征空间中的概率分布[28，29，2]，其中对应的基于分布的相似性度量（例如，不确定性感知对数似然得分[29]）。3. 方法其中y i是特征嵌入fi的类别标签，并且z i，j= cos（θi，j）。这里，θ i，j是第j类权重向量w，j与fi之间的角度，并且s是用于调整zi，j的尺度的正尺度超参数。我们可以用以下方式重写NormFace损失函数：1在本节中，我们描述了我们提出的DAM，如图所示。2.具体来说，给定一对人脸图像，我们首先LNormFace= −logCj=1，j=/.es（zi，j−zi，yi）+1yi（二）使用预先训练好的神经网络对每幅人脸图像进行特征提取，然后生成局部间类理论上，上述损失函数本质上是基于相对的。具体而言，损失函数旨在减小差异（LID）为每个人脸图像由我们提出的局部类间差异估计（LIDE）方法。将差值（即，z和类内相似性i、j−zi，yi）在类间zi、j最后，DAM将一对图像的特征和LID作为输入，并生成这对面部图像的相似性得分。3.1. 离散对齐度量在本节中，我们首先分析了现有损失函数与人脸识别评估指标之间的差距。然后，我们提出了差异对齐方法（DAM）来评价一对人脸图像的相似性。最后，我们从理论上分析了为什么我们的DAM更符合现有的损失函数，通过显示zi ， yi，这可能导致图1B中的验证过程中的模糊优化间隙。1.一、因此，需要与现有损失函数一致的更准确的度量来补偿用于人脸识别的训练和验证之间的这种差距第DAM的实例化在我们的工作中，我们提出了一个新的度量，命名为DAM（Discredibility Alignment Metric）来衡量一对人脸嵌入的相似性得分（即，f1，f2），其目的是与现有的损失函数相一致。DAM定义如下：我们的DAM与NormFace [40]的关系，这是面部识别的常见损失函数。DAM（f2）A=A（1个以上（1）、（3）G（f1） G（f2）通常，当前的人脸识别方法[4，27，24，6]倾向于提取每个人脸图像的特征嵌入其中s是尺度超参数，<·，·>是内乘积。两个人脸图像嵌入的结果，Σks（f，fi∠i=1真嵌入在训练过程中，明确的损失[27]第24话，最大限度地减少了差距。和k_s（f，f_i）表示局部类间距离，i=1在类间相似度和类内相似度之间，这是一个基于相对的然而，在人脸识别的开集评价中，通常采用余弦相似性度量来衡量两幅人脸图像是否属于同一个身份，这是人脸识别的一个绝对度量。因此，我们观察到用于训练的损失函数和用于评估的余弦相似性度量之间的自然差距为了更清楚地说明这一差距，由于许多流行的基于余弦的损失函数[19，41，6]可以被认为是NormFace损失[40]的变体，因此我们以Norm-Face损失[40]为例。此外，我们可以获得分别为f1 和f2。这里， fi（ fi）表示特征空间中f1（f2）的第i个相邻嵌入.在我们的工作中，我们定义Ψf={fi}k和Ψf=fk来分别表示特征空间中的f1和f2的相邻嵌入集，其中相邻嵌入集的大小为k。然后，我们讨论了为什么我们提出的DAM是更consistent与损失函数。我们还以NormFace为例，在Eq.2、最小化训练过程中的损失函数NormFace。同时，我们可以用公式表示Eq。2作为以下优化任务：C使用三重态损失的类似结论[27]。在[40]中，训练集中完全有C类。的minj=Σ1，j/=yi并采用有效的损失函数来提高有限元分析的判别能力G（f1）=3817es（zi，j−zi，yi）.（四）3818Σ/ΣΣG- -G��*= DAM（��大坝图像对特征局部类间差异估计图2：DAM的人脸验证过程。首先，我们使用预先训练的人脸识别（FR）模型来提取一对图像的特征。然后，我们使用我们提出的局部类间差异估计（LIDE）方法（这里，我们以基于参考的LIDE为例）为每个人脸图像生成局部类间差异（LID）。最后，DAM将提取的特征和LID作为输入，并返回用于面部验证的相似性得分。Eq中的目标4可重新表述如下：eszi，yi0.40MaxCj= l，ji=yieszi，j、（五）0.35其中zi，yi可以被认为是类内相似-0.30ity，并且z i，j（j = y i）可以被认为是类间相似性。因此，给定一对面嵌入f1，f2，我们可以通过计算余弦相似性得分来容易地生成类内相似性，并且理想的度量应该包括当前嵌入与等式（1）中的其他类权重之间的类间相似性。5.此外，我们称Eq中的分母。五是类间差异。由方程式5，每个人脸图像的嵌入与大多数其他类权重之间的类间相似度都在0左右，因此大多数其他类对类间差异的影响非常小[52]。如图3时，每个样本的类间余弦相似度曲线迅速变平并衰减到0，这表明只有几个最接近的类支配每个样本的类间差异信息。因此，我们对类间差异进行因式分解（即，等式中的分母。5）进入0.250.20图3：每个样本沿类别的余弦相似性分布我们使用ArcFace [6] 在 MS-Celeb-1 M [9] 上训练 ResNet-50[10]，并随机选择500个样本。勾画出每个样本沿类别的余弦相似性分布，一条L形曲线表示样本沿类别的余弦相似性分布，即，（cos θ i，1，cos θ i，2，…cos θ i，C）。cosθi，j是第i个样本的人脸嵌入与第j个类中心的权重之间的角度我们沿着y轴平铺所有样品与其他类别的相似之处是两项：Kj= l，ji=yieszi、j和Cj=k+1，jeszyii、j. 第一降序排序项由每个样本与嵌入空间中对应的k个最接近的类间邻居之间的同时，第二项中的相似度接近于0，因此第二项的值可以简化为Ck1，其中C是类的数量。因此，我们直接采用k-最近邻嵌入作为等式3中的每个人脸嵌入f的局部类间差异（LID）（f），其旨在近似总体类间差异信息。3.2. 局部类间离散估计因此，在等式3中，如何在推理期间获取每个面部嵌入f的局部类间差异（LID）（f）是至关重要的在本节中，我们将介绍两种类型的局部类间差异估计（LIDE）10.80.60.610.20.720.40.420.5（相邻嵌入集（FR模型0.90.80.70.60.50.40.30.25004000200300200400600100800010003819ME我一一GIEGGMG一一GMGM一G一一M方法（即，基于参考的LIDE和基于学习的LIDE方法）来估计每个面部嵌入的LID基于参考的LIDE。由于难以估计人脸识别模型在特征空间中的整个嵌入分布，我们建议从嵌入分布中进行采样。具体地，人脸识别模型如下提取每个人脸图像I的特征嵌入f：f=MFace（I），对于I∈I和f∈ E，（6）其中和分别是图像空间和嵌入空间，并且Face是面部识别模型。因此，通过在图像空间中对一定数量的人脸图像进行均匀采样，然后投影到嵌入空间，我们可以从人脸识别模型的嵌入分布中获得采样。我们将采样图像集称为相应的嵌入集称为在每个人脸对的人脸验证过程中，我们提取每个人脸图像的特征嵌入f，并从每个人脸图像的“锚嵌入集”中搜索相邻嵌入集Ψf然后，我们生成LID（f），并通过下式方程3中的DAM。算法在算法1中示出。被称为与“真实数据库”相比此外，“fake-db”的身份将不会与测试数据集中的样本冲突。在以下实验部分中，“fake-db”被示出为具有与“real-db”相当的性能。此外，在我们的实验中，“fake-db”的有效性同时，与原有的验证过程相比，外部计算开销是搜索相邻嵌入集的过程。然而，在实践中，锚嵌入集的大小通常很小（不超过100000），并且可以使用许多现成的最近邻搜索库来减少时间消耗[21，14]，因此外部计算成本对于人脸识别是可访问的。完整的人脸验证过程也显示在图。二、学习型LIDE。除了通过查询锚嵌入集来获得LID之外，我们还提出了一种基于学习的LIDE方法，其中LID（f）由神经网络针对每个面部嵌入f直接预测。具体地，采用表示为LIDR的可学习局部类间差异回归（LIDR）模块来学习（f）。形式上，损失函数定义如下：算法1基于参考的LIDE。LLIDR=MLIDR（f）−G（f）（七）要求：两幅人脸图像I1和I2，训练好的FR模型θ;锚嵌入集合E;确保：归一化相似性得分S*两个人脸图像的;LIDR模块由两个具有ReLU激活功能的全连接层组成，因此额外的计算开销也可以忽略不计。LIDR将面部嵌入f作为输入，并预测f的局部类间差异（f）。受[29]的启发，采用了阶段式训练策略。具体来说，我们首先对人脸进行1：提取两个图像的特征，即， f1=θ（I1），f2=θ（I2）;2：获取LID （f1）通过搜索top-k max-f1在E中的最大相似性得分3：获取LID （f2）通过搜索top-k max-f2在E中的最大相似性得分4：returns*=DAM（f1，f2）;然而，均匀采样是很难实现的，锚点图像集的目的是生成人脸识别模型的特征嵌入分布。在实践中，一种直接的方式是从训练集中随机采样以构建锚点图像集I，并通过人脸识别模型提取锚点图像集的特征以构建锚点嵌入集E。我们将锚点特征集称为“real-db”。此外，我们还建议使用GAN [8，15]生成的假人脸图像来构建锚嵌入集，该锚识别模型然后，我们固定预训练的人脸识别模型的参数，并且仅优化LIDR模块以学习（f）。此外，LIDR模块是在人脸识别模型的相同数据集上训练的，因此分阶段训练策略提供了所提出的方法与原始方法之间的公平比较。即插即用总的来说，它是方便的，将我们提出的DAM到现有的人脸识别方法。首先，所提出的DAM不改变特征提取的方式。因此，DAM可以与现代网络架构相结合，例如VGGNet [30]，GoogleNet[36]和ResNet [10]。其次，大多数FR损失函数[19，41，6，45，54]旨在学习判别性和确定性表示，并且DAM不会改变超球面上的特征分布，这意味着DAM很容易在验证阶段通过额外的局部类间差异估计过程来改善不同损失函数23820××4. 实验在本节中，我们进行了大量的实验，以证明我们提出的DAM的有效性然后，我们进行了详细的消融研究，以进一步分析我们的DAM中不同成分的贡献。4.1. 实现细节数据集。对于训练数据集，我们采用 CASIA-WebFace [50]和[6]提供的MS-Celeb-1 M [9]的改进版本对于测试数据集，我们使用以下基准数据集：[2019 -05 - 15][2019 - 05][为了预处理，我们遵循最近的工作[6，19，41，17，5]来生成归一化的面部裁剪（112 112）。对于骨干网络，我们利用广泛使用的神经网络（例如，ResNet-18，ResNet-50，ResNet-100 [10]），其中我们遵循[6]利用BN-Dropout-FC-BN网络结构来产生256-dim嵌入特征表示。默认情况下，锚图像集的大小为50000，邻近嵌入集的大小为10，s为1。我们使用SGD算法，动量为0.9，权重decay为5 10−4。对于所有实验，我们首先使用现有的损失函数（例如：、ArcFace、CosFace）。对于CASIA-WebFace上的预训练，初始学习率为0.1，并且在20 k、30 k、35 k迭代时除以10。总迭代为40k。对于MS-Celeb-1 M上的预训练，初始学习率为0.1，并在100 k、140 k、160 k迭代时除以10。总迭代为200k。至于LIDE中基于学习的方法，我们利用两个具有ReLU激活函数的全连接层[23]作为回归网络。回归网络的初始学习率是0.001，并且在15k、20k、25k次迭代时除以0.1。总迭代为30k。所有实验的批量大小设定为 512 。此外，我们使用StyleGAN [15]来生成锚图像集。此外，我们使用我们提出的基于参考的LIDE方法和基于学习的LIDE方法，在下面的实验中分别称为DAM-R和DAM-L4.2. IJB-B和IJB-C数据集我们提供DAM对挑战IJB的结果-B [47]和IJB-C[47]数据集。由于我们的方法可以很容易地集成到现有的损失函数中，因此我们提供了基于CosFace [41]，ArcFace [6]和CurricularFace [26]的详细实验。骨干网络是在MS-Celeb-1 M上训练的ResNet- 100 [9]。如表1所示，当与原始基线相比时，DAM-R和DAM-L方法在所有情况下都在IJB-B和IJB-C数据集上实现了显著的性能改进，这表明我们提出的方法对于IJB-B和IJB-C数据集是鲁棒的。表1：具有不同损失函数的IJB-B和IJB-C数据集上的TAR结果方法IJB-B（@FAR=1e-4）IJB-C（@FAR=1e-4）CosFace [41]94.8096.37+DAM-R94.9796.45+DAM-L94.8796.43ArcFace [6]94.2595.63+DAM-R94.6395.78+DAM-L94.5495.73[26]第二十六话94.8196.11+DAM-R95.1296.20+DAM-L95.0196.18不同的损失函数此外，我们提出的DAM-L的性能与DAM-R，这意味着我们的基于学习的方法DAM-L可以学习估计本地类间差异。4.3. LFW、CALFW和YTF数据集的结果为了进一步证明我们的方法的有效性，我们在表2中提供了LFW [12]，CALFW [55]和YTF [48]的结果。具体来说，我们利用我们提出的基于预先训练的ResNet-18的DAM-R和DAM-L方法在CASIA-WebFace数据集上使用ArcFace损失函数[6]。如表2所示，当与基于ArcFace的原始方法相比时，所提出的DAM-R在LFW 上、在 CALFW 上和在 YTF 上分别提高了+0.30%、+0.38%和+0.26%的精度。表 2 ： LFW 、 CALFW 和 YTF 数据集的验证准确度（%）。方法LFW（%）CALFW YTF（%）ArcFace [6]98.73 91.67 94.97+DAM-R99.03 92.05 95.23+DAM-L98.98 92.034.4. RFW数据集为了显示DAM对非均匀分布的影响不同种族），我们遵循 [43]的设置，使用基于 ArcFace 损失函数的ResNet-34模型并使用BUPT-Balancedface [43]作为训练集报告RFW [44]上的DAM结果，其中RFW包含来自四个种族组（非洲人，亚洲人，高加索人和印度人）的面孔。在表3中，DAM还在RFW数据集中的所有种族上获得了优异的结果，这证明了我们提出的DAM的有效性。表3：RFW上的验证准确度（%）方法高加索印度亚洲非洲AvgArcFace96.1394.7093.7593.9594.63+DAM-R96.3095.2094.3194.5195.08+DAM-L96.2095.1194.1594.3294.953821→4.5. 消融研究相邻嵌入集和锚嵌入集的大小。我们使用不同大小的相邻嵌入集和锚嵌入集来评估我们的DAM-R方法，在IJB-B数据集上的结果如图4所示。具体来说，我们利用基于ArcFace损失函数在MS-Celeb-1 M数据集在图4a中，我们将锚嵌入集的大小设置为50000，并且使用不同大小的相邻嵌入集。当相邻嵌入集的大小从1增加到10时，我们的方法获得了更好的性能，这表明相邻嵌入集可以适当地表示LID。然而，当相邻嵌入集的大小从10继续增加时，IJB-B数据集的性能开始下降。合理的是，随着尺寸的增加，每个人脸图像的LID趋于相似，并且区分能力减弱。同时，在Fig.在图4b中，我们将相邻集合的大小设置为10，并使用不同大小的锚嵌入集合。随着锚嵌入集规模的增大，性能先逐渐改善，然后趋于平缓。锚点嵌入集是从训练模型的特征分布中采样的。当我们增加锚嵌入集的大小时，我们可以获得更准确的采样，这有助于生成对LID的更好估计然而，当尺寸足够大时，性能的改善变得相对稳定。超参数s的影响。为了证明超参数s的效果，我们通过在IJB-B数据集上设置不同的s值进行更多的实验，并在FAR= 0时得到结果。001%，见图。4c.具体来说，我们利用基于ArcFace损失函数在MS-Celeb-1 M数据集上训练的ResNet-50。如图4c，当s从0.5增加到1时，IJB-B上的性能变得更好。但是，当我们继续从1开始增加s时，性能开始下降。在训练过程中，如AdaCos[53]中所分析的，损失函数的比例因子旨在平衡优化的难度，其中较大的比例因子导致更容易的优化目标。相比之下，在我们的DAM中，如果我们使用大的比例因子，则局部类间差异的值只有最接近的一个），不能很好地反映类间差异。同时，随着s0，局部类间差异变得无差别。不同类型的锚嵌入集。为了分析锚嵌入集的效果，我们利用不同类型的锚嵌入集用于我们的DAM-R方法，表4中报告了IJB-B数据集的结果。采用ResNet-50模型，并在MS-Celeb-1 M数据集上进行训练具体地，注意，我们使用ArcFace损失函数的最后一个全连接层的收敛权重。权重接近训练数据集的所有类的中心。“Real-db” means that we randomly sample one image peridentity 如表4所示，当使用不同类型的锚嵌入集时，实现了类似的结果，这表明我们的方法对锚嵌入集的类型不敏感表4：当使用不同类型的锚嵌入集时在IJB-B数据集上的结果。锚点图像集IJB-B（TAR@FAR）0.001%0.01%ArcFace [6]FC层的权重Real-db假db85.5093.0993.4893.6493.6387.5087.8687.894.6. 进一步分析余弦相似度和概率的统计分析。我们用MS-Celeb-1 M[9]训练ResNet-50 [10]。如图1的前两列所5、我们可视化了正类别中心对应的余弦相似性分数分布和不同优化步骤的概率（softmax的输出）分布然后，我们选择概率分布中的两个不相交的段（第二列），并在图的最后一列中显示它们对应的余弦分布。5.两个余弦分布彼此重叠。我们有两个观察图。第五章：1)随着训练的进行，得分分布和概率曲线都变得尖锐。2)同时，所选分布的重叠并没有随着模型的收敛而消失，这表明余弦相似性与概率之间存在差距DAM的有效性。为了分析DAM的效果，在图中。在图6中，我们将通过DAM计算的图6中两个不相交片段中相同样本的相似性得分可视化。5.与原始余弦相似度相比，归一化得分的重叠减少，曲线变得更尖锐，如图所示。6.它表明，概率和相似性之间的错位减少与本地类间差异的结合。队列评分标准化的差异。队列评分标准化（CSN）[38]已通过使用队列样本对原始匹配评分进行后处理而用于人脸识别。我们提出的DAM和CSN的区别如下。首先，对于一对人脸图像，CSN利用每个人脸图像与相应的相邻人脸图像之间的相似性得分作为一个补充。3822IJB-B（FAR=0.001%）8887868584830 20 40 60 80100相邻嵌入集（一）88.588.087.587.086.586.085.585.0IJB-B（FAR=0.001%）+DAM-RArcFace2 4 6 8锚埋件尺寸×104（b）第（1）款88.087.587.086.586.085.5IJB-B（FAR=0.001%）+DAM-RArcFace0.500.751.001.251.501.75两点S（c）第（1）款图4：（a）相邻嵌入集的大小的影响。(b)锚点图像集大小的影响。(c)超参数s的影响。1.000.750.500.250.003×1040.00.20.40.60.81.0×1040.080.060.040.020.001.000.75×104×1040.20.40.60.81.00.150.100.050.001.0×1030.740.760.780.800.82×10360050040030020010000.700.720.740.760.780.800.820.8460050040030020010000.33 0.340.350.36 0.37 0.3820.5010.5余弦相似度归一化相似度02.01.51.00.50.00.00.20.40.6×1040.00.20.40.60.81.00.81.00.250.000.80.60.40.20.0×1040.20.20.40.40.60.60.80.81.01.00.00.75×1030.60.40.20.00.750.80 0.850.800.850.90图6：余弦相似性与DAM的归一化相似性得分之间的比较绿色和蓝色曲线表示相似性分布，对应于概率的两个不相交的部分，如图所示。五、右侧示出了原始余弦相似性，并且左侧表示DAM的相似性得分。图5：不同优化阶段训练样本与其正类别之间softmax概率和余弦相似度的分布。总迭代为20，0000步，并且第一行、第二行和第三行分别示出第80，000步、第140，000步和第200，000步的分布选择概率分布的两个不相交的部分，并且在最后一列中展示了它们相应的余弦分布。的区别性特征来辅助识别。CSN的动机是生成更有说服力的人脸验证特征相比之下，我们提出了一个新的度量推理，这是更一致的优化目标，得到在训练过程中。DAM中的邻居的相似性用于估计局部类间差异，而不是在CSN中的额外表示。第二，CSN试图利用排序相似性的模式，并需要回归策略来产生判别信息。然而，我们的DAM是即插即用，遵循Eq。3无外部回归过程。第三，CSN是基于传统的面部描述符提出的，但我们的DAM是基于SOTA框架，使用深度神经网络架构和有效损失函数，其中所提取的特征分布在超球体上。此外，我们还提出了一种基于学习的方法来估计LID，而无需搜索相邻样本。DAM组合格式的探讨。我们用等式中的乘法运算代替求和运算。3.我们采用表1的相同设置来比较基于参考的DAM下的求和和乘法运算，其分别被称为在IJB-B数据集上，在1 e-4和1 e-5的FAR下，DAM-R-M的TAR结果分别为94.56%和90.80%，与 DAM-R-S 的结果（94.63%，90.83%）这表明，求和和乘法运算的选择并没有带来显着的差异，我们提出的DAM。5. 结论在本文中，我们已经调查了训练和验证过程之间的差距和有效性的本地类间差异信息的人脸识别。然后，我们提出了一种新的验证度量DAM人脸识别。在不同的人脸识别基准之间的大量实验证明了我们提出的DAM的有效性。+DAM-RArcFacenumbernumber焦油number焦油焦油余弦相似机率余弦相似3823引用[1] Dong Cao ， Xiangyu Zhu ， Xingyu Huang ， JianzhuGuo，and Zhen Lei.域平衡：长尾域上的人脸识别。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[2] 常杰，蓝中浩，程昌茂，魏以辰。人脸识别中的数据不确定性学习。在IEEE/CVF计算机视觉和模式识别会议的论文集，第5710-5719页[3] Dong Chen，Xudong Cao，Liwei Wang，Fang Wen，and Jian Sun. Bayesian Face：一种联合制剂。欧洲计算机视觉会议，第566-579页。Springer，2012.[4] Sumit Chopra Raia Hadsell和Yann LeCun。学习相似性度量有区别地，与应用到人脸验证。在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[5] Jiankang Deng ， Jia Guo ， Tongliang Liu ， MingmingGong，and Stefanos Zafeiriou.副中心弧面：通过大规模噪声网络人脸增强人脸识别。在2020年IEEE欧洲计算机视觉会议论文集[6] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集，第4690- 4699页[7] Jiankang Deng ， Jia Guo ， Jing Yang ， AlexandrosLattas，and Stefanos Zafeiriou.用于深度人脸识别的变分原型学习。在IEEE/CVF计算机视觉和模式识别会议论文集（CVPR），第11906-11915页[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[9] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页。施普林格，2016年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[11] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[12] Gary B Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.在野外贴上标签的脸：研究无约束环境中人脸识别的数据库。2008.[13] Xiao Jin，Baoyun Peng，Yichao Wu，Yu Liu，JiahengLiu，Ding Liang，Junjie Yan，and Xiaolin Hu.基于路径约束优化的知识提取。InProceedings ofIEEE/CVF计算机视觉国际会议（ICCV），2019年10月。[14] Je f fJohnson，MatthijsDouze，andHer ve'Je'gou. 用gpu进行十亿级相似性搜索。 arXiv 预印本 arXiv ：1702.08734，2017。[15] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页[16] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard. megeface基准：100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议集，第4873-4882页[17] 金永铉朴元杓和申宗柱宽脸：一次看着成千上万的人进行面部识别。arXiv预印本arXiv：2008.06674，2020。[18] Jiaheng Liu，Shunfeng Zhou，Yichao Wu，Ken Chen，Wanli Ouyang，and Dong Xu.块建议神经架构搜索。IEEE Transactions on Image Processing ， 30： 15-25，2020。[19] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在IEEE计算机视觉和模式识别集，第212[20] Weiyang Liu，Yandong Wen，Zhiding Yu，and MengYang.卷积神经网络的大余量softmax损失。在ICML，第2卷，第7页，2016年。[21] Yury A Malkov和Dmitry A Yashunin。使用分层可导航小

下载后可阅读完整内容，剩余1页未读，立即下载