人脸识别中的成对关系网络在特征提取和身份识别方面具有高准确率

160 浏览量更新于2023-10-13 收藏 1.08MB PDF 举报

特征提取

长短期记忆网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于人脸识别的成对关系网络Bong-Nam Kang1[0000−0002−6818−7532]、Yonghyun Kim2[0000−0003−0038−7850]和Daijin Kim1、2[0000−0002−8046−8521]1韩国POSTECH创意IT工程系2韩国POSTECH计算机科学与工程系{bnkang，gkyh0805，dkim}@ postech.ac.kr抽象。现有的使用深度神经网络的人脸识别很难清楚地知道使用什么样的特征来区分人脸图像的身份。为了研究人脸识别的有效特征，我们提出了一种新的人脸识别方法，称为成对关系网络（PRN），该方法在特征图上获得地标点周围的局部外观补丁，并捕获一对局部外观补丁之间的成对关系。PRN被训练为捕获不同标识之间的唯一和区分性成对关系。因为成对关系的存在和意义应该是身份相关的，所以我们将从长短期记忆（LSTM）单元网络获得的面部身份状态特征与特征图上的顺序局部外观补丁添加到PRN。为了进一步提高人脸识别的准确率，我们结合了全局表观表示和成对关系特征。实验结果表明，仅使用两两关系的伪随机网络在LFW上的性能达到了99。65%的准确率，而使用两两关系和人脸身份状态特征的PRN达到了99。准确率76%在YTF上，仅使用成对关系的PRN和使用成对关系和面部身份状态特征的PRN都达到了最先进的水平（95。7%，96。3%）。PRN在IJB-A上的人脸验证和人脸识别任务以及IJB-B上的最新技术方面关键词：成对关系网络·关系·人脸识别1介绍卷积神经网络（CNN）在计算机视觉领域取得了巨大的成功，它在几乎所有的应用中都提高了最先进的水平，特别是在分类问题中，包括对象[12 -14，20，22，29，33]场景[43，44]等。CNN成功的关键是大规模训练数据和端到端学习框架的可用性。最常用的CNN通过将输入原始数据映射到深度嵌入特征来执行特征学习和标签信息的预测，深度嵌入特征通常是最后一个全连接（FC）层的输出，然后使用2B-.N. Kang等人这些深埋的特征。这些方法将深度嵌入的特征整体地用于其应用，而不知道使用了特征的哪个部分以及它的含义。无约束环境下的人脸识别是计算机视觉中一个极具挑战性的问题。当以不同的光照、面部姿势、面部表情和遮挡呈现时，相同身份的面部可以看起来非常不同。同一身份内的这种变化可能压倒由于身份差异而引起的变化，并且使面部识别具有挑战性。为了解决这些问题，已经提出了许多基于深度学习的方法，并实现了高精度的人脸识别，例如DeepFace [34]，DeepID系列[30在无约束环境中的人脸识别任务中，深度学习和嵌入的特征不仅需要是可分离的，而且还需要是可区分的。然而，这些特征被隐式地学习以用于可分离且不同的表示，从而在不同身份之间进行分类，而不需要使用特征的哪个部分是可分离的和有区别的。因此，很难知道什么样的特征是用来区分人脸图像的身份清楚。为了克服这一限制，我们提出了一种新的人脸识别方法，称为成对关系网络（PRN）捕捉同一身份和不同身份之间的区别关系为了捕获关系，PRN通过骨干CNN网络中的特征图上的界标点周围的ROI投影将局部外观补丁作为输入。利用这些局部外观补丁，训练PRN以捕获局部外观补丁对之间的唯一成对关系，以确定面部图像中的面部部分关系结构和属性。因为成对关系的存在和意义应该是身份相关的，所以PRN可以将其处理条件化在面部身份状态特征上。面部身份状态特征是从长短期记忆（LSTM）单元网络中学习的，其具有特征图上的顺序局部外观补丁为了进一步提高人脸识别的准确性，我们将全局外观表示与局部外观表示（关系特征）相结合（图11）。①的人。所提出的人脸识别方法的更多细节在第2节中给出。本文的主要贡献可以概括如下：– 我们提出了一种新的人脸识别方法，使用的成对关系网络（PRN），捕捉独特的和歧视性的特征图上的局部外观补丁的成对关系，分类不同身份的人脸– 我们表明，建议PRN是非常有用的，以提高人脸验证和人脸识别的准确性。– 我们在公开可用的数据集上进行了广泛的实验，例如Labeled Facesin the Wild （ LFW ）， YouTube Faces （ YTF ）， IARPA JanusBenchmark-A（IJB-A）和IARPA Janus Benchmark-B（IJB-B）。本文的其余部分如下：在第2节中，我们描述了所提出的人脸识别方法，包括基本CNN结构，人脸对齐，用于人脸识别的3全局外观表示（整体）局部（关系）外观表示（基于零件）图1.一、所提出的人脸识别方法的概述分别采用两两关系网络、人脸身份状态特征、损失函数对所提方法进行训练;在第3节中，我们提出了所提出的方法的实验结果与国家的最先进的比较公共基准数据集和讨论;在第4节中，我们得出结论。2提出方法在本节中，我们详细描述了我们的方法，包括作为全局外观表示的骨干网络的基本CNN模型，面部对齐方法，成对关系网络，具有面部身份状态的成对关系网络以及损失函数。2.1基卷积神经网络我们首先描述基本的CNN模型。它是骨干神经网络，用于表示全局外观表示并提取局部外观补丁以捕获关系（图1）。①的人。基本CNN模型由几个3层残余瓶颈块组成，类似于ResNet-101 [13]。ResNet-101有一个卷积层，一个最大池化层，30个3层剩余瓶颈块，一个全局平均池化（GAP）层，一个FC层和softmax损耗层。ResNet-101接受224×224分辨率的图像作为输入，并在第一层中具有步长为2的7× 7卷积滤波器相比之下，我们的基本CNN模型接受140× 140分辨率的人脸图像作为输入，并且在第一层中具有步长为1的5×5卷积滤波器（表1中的conv1由于不同的输入分辨率，内核过滤器的大小和步幅，每个中间层的输出大小也与原始ResNet-101不同在最后一层中，我们在每个通道和FC层中使用具有9× 9滤波器的GAPFC层的输出被馈送到softmax损耗层。基本CNN架构的更多细节在表1中给出。Conv层全球应用程序。特征输入对齐面人脸图像ROI投影C对当地应用程序补丁，一系列本地应用程序。补丁PRN本地app特征局部外观面片提取损失FCFC4B-.N. Kang等人表1.基本卷积神经网络。基础CNN与ResNet-101类似，但输入的维度，卷积滤波器的大小以及每个输出特征图的大小与原始ResNet-101图层名称输出大小101层conv1140 ×1405× 5，64conv2 x70 ×703× 103maxpo ol，双螺杆挤出机 21× 1，643× 3， 641× 1，256conv3 x35 ×351× 1，1283× 3， 1281000× 1，512毫米conv4 x18 ×181× 1，256256× 231× 1，1024conv5 x9 ×91× 1，5123× 3， 5121× 1， 20481 ×1全局平均池，8630-d fc，softmax为了表示全局外观表示fg，我们使用1×1×2048特征，这是基础CNN中GAP的输出（表1）。为了表示局部外观表示，我们通过具有面部标志点的ROI投影在基础CNN（表1）中的9 × 9 × 2048个特征图（conv5 × 3）上提取局部外观补丁fl。这些fl用于捕获它们之间的成对关系并对其进行建模。局部外观补丁和关系的更多细节在第2.3节中描述2.2面部对准在基本CNN模型中，输入层接受面部图像像素的RGB值。我们采用人脸对齐方法将人脸图像对齐到规范人脸图像中，然后我们采用此对齐的人脸图像作为基础CNN模型的输入对中程序如下：1）使用Kowalsky等人的DAN实现。通过使用多级神经网络[19]来检测68个面部标志点（图12）。2）基于眼睛位置在图像平面中旋转面部以使其直立（图2b）; 3）通过取最左侧和最右侧界标点之间的中点（图2c中的红色点）来找到面部上的中心点。2d）;4）眼睛和嘴的中心点（图中的蓝色点2d）通过分别对眼睛和嘴部区域中的所有界标点求平均来找到; 5）基于中心点（红点），在x轴上居中面部; 6）通过将眼睛中心点放置在距离图像顶部30%处并且将嘴中心点放置在距离图像顶部35%处来固定沿着y轴的位置。7）将图像的大小调整为用于人脸识别的5我Σ百分之三十百分百分之三十五70140(a)（b）（c）（d）图二、面对齐。原始图像在（a）中示出;（b）示出了检测到的68个界标点;（c）示出了对准的图像平面中的对准的68个界标点;以及（d）是最终对准的面部图像，其中红色圆圈用于使面部图像沿x轴居中，并且蓝色圆圈表示用于面部裁剪的两个点140× 140。RGB颜色空间中的值在[0， 255]范围内的每个像素通过将255除以在[0， 1]范围内而被归一化2.3成对关系网络成对关系网络（PRN）是一种神经网络，其将特征图上的一组局部外观补丁作为输入，并输出单个特征向量作为其用于人脸识别任务的关系特征。PRN捕获相同身份内的局部外观斑块对之间的唯一成对关系以及不同身份之间的区分性成对关系。换句话说，PRN捕获同一身份内的面部的核心共同特性，同时捕获不同身份之间的面部的区别特性。因此，PRN的目的是从面部图像中的局部外观补丁对确定成对关系结构。关系特征ri，j表示一对两个局部外观补丁的潜在关系，并且可以写为如下：ri，j= Gθ。pi，ji，（1）其中Gθ是一个多层感知器（MLP），其参数θ是可学习的权重pi，j={fi，fi}是一对两个局部外观补丁（fi和fi）i j i j它们分别是对应于每个面部界标点的第i和第j每个局部外观补丁fl通过以下步骤提取：ROI投影，其在第i个界标点周围投影m×m′ ′在输入图像空间中的m×m特征图空间上的区域的相同的MLP对局部外观补丁的所有可能配对进行操作。局部外观补丁的置换顺序对于PRN是至关重要的，因为在没有该不变性的情况下，PRN将必须学习在没有数据中的置换不变性结构的明确知识的情况下对局部外观补丁的所有可能的置换对进行为了结合这种每突变不变性，我们用聚合函数约束PRN（图1B）。3）：fagg=A（ri，j）=（ri，j），（2）ri，j6B-.N. Kang等人˜成对关系网络MLPFଵଶଵଶ，聚合的特征....+A（，）损失局部外观补丁=,,ڮ,关系聚集ଵଶ人脸身份状态特征图3.第三章。成对关系网络（PRN）。PRN是一个神经网络模块，并采取一组局部外观补丁的特征图作为输入，并输出一个单一的特征向量作为其关系特征的识别任务。PRN捕获同一身份内的局部外观补丁对之间的唯一成对关系以及不同身份其中，A（·）是聚集函数，其是局部外观补丁的所有可能配对之间的所有成对关系的总和。最后，PRN的预测r可以是执行：r=F。FΣ，（3）~φagg其中FΦ是具有参数Φ的函数，并且由MLP实现。因此，PRN的最终形式是如下的复合函数：PRN（P）=Fφ。A.Gθpi，jΣΣΣ，（4）其中P ={p1，2，. . . ，pi，j，. . . ，p（N-1），N}是所有可能的局部外观补丁对的集合，其中N表示特征图上的局部补丁的数量。为了捕获同一身份内的唯一成对关系和不同身份之间的区别性成对关系，成对关系应该是身份相关的。因此，我们修改PRN，使得Gθ可以根据身份信息对其处理进行调节。为了调节身份信息，我们在PRN中嵌入人脸身份状态特征s_id作为身份信息如下所示PRN+（P ，sid）=Fφ。A.Gθpi，j，sidΣ。（五）为了得到这个s id，我们使用由LSTM层和两个FC层组成的递归神经网络的最终状态，该层处理一系列总的局部外观补丁（图2）。1、4）。面部身份状态特征成对关系应该是身份相关的，以捕获唯一的和有区别的成对关系。该方法基于基本CNN模型中conv 5 - 3层的输出特征图，通过对68个特征点的（LSTM....,............用于人脸识别的7不F（Ia）−F（Ip）+mTଵଶfc1fc2....Softmax损失一个局部序列你好特征图ଵ ଶ ே�外观补丁=人脸身份状态嵌入网络图4.第一章面部识别状态特征。通过围绕68个界标点的ROI投影将特征图上的面部划分为68个这些区域中的局部外观补丁序列用于对来自LSTM网络的面部身份状态特征进行点在这些局部区域中，我们提取局部外观补丁来建模面部身份状态特征Sid。设fl表示局部外观片′ ′的m ×m我i-th本地区域。为了编码面部身份状态特征s_id一个基于LSTM的网络是在一组本地外观的基础上设计的，补片Fl={fl，. . . ，fl，.. . ，fl}如下：1i Ns_id=Eψ（Fl），（6）其中，E层（·）是一种由LSTM层和两个具有可学习参数的FC层组成的新的动态网络。我们用softmax损失函数训练E ψ（图1）。4）.在我们提出的方法中使用的Eψ的详细组态将在3.1节中给出。2.4损失函数为了学习所提出的PRN，我们联合使用三重比损失Lt、成对损失Lp和身份保留损失Lid（softmax）来最小化具有相同身份的面部之间的距离，并最大化具有不同身份的面部之间的距离：L = λ1L t+ λ2L p+ λ3L id。（7）在训练PRN期间，我们根据经验设置λ1= 1，λ2= 0。5，且λ3=1。定义三元组比率损失Lt以最大化三元组面中的正对与负对之间为了最大化Lt，正对的欧氏距离应该最小化，负对的欧氏距离应该最大化。令F（I）∈Rd，其中I是输入面部图像，表示网络的输出（PRN中的Fφ的输出），Lt定义如下：L=Σmax.0，1−F（Ia）−F（In）2Σ，（8）,,ڮ,ଵଶLSLS....LS不不不MMM8B-.N. Kang等人2Σ其中，分别地，F（Ia）是网络针对锚面部Ia的输出，F（Ip）是网络针对正面部图像Ip的输出，并且F（In）是网络针对面部T的三元组中的负面部In的输出。m是定义欧几里德空间中的最小比率的裕度。从最近的工作由B-. N。Kang等人[17]，他们报告说，在训练期间仅使用L t测量数据对之间的距离的不平衡范围;这个结果意味着尽管距离的比率被限制在一定范围内的值，绝对距离的范围不是。为了克服这个问题，他们通过添加成对损失Lp来约束Lt。成对损失成对损失Lp被定义为最小化锚面Ia的F（Ia）与正面Ip的F（Ip）之间的欧几里得距离的平方和。这些对Ia和Ip在三元组T中。Lp=（Ia，Ip）∈TF（I a）− F（I p）（九）利用Lt和Lp的联合训练使facsT的三元组中的给定对的面部图像之间的绝对欧几里得距离最小化。3实验第3.1节给出了实现细节。然后，我们调查的有效性PRN和PRN与面部身份状态特征在第3.2节。在第3.3节，第3.4节，第3.5节和第3.6节中，我们进行了几次实验，以验证所提出的方法在公共人脸基准数据集上的有效性，包括LFW [15]，YTF [38]，IJB-A [18]和IJB-B [37]。3.1实现细节我们使用网络收集的人脸数据集（VGGFace2 [3]）。VGGFace2数据集中的所有面部及其标志点都由最近提出的面部检测器[42]和面部标志点检测器[19]检测到。我们使用了68个标志点的面部对齐和提取局部外观补丁。当人脸或人脸标志点检测失败时，我们简单地丢弃图像。因此，我们丢弃了来自6561名受试者的24160张人脸图像在去除这些没有界标点的图像之后，其大致变为3。100万张8630个人的照片我们通过从细化数据集中的每个主题中随机选择约10%来生成验证集因此，训练集大致有2。8M人脸图像，验证集分别有311， 773张人脸图像PRN中的详细设置对于面部部分之间的成对关系，我们首先提取一组局部外观补丁F1={f1，. . . ，fl，.. . ，fl}，1i68用于人脸识别的9我f l∈R1×1×2，048，来自主干CNN模型中的9 × 9 × 2，048特征图（表1中的conv5 3）上的ROI投影的68个标志点周围的每个局部区域（区域大小接近1 × 1）。使用此Fl，我们做出2，278（=68C2）个可能的局部外观补丁对。然后，我们使用了三层MLP，每层1000个单元，具有批归一化（BN）[16]和校正线性单元（ReLU）[25]Gθ的非线性激活函数，以及三层MLP，每层1000个单元，具有BN和ReLU非线性激活函数Fφ。为了聚合Gθ中的所有关系，我们使用求和作为聚合函数。PRN通过使用学习率为0的随机梯度下降（SGD）优化方法在真实身份标签上通过三重比损失 L_T 、成对损失 L_p 和身份保持损失 L_id（softmax）来联合优化。10. 我们在四个NVIDIA Titan X GPU上使用了128的小批量在训练PRN期间，我们冻结了主干CNN模型，仅更新PRN模型的权重。为了捕获依赖于身份的唯一和有区别的成对关系，PRN应当使其处理以面部身份状态特征sid为条件。对于s_id，我们在局部外观补丁的序列上使用基于LSTM的递归网络EΦ，所述局部外观补丁的序列是根据来自Fl的界标点顺序排序的集合。换句话说，每个面有68个长度的序列。在Eψ中，它由LSTM层和两层MLP组成。每个LSTM层有2048个存储单元。MLP分别由每层256和8，630个单元组成使用softmax的交叉熵损失来训练Eψ（图2）。4）.模型中的详细设置我们使用Keras框架[7]和TensorFlow [1]后端实现了基本CNN和PRN模型为了公平比较每个网络模块的效果，我们在softmax的交叉熵损失监督下训练了三种模型（模型A，模型B和模型C）：– 模型A是基线模型，其是基础CNN（表1）。– 模型B组合了两个不同的网络，其中一个是基本CNN模型（模型A），另一个是PRN（等式2）。(4))将模型A中的GAP层的输出特征fg作为全局外观表示与PRN中的MLPFφ的输出连接起来，而不需要面部身份状态特征的ID作为局部外观表示。fg是来自每个面部图像的大小为1×1×2，048PRN中的MLPFφ的输出是大小为1×1× 1，000的特征这两个输出特征被连接成一个大小为3048的特征向量，然后这个连接的特征向量被馈送到FC层，具有1024个单元。– 模型C是具有基础CNN模型（模型A）的输出和PRN+（等式2）的输出的组合模型。(5))具有面部身份状态特征的ID。模型A在模型C中的输出与模型B中的输出相同。与PRN相比，PRN+中的输出大小相同，但输出值不同。除了Eψ中的LSTM层之外，所有卷积层和FC层都使用BN和ReLU作为非线性激活函数。10B-.N. Kang等人人一人B人C图五、局部面部的可视化3.2PRN的影响为了研究PRN和面部身份状态特征Sid的有效性，我们在训练期间在验证集上的分类准确性方面进行了实验。对于这些实验，我们训练了两个不同的网络模型，其中一个是网络PRN（等式1）。(4))一个是仅使用PRN模型，另一个是网络PRN+（Eq.(5))使用具有s_id的PRN。我们达到了94。2%，96。PRN和PRN+的分类准确率分别为7%从这些评估中，当使用PRN+时，我们观察到面部身份状态特征s_id表示身份属性，并且成对关系应该取决于面部图像的身份属性因此，这些评估验证了使用PRN的有效性和人脸身份状态特征的重要性我们在图中可视化局部面部部分其中，每个身份的第1列、第2列和第3列分别是对准的面部图像、检测到的面部界标点和通过特征图上的ROI投影定位的面部部分。我们可以看到，本地化的外观表示在不同的身份之间是有区别的。3.3野生标记人脸实验（LFW）我们在LFW数据集上评估了所提出的方法，这揭示了在无约束环境中的人脸验证的最新技术LFW数据集是图像中人脸验证的优秀基准数据集，包含13，233张网络爬行图像，其中照明，遮挡，面部姿势和面部表情变化很大，来自5，749个不同的身份。我们的模型，如模型A，模型B和模型C，都是在大约2。8M外部训练集（VGGFace2），没有人与LFW中的受试者重叠遵循不受限制的外部标记数据的测试协议[21]，我们通过使用平方L2距离阈值对6，000个人脸对进行测试，以确定相同和不同的分类，并报告与最先进方法相比的结果（表2）。根据实验结果（表2），我们得到以下观察结果。首先，PRN本身提供比基线模型A用于人脸识别的11表2.将该方法与现有的LFW方法在图像数目、网络数目、特征维数和精度等方面进行了方法图像网络尺寸准确度（%）DeepFace [34]4M94，096×4九十七25DeepID [30]202，599120150 ×120九十七45[32]第三十二话三十万25150 ×120九十九。47DeepID3 [41]三十万50300 ×100九十九。52[第28话]200M1128九十九。63从零开始学习[40]四九四四一四2160 ×2九十七73中心面[36]0的情况。7M1512九十九。28PIMNetTL联合贝叶斯[17]一九八○一八4一千零二十四九十八33PIMNet融合[17]一九八○一八46九十九。08[23]第二十三话四九四四一四1一千零二十四九十九。42ArcFace [10]3 .第三章。1M1512九十九。78模型A（基线，仅fg）二、8M1二千零四十八九十九。6PRN二、8M1一千九十九。61PRN+二、8M1一千九十九。69模型B（fg+PRN）二、8M1一千零二十四九十九。65模型C（fg+PRN+）二、8M1一千零二十四九十九。76(the基本CNN模型，仅使用f（g）和PRN+优于联合组合f（g）和PRN两者的模型B。第二，模型C（与PRN +联合组合的f g）通过显著幅度击败基线模型模型A，将准确度从99. 6%至99。百分之七十六这表明，fg和PRN+的组合可以显著增加深度学习的特征的区分能力，以及面部局部外观部分（局部外观块）之间的成对关系的有效性第三，与模型B相比，模型C实现了更好的验证准确性（99.65%vs. 九十九。76%）。这显示了面部身份状态特征在所设计的PRN模型中捕获独特的和有区别的成对关系最后，与LFW上的最先进方法相比，所提出的方法模型C是排名靠前的方法之一，优于大多数现有结果（表2）。这表明了所提出的方法的重要性和优势3.4YouTube Face Dataset（YTF）我们在YTF数据集上评估了所提出的方法，这揭示了无约束环境中人脸验证的最新技术水平YTF数据集是视频中人脸验证的优秀基准数据集，包含3，425个视频，其中光照，面部姿势和面部表情变化很大，来自1，595个不同的身份，平均为2。每人15个视频。视频剪辑的长度从48到6，070帧不等，平均为181帧。3帧。我们遵循不受限制的测试方案，使用标记的外部数据。我们在5000个视频对上进行了测试，并将测试结果与最先进的方法进行了比较（表3）。12B-.N. Kang等人表3.在YTF上与现有方法进行了图像数目、网络数目、特征维数和精度方法图像网络尺寸准确度（%）DeepFace [34]4M94，096×491. 4[32]第三十二话三十万25150 ×120九十三2[第28话]200M1128九十五1从零开始学习[40]四九四四一四2160 ×292. 2中心面[36]0的情况。7M151294 9[23]第二十三话四九四四一四1一千零二十四九十五0NAN [39]3M1128九十五7模型A（基线，仅fg）二、8M1二千零四十八九十五1PRN二、8M1一千九十五3PRN+二、8M1一千九十五8模型B（fg+PRN）二、8M1一千零二十四九十五7模型C（fg+PRN+）二、8M1一千零二十四九十六。3从实验结果（表3）中，我们得到以下观察结果。首先，PRN本身提供比基线模型A（基础CNN模型，仅使用fg）稍好的准确性，并且PRN+优于将fg与PRN联合组合的模型B。第二，模型C（与PRN +联合组合的fg）以显著的幅度击败基线模型A，将准确度从95. 1%至96。百分之三。这表明，fg和PRN+的组合可以显著增加深度学习的特征的区分能力，以及面部局部外观块之间的成对关系的有效性。第三，与模型B相比，模型C实现了更好的验证准确性（95. 7% v.s. 九十六。3%）。这显示了面部身份状态特征在所设计的PRN模型中捕获独特的成对关系的重要性。最后，与YTF上的现有技术方法相比，所提出的方法模型C是现有技术（96. 3%），优于现有结果（表3）。这说明了该方法的重要性和优越性.3.5IARPA Janus Benchmark A（IJB-A）我们在IJB-A数据集[18]上评估了所提出的方法，该数据集包含从无约束环境中捕获的人脸图像和视频。它具有全姿态变化和成像条件的广泛变化，因此非常具有挑战性。它包含了500个主题，总共有5397张图片和2042个视频，以及11。4图片和4。平均每个主题2个视频。我们使用人脸检测器[42]检测人脸，使用DAN界标点检测器[19]检测界标点，然后使用第11节2.2. 在该数据中，一个静态图像和视频帧被称为“混合图像”，其包括1到190个混合的静态图像和视频帧。IJB-A数据集提供了两种协议（1：1人脸验证和1：N人脸识别）的10个分割评估。对于人脸验证，我们使用true报告测试结果用于人脸识别的13表4.在IJB-A数据集上比较所提出的PRN方法与最新技术的性能。为了验证，报告了TAR与FAR。为了识别，TPIR与给出了FPIR和Rank-N精度方法1：1验证TAR 1：N鉴别TPIRFAR=0.001FAR=0.01FAR=0.1FPIR=0.01FPIR=0.1秩-1秩-5十阶B-CNN [8]---0的情况。143 ±0。0270的情况。341 ±0。0320的情况。588 ±0。0200的情况。796±0。017-LSFS [35]0的情况。514 ±0. 0600的情况。733 ±0. 0340的情况。895 ±0。0130的情况。383 ±0。0630的情况。613 ±0。0320的情况。820 ±0。0240的情况。929±0。013-DCNN手册+度量[6]-0的情况。787 ±0。0430的情况。947 ±0。011--0的情况。852 ±0。0180的情况。937±0。0100的情况。954±0。007[27]第二十七话0的情况。590 ±0。0500的情况。790 ±0。0300的情况。945 ±0。0020的情况。556 ±0。0650的情况。754 ±0. 0140的情况。880 ±0。0150的情况。95±0。0070的情况。974±0。005[24]第二十四话0的情况。652 ±0。0370的情况。826 ±0. 018---0的情况。840 ±0。0120的情况。925±0。0080的情况。946±0。005深度多姿势[2]-0的情况。8760的情况。9540的情况。520的情况。750的情况。8460的情况。927 0的情况。947DCNN融合[5]-0的情况。838 ±0. 0420的情况。967 ±0。0090的情况。577 ±0。0940的情况。790 ±0。0330的情况。903 ±0。0120的情况。965±0。0080的情况。977±0。007[27]第二十七话0的情况。813 ±0. 020的情况。90±0。010的情况。964 ±0。0050的情况。753 ±0。030的情况。863 ±0。0140的情况。932 ±0。01-0的情况。977±0。005VGG-Face [26]-0的情况。805 ±0. 030-0的情况。461 ±0。0770的情况。670 ±0。0310的情况。913 ±0。011-0的情况。981±0。005模板适应[9]0的情况。836 ±0. 0270的情况。939 ±0。0130的情况。979 ±0。0040的情况。774 ±0. 0490的情况。882 ±0。0160的情况。928 ±0。0100的情况。977±0。0040的情况。986±0。003NAN [39]0的情况。881 ±0。0110的情况。941 ±0。0080的情况。978 ±0。0030的情况。817 ±0. 0410的情况。917 ±0. 0090的情况。958 ±0。0050的情况。980±0。0050的情况。986±0。003VGGFace2 [3]0的情况。921 ±0。0140的情况。968 ±0。0060的情况。990 ±0。0020的情况。883 ±0。0380的情况。946 ±0。0040的情况。982 ±0。0040的情况。993±0。0020的情况。994±0。001模型A（基线，仅fg）0. 895± 0。0150. 949± 0。0080. 980± 0。0050. 843± 0。0350. 923± 0。0050. 975± 0。0050. 992± 0。0040. 993± 0。001模型B（fg+ PRN）0. 901± 0。0140. 950± 0。0060. 985± 0。0020. 861± 0。0380. 931± 0。0040. 976± 0。0030. 992± 0。0030. 994± 0。003模型C（fg+PRN+）0。919±0. 0130. 965±0。0040. 988±0。0020. 882±0。0380. 941±0。0040. 982±0。0040. 992±0。0020. 995±0。001接受率（TAR）对错误接受率（FAR）（表4）。对于面部识别，我们通过使用真阳性识别（TPIR）对假阳性识别率（FPIR）和Rank-N来报告结果（表4）。所有的测量都基于平方L2距离阈值.根据实验结果（表4），我们得到以下观察结果。首先，与模型A（基本CNN模型）相比，模型C（与PRN+联合组合）在1：1人脸验证和1：N人脸识别上都实现了一致的优越准确度（TAR和TPIR）。其次，与模型B（联合组合fg与PRN）相比最后，更重要的是，模型C是从头开始训练的，并取得了与最先进的（VGGFace 2 [3]）相当的结果，该模型首先在MS-Celeb-1 M数据集[11]上进行预训练，该数据集包含大约1000万张人脸图像，然后在VGGFace 2数据集上进行微调。这表明我们提出的方法可以通过在MS-Celeb-1 M和我们的训练数据集上进行训练来进一步改进3.6IARPA Janus Benchmark B（IJB-B）我们在IJB-B数据集[37]上评估了所提出的方法，该数据集包含从无约束环境中捕获的人脸图像和视频。IJB-B数据集是IJB-A的扩展，有1，845名受试者，其中21名受试者。8K静态图像（包括11，754张人脸和10，044张非人脸）和来自7，011个视频的55K帧因为这个数据集中的图像是用真实边界框标记的，所以我们只使用DAN [19]检测标志点与IJB-A不同，它不包含任何训练分割。特别是，我们使用1：1基线验证协议和1：N混合介质识别协议用于IJB-B。对于人脸验证，我们使用TAR与FAR（表5）。对于面部识别，我们报告了使用TPIR与 FPIR和Rank-N的结果（表5）。我们比较我们提出的方法与VGGFace214B-.N. Kang等人表5.在IJB-B数据集上比较所提出的PRN方法与最新技术的性能。为了验证，报告了TAR与FAR。为了识别，TPIR与给出了FPIR和Rank-N精度方法1：1验证TAR 1：N鉴别TPIRFAR=0.0001 FAR=0.0001 FAR=0.001 FAR = 0.01 FPIR=0.01FPIR=0.1秩-1秩-5十阶VGGFace2 [3]0的情况。6710的情况。8000的情况。0的情况。8880的情况。9490的情况。746 ± 0. 018 0. 842 ± 0。022 0. 912 ± 0。017 0. 949 ± 0。0100. 962 ±0。007VGGFace2英尺[3]0的情况。7050的情况。8310的情况。9080的情况。9560的情况。763 ± 0。018 0. 865 ± 0。018 0. 914 ± 0。029 0. 951 ± 0。0130. 961 ±0。010FPN [4]-0的情况。8320的情况。9160的情况。965--0。91109530. 975模型A（基线，仅fg）0的情况。6730的情况。8120的情况。8920的情况。9530的情况。743± 0。0190. 851± 0。0170. 911± 0。0170. 950± 0。0130. 961± 0。010模型B（fg+PRN）0的情况。6920的情况。8290的情况。9100的情况。9560的情况。773± 0. 0180. 865± 0。0180. 913± 0。0220. 954± 0。0100. 965± 0。013模型C（fg+PRN+）0的情况。7210的情况。8450的情况。9230的情况。9650的情况。814± 0. 0170. 907± 0. 0130. 935± 0。0150. 965± 0。0170. 975± 0。007[3]和FacePoseNet（FPN）[4]。所有的测量都基于平方L2距离阈值从实验结果中，我们有以下观察结果。首先，与模型A（基本CNN模型，仅使用fg）相比，模型C（将fg与PRN+联合组合作为局部外观表示）在1：1面部验证和1：N面部识别上都实现了一贯的优越准确性（TAR和TPIR）其次，与模型B（与PRN联合组合的fg）相比，模型C在1：1面部验证和1：N面部识别两者上也实现了一致更好的准确性（TAR和TPIR）最后，更重要的是，模型C在1：1人脸验证和1：N人脸识别上实现了TAR和TPIR的一致改进，并在IJB-B上实现了最先进的4结论我们提出了一种新的人脸识别方法，使用成对关系网络（PRN），它需要在特征图上的标志点周围的局部外观补丁，并捕获一对局部外观补丁之间的唯一成对关系。为了捕获用于人脸识别的唯一和区分关系，成对关系应该是身份依赖的。因此，PRN使用顺序局部外观补丁将其处理调节在由基于LSTM的网络嵌入的面部身份状态特征上。为了进一步提高人脸识别的准确率，我们将全局外观表示与PRN相结合实验结果验证了本文提出的伪随机数和人脸身份状态特征的有效性和重要性，取得了99。76%的准确率在LFW，国家的最先进的准确性（96。3%），与IJB-A上的面部验证和识别任务的最新技术水平的结果以及IJB-B上的最新技术水平的结果可比较确认本研究由韩国MSIT根据SW Starlab支持计划（IITP-2017-0-00897）和由IITP监督的“I C T C on SILINCE C re at i v e计划“（I I T P - 2018-2011-1-00783）提供用于人脸识别的15引用1. Abadi，M.，等：TensorFlow：Large-scale machine learning on heterogeneoussystems（2015），https：tensorflow.org，软件可从tensorflow.org2. AbdAlmageed，W.，吴，Y.，Rawls，S.，Harel，S.，Hassner，T.，马西岛崔J.，Lekust，J.，金，J.，Natarajan，P.，Nevatia河 Medioni，G.：使用深度多姿态表示的人脸识别。 In ： 2016IEEEWinterConfer-enceonApplicationsofComputerVisisin （ WACV ） . pp.1- 9 （ M a r c h2016）。https://doi.org/10.1109/WACV.2016.74775553. 曹Q.Shen，L.，Xie，W.，帕克希O.M.齐瑟曼，A.：Vggface2：数据集用于识别不同姿势和年龄的人脸。CoRR abs/1710.08092（2017），http://arxiv.org/abs/1710.08

下载后可阅读完整内容，剩余1页未读，立即下载