基于神经网络的视频人脸识别方法

155 浏览量更新于2023-10-15 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于神经网络的视频人脸识别杨娇龙1，2，3，任沛然1，张冬青1，陈冬1，方文1，李红东2，华刚11微软研究院2澳大利亚国立大学3北京理工摘要本文提出了一种用于视频人脸识别的神经聚集网络（NAN）。该网络将具有可变数量的人脸图像的人的人脸视频或人脸图像集作为其输入，并产生用于识别的紧凑的、固定维度的特征表示整个网络由两个模块组成。特征嵌入模块是一个深度卷积神经网络（CNN），它将每个人脸图像映射到一个特征向量。聚合模块由两个注意力块组成，这两个注意力块自适应地聚合特征向量，以在由它们跨越的凸包内形成单个特征。由于注意机制的存在，聚集对图像顺序具有不变性我们的NAN在没有任何额外监督信号的情况下使用标准分类或验证损失进行训练，我们发现它会自动学习倡导高质量的人脸图像，同时排斥低质量的图像，如模糊，遮挡和不适当暴露的人脸。在IJB-A，YouTube Face，Celebrity-1000视频人脸识别基准上的实验表明，它始终优于朴素聚合方法，并达到了最先进的准确率。1. 介绍近年来，视频人脸识别引起了越来越多的关注[42，20，43，11，25、21、22、27、14、35、31、10]。与基于图像的人脸识别相比，可以从输入视频中利用更多的主体信息，这自然地将同一主体在不同姿势和照明条件下的面部合并。视频人脸识别的关键问题是建立一个合适的视频人脸表示，使其能够有效地将不同帧的信息融合在一起，保留有用信息，剔除噪声信息。这项工作的一部分是在J.杨先生曾于MSR实习，由G.华{xk}{fk}CNN聚合模块输入：人脸图像集R1年q1r10q0ψ输出：128维特征关注块关注块特征嵌入模块图1. 我们的视频人脸识别网络架构。所有输入的人脸图像{xk}都由具有深度CNN的特征嵌入模块处理，产生一组特征向量{fk}。这些特征被传递到聚合模块，产生单个128维向量r1来表示输入的面部图像。这种紧凑的表示用于识别。一种简单的方法是将视频面部表示为一组帧级面部特征，例如从深度神经网络中提取的特征[35，31]，这些特征最近主导了面部识别[35，28，33，31，23，41]。这样的表示全面地保持了所有帧上的信息。然而，为了比较两个视频面部，需要融合两个面部视频之间的所有帧对的匹配结果。假设n是视频帧的平均数目，则每次匹配操作的计算复杂度为O（n2），这对于大规模识别尤其不理想。此外，这种基于集合的表示将导致每个视频人脸示例的O（n）空间复杂度，这需要大量的内存存储并面临有效的索引。我们认为，这是更可取的，来与一个紧凑的，固定大小的功能表示在视频水平，无关的视频长度的变化这样的表示将允许相似性或距离的直接、恒定时间计算，一个简单的解决方案可能是在每一帧提取一个特征，然后进行某种类型的池化，将帧级特征聚合在一起，形成视频级表示。43624363最常用的池化策略可能是平均池化和最大池化[28，21，7，9]。虽然这些简单的池化策略在复杂的工作中被证明是有效的，但是我们相信，良好的池化或聚合策略应该自适应地权衡和组合所有帧上的帧级特征。直觉很简单：视频（尤其是长视频序列）或图像集可以包含在各种照明、分辨率、头部姿势等条件下捕获的面部图像，并且智能算法应该偏爱更具辨别力（或更“可记忆”）的面部图像为此，我们寻找一种自适应加权方案，将视频中的所有帧级特征线性组合在一起，形成一个紧凑且有区别的人脸表示。与以前的方法不同，我们既不固定权重，也不依赖于任何特定的算法来设置它们。相反，我们设计了一个神经网络来自适应地计算权重。我们将我们的网络命名为神经聚集网络（NAN），其系数可以在正常的人脸识别训练任务中通过监督学习进行训练，而无需额外的监督信号。拟议的NAN由两个主要模块组成，可以端到端或逐个单独训练。第一个是特征嵌入模块，它使用深度CNN模型作为帧级特征提取器另一个是聚合模块，自适应地将所有视频帧的特征向量融合在一起。我们的神经聚合网络旨在继承池化技术的主要优点，包括处理任意输入大小和产生顺序不变表示的能力。该网络的关键组成部分受到神经图灵机[12]和[38]的启发，两者都应用了注意力机制来通过访问外部存储器来组织输入该机制可以采用任意大小的输入，并且仅通过加权平均来作为强调或抑制每个输入元素的裁剪器工作，并且非常重要的是，它是独立的并且具有可训练的参数。在这项工作中，我们设计了一个简单的网络结构的两个级联的注意力块与这种注意力机制的人脸特征聚合。除了构建视频级表示外，神经聚合网络还可以作为主题级特征提取器来融合多个数据源。例如，可以向其馈送所有可用的图像和视频，或者来自同一主题的多个视频的聚合视频级特征，以获得具有固定大小的单个特征表示。通过这种方式，人脸识别系统不仅由于紧凑的表示而享有时间和存储效率，而且还表现出优越的性能，正如我们将在我们的实验中所展示的那样。我们评估了所提出的NAN的任务，视频人脸验证和识别。与基线策略和其他竞争方法相比，我们在三个具有挑战性的数据集中观察到一致的边缘，包括YouTube Face数据集[42]，IJB-A数据集[18]和Celebrity-1000数据集[22最后但并非最不重要的是，我们应该指出，我们提出的NAN可以作为学习内容自适应池的一般框架因此，它也可以作为其他计算机视觉任务的特征聚合方案。1.1. 相关作品基于视频或图像集的人脸识别在过去已经被积极地研究。本文所关注的输入是一个无序的人脸图像集。利用时间动态的现有方法将不在此考虑。对于基于集合的人脸识别，许多先前的方法已经尝试用外观子空间或流形来表示人脸图像的集合，并且通过计算流形相似性或距离来执行识别[19，2，17，40，37]。这些传统的方法可以在受约束的设置下工作得很好，但通常不能处理具有挑战性的无约束的情况下，存在大的表观变化。沿着不同的轴，一些方法基于局部特征构建视频特征表示[20，21，27]。例如，PEP方法[20，21]通过提取和聚类局部特征来进行基于部分的表示视频Fisher矢量面（VF2）描述符[27]使用Fisher矢量编码将不同视频帧的局部特征聚合在一起，以形成视频级表示。最近，最先进的人脸识别方法一直由深度卷积神经网络主导[35，31，28，7，9]。对于视频人脸识别，这些方法中的大多数使用成对帧特征相似性计算[35，31]或朴素（平均/最大）帧特征池[28，7，9]。这促使我们寻求一种自适应的聚合方法。如前所述，这项工作也与神经图灵机[12]和[38]的工作有关。然而，值得注意的是，虽然他们使用递归神经网络（RNN）来处理顺序输入/输出，但我们的方法中没有我们只借用他们的可微记忆寻址/注意力方案来进行特征聚合。2. 神经聚集网络如图1，NAN网络将一组人脸图像作为输入，并输出单个特征向量作为其识别任务的表示。它建立在用于帧特征嵌入的现代深度CNN模型之上，并通过自适应地将视频中的所有帧聚合为紧凑的矢量表示，从而使视频人脸识别变得更加强大。4364i=1Kk=1KK1 2Kik图2. IJB-A数据集中的人脸图像，按其得分排序（公式中e的值）。2）来自在面部识别任务中训练的单个注意力块k。顶行、中间行和底行中的脸分别从得分最高的5%、以中值为中心的10%窗口和最低的5%的脸中采样。2.1. 特征嵌入模块NAN的图像嵌入模块是一个深度卷积神经网络（CNN），它将视频的每一帧嵌入到人脸特征表示中。为了利用具有高端性能的现代深度CNN网络，本文采用 GoogLeNet [34] 和批量归一化（ BN ）技术[16] 。当然，其他网络架构也同样适用于此。GoogLeNet产生128维图像特征，这些特征首先被归一化为单位向量，然后被馈送到聚合模块。在本文的其余部分，我们将简单地将所使用的GoogLeNet-BN网络称为CNN。2.2. 聚合模块考虑在n对视频人脸数据（Xi，yi）n上的视频人脸识别任务，其中Xi是一个人脸视频序列或具有变化图像数Ki 的图像集，即xi={xi， xi，.，xi}，其中xi，k=1，.，K i是视频中的第k帧，y i是Xi对应的主体ID。每个帧xi具有从特征嵌入模块提取的对应的归一化特征表示fi。为了更好的可读性，我们省略了上面的-在适当的情况下，在剩余的文本中使用dex。我们的目标是利用视频中的所有特征向量来生成一个集合通常是非最优的，正如我们在实验中所展示的。相反，我们试图设计一个更好的加权方案。在设计我们的聚合模块时考虑了三个主要原则首先，该模块应该能够处理不同数量的图像（即，不同的Ki其次，聚合应该是不变的图像顺序这样，聚合模块可以处理任意一组图像或视频面部，而无需时间信息（例如，从不同的互联网位置收集）。第三，该模块应该适应输入的面部，并且具有在标准面部识别训练任务中通过监督学习可训练的参数。我们的解决方案受到[12，32，38]中描述的记忆注意机制的启发其中的想法是使用神经模型通过可识别的寻址/注意方案来读取外部存储器。这些模型通常与递归神经网络（RNN）相结合，以处理顺序输入/输出[12，32，38]。虽然我们的目的不需要RNN结构，但它的内存消耗机制适用于我们的聚合任务。在这项工作中，我们把脸的功能作为内存和铸造功能加权作为一个内存寻址过程。我们在聚合模块描述如下。线性权重{ak}K表示变得R =，以便聚合特征Σa kfk。（一）K2.2.1注意障碍注意力块从特征嵌入模块读取所有特征向量，并为它们生成线性权重以这种方式，聚合的特征向量具有与CNN提取的单个面部图像特征相同的显然，Eq的关键是1是它的权重{ak}。如果ak≤1，等式1将退化为朴素平均，具体地，设{fk}为面部特征向量，然后注意力块通过点积用核q对它们进行滤波，产生一组对应的重要性{e k}。然后将它们传递给softmax运算符以生成正图像ID评分4365视频/图像集的样本高重量低重量所有权重0.0200.0220.0340.0450.0520.1240.1660.1810.1900.2070.0310.0350.1380.1600.6360.0400.0830.0910.0950.097表1. IJB-A数据集上的性能比较。TAR/FAR：验证的真/假接受率。TPIR/FPIR：识别的真/假阳性识别率。1：1验证1：N识别TAR@FAR：TPIR@FPIR：方法0.0010.010.010.1CNN+平均池0.7710.9130.6340.879NAN单关注0.8470.9270.7780.902NAN级联注意力0.8600.9330.8040.909Σ权重{ak}，kak=1。这两个操作可以分别由以下等式描述：ek=qTfk（2）exp（ek）ak=J.（三）exp（ej）可以看出，我们的算法本质上选择了所有特征向量所覆盖的凸包内的一个点。一个相关的工作是[3]，其中每个人脸图像集用凸包近似，并且集合相似性被定义为两个凸包之间的最短路径。以这种方式，输入的数量{fk}不影响聚合r的大小，其与单个特征fk具有相同的维度。此外，聚合结果不随fk的输入阶而变化：根据Eq. 1，2和3，置换fk和fk′对聚集表示r没有影响。此外，注意力块由滤波器内核q调制，该滤波器内核q可通过标准反向传播和梯度下降来训练。单一注意力块-通用面部特征质量测量。我们首先尝试使用一个注意力块进行聚合。在这种情况下，向量q是要学习的参数它具有与单个特征f相同的大小，并且用作测量面部特征质量的通用先验我们训练网络在IJB-A数据集[18]中对提取的人脸特征进行视频人脸验证（详见第2.3节和第3节），图2显示了数据集中所有人脸图像的排序得分可以看出，经过训练后，网络更青睐高质量的人脸图像，比如分辨率高、背景相对简单的人脸图像。它降低了模糊，遮挡，曝光不当和前面部图像的权重，0.0740.0620.0570.0480.0200.4910.1830.0560.0520.043图3. 典型的例子显示了我们的NAN计算的图像集中图像的权重。在每一行中，从图像集中采样五张人脸图像，并根据它们的权重（矩形中的数字）进行排序;最右边的条形图显示了集合中所有图像的排序权重（高度缩放）。特征空间中的图形位置（即，对于不同的个人），并且内容感知聚集可以学习选择对于输入图像集的身份更具区别性的特征。为此，我们以级联和端到端的方式采用两个注意力块，如下所述。设q0是第一个注意力块的核，r0是q0的聚合特征。我们自适应地计算q1，第二个注意力块的内核，通过一个转移以r0为输入的层摆姿势。表1表明，该网络在验证和识别任务中实现了q1= tanh（Wr0+ b）（4）其中W和b是权重矩阵和偏置向量，x−x神经元，并且tanh（x）=ex−e处以级联两个注意力块-内容感知聚合。我们相信内容感知的聚合可以表现得更好。背后的直觉是，面部图像变化可能在不同的地理位置有不同的表达方式e+e−x双曲正切非线性由q1生成的特征向量r1将是最终的聚合结果。因此，（q0，W，b）现在是聚合模块的可训练参数。0.0380.0340.0330.0250.0210.0500.0420.0370.0340.0134366我们再次在IJB-A数据集上训练网络，表1显示网络获得了比使用单个注意力块更好的结果。图3显示了训练网络为不同视频或图像集计算的权重的一些典型示例。我们目前的NAN完整解决方案，基于其获得所有①的人。2.3. 网络训练NAN网络可以训练用于标准配置的人脸2.3.1训练损失为了验证，我们构建了一个具有两个NAN共享权重的连体神经聚合网络结构[8]，最小化平均对比度iv e损失[13]：||r1−3.1. 培训详情如第2.3节所述，在这项工作中分别训练了两个网络。为了训练CNN，我们使用从互联网上抓取的50K身份的约3M人脸图像来执行基于图像的识别。使用JDA方法[5]检测面部，并使用LBF方法[29]进行对齐。输入图像大小为224x224。训练后，CNN是固定的，我们专注于分析神经聚合模块的有效性。聚合模块在我们使用标准反向传播和RMSProp求解器测试的每个视频人脸数据集上进行训练[36]。使用全零参数初始化，即，我们从平均池开始。批量大小，学习率和迭代都是针对每个数据集进行调整的。由于网络非常简单，图像特征非常紧凑（128-d），因此训练过程非常有效：训练对5K视频对与1000万张图像总共只需要更少的时间R 1||2+（1−y我）max（0，m−||r1−r1||（2）其中y在台式PC的CPU上运行超过2分钟。j2i，jij2i，j= 1如果对（i，j）来自相同的身份，并且yi，j=0其他-睿的在我们所有的实验中，常数m被设置为2为了识别，我们在NAN之上添加了一个全连接层，然后是一个softmax，并最小化平均分类损失。2.3.2模块培训这两个模块可以以端到端的方式同时训练，也可以一个接一个地单独训练。在这项工作中选择了后一种选择具体来说，我们首先用识别任务在单个图像上训练CNN，然后在CNN提取的特征之上训练聚合模块更多详情见第3.1节。我们选择这种单独的训练策略主要有两个原因。首先，在这项工作中，我们想集中分析的有效性和性能的聚合模块的注意力机制。尽管在基于图像的人脸识别任务中应用深度CNN取得了巨大成功，但据我们所知，很少有人关注CNN特征其次，训练深度CNN通常需要大量的标记数据。虽然现在可以获得数百万张静止图像用于训练[35，28，31]，但收集如此数量的独特面部视频或集合似乎并不实际。我们将NAN的端到端培训作为我们未来的工作。3. 实验本节评估所提出的NAN网络的性能。我们将首先介绍我们的训练细节和基线方法，然后报告三个视频人脸识别数据集的结果： IARPA Janus Benchmark A（IJB-A）[18]，YouTube Face数据集[42]和Celebrity-1000数据集[22]。3.2. 基线方法由于我们的目标是紧凑的视频人脸表示，我们比较的结果与简单的聚合策略，如平均池。我们还比较了一些集到集的相似性测量，利用成对比较的图像级别上。为了保持简单，我们简单地使用L2特征距离进行人脸识别（所有特征都是归一化的），尽管可以结合额外的度量学习或模板自适应技术[10]来进一步提高每个数据集的性能。在基线方法中， CNN+MinL2 、 CNN+MaxL2 、CNN+MeanL2和CNN+SoftMinL2基于所有帧对的L2它们需要存储视频的所有图像特征，即，时间复杂度为O（n）前三个分别使用最小，最大和平均成对距离，从而具有O（n2）的复杂性相似计算。CNN+SoftMinL2对应于一些作品中倡导的SoftMax相似性得分，例如[23、24、1]。计算复杂度为O（m·n2）。CNN+MaxPool 和 CNN+AvePool 分别沿着每个特征维度的最大池化和平均池化用于聚合。这两种方法以及我们的NAN为每个视频生成128维特征表示，并在O（1）时间内计算相似性。3.3. IJB A数据集IJB-A数据集[18]包含从无约束环境中捕获的人脸图像和视频。它具有完整的姿态变化和成像条件的广泛变化1m是使用的比例因子β的数量（详见[24]）。我们测试了20种（阴性）β的4367假阳性识别率表2. IJB-A数据集的性能评估。为了验证，报告了真实接受率（TAR）与假阳性率（FAR）。对于鉴定，真阳性鉴定率（TPIR）与给出了系统的误识率和秩N精度。（t：首先聚合每个媒体中的图像，然后聚合模板中的媒体特征。[10]引用的结果方法1：1验证TAR 1：N鉴别TPIRFAR=0.001 FAR=0.01 FAR=0.1 FPIR=0.01 FPIR =0.1秩-1秩-5秩-101 1 10.90.80.70.60.510- 310-2十比一1000.950.90.850.81001011020.80.60.40.210-310-2十比一100假阳性率秩Talse阳性识别率最大长度2最小长度2平均长度2软最小长度2最大池平均池平均池<$NAN NAN<$图4.NAN和IJB-A数据集上10个分割的基线的平均ROC（左）、CMC（中）和DET（右）曲线因此非常具有挑战性。共有500名受试者，共计5,397张图像和2,042个视频，平均每个受试者11.4张图像和4.2个视频。我们使用人脸检测器[4]检测具有地标的人脸，然后使用相似性变换对人脸图像进行对齐。在这个数据集中，每个训练和测试实例被称为由于一个模板可能包含多个媒体，并且数据集为每个图像提供媒体ID，因此另一种可能的聚合策略是首先聚合每个媒体中的帧特征，然后聚合模板中的媒体特征[10，30]。这一策略也在CNN+AvePool和我们的NAN的这项工作中得到了测试。注意，媒体id在实践中可能并不总是可用的。我们测试所提出的方法对两个用于1：1人脸验证的Tocol协议和用于1：N人脸识别的为了验证，将真实接受率（TAR）与报告假阳性率（FAR）。对于识别，报告了真阳性识别率（TPIR）与假阳性识别率（TPIR）以及Rank-N准确度表2显示了不同方法的数值结果，图4显示了用于验证的接收器操作特性（ROC）曲线以及用于识别的累积匹配特性（CMC）和决策误差权衡（DET）曲线。根据[18，26]在10个分割上计算度量。总体而言， CNN+MaxL2 、 CNN+MinL2 和CNN+MaxPool在基线方法中表现最差.CNN+SoftMinL2的性能略好于CNN+MaxPool。媒体ID的使用显著提高了真阳性率相对速率美国有线电视新闻网[9]––0.143± 0.027 0.341± 0.032 0.588± 0.020 0.796± 0.017 –LSFS [39] 0.514± 0.060DCNN手册+公制[7]三重态相似度[30] 0.590± 0.050姿势感知模型[23] 0.652±0.037深度多姿势[1]Masi等人[24] 0.725三重嵌入[30] 0.813± 0.02[28]第二十八模板自适应[10] 0.836± 0.0270.733± 0.0340.787± 0.0430.790± 0.0300.826± 0.0180.8760.838± 0.0420.8860.90± 0.010.805±0.030mm0.939± 0.0130.895± 0.0130.947± 0.0110.945± 0.002–0.967± 0.009–0.964± 0.005–0.979± 0.0040.383± 0.063––0.577±0.094mm–0.753± 0.030.461±0.077mm0.774± 0.0490.613± 0.032––0.790±0.033mm–0.863± 0.0140.670±0.031mm0.882± 0.0160.820± 0.0240.852± 0.0180.880±0.015mm0.840± 0.0120.8460.903± 0.0120.9060.932± 0.010.913±0.011mm0.928± 0.0100.929± 0.0130.937± 0.0100.95± 0.0070.925± 0.0080.9270.965± 0.0080.962––0.977± 0.004–0.954± 0.0070.974±0.005mm0.946± 0.0070.9470.977± 0.0070.9770.977± 0.0050.981±0.005mm0.986± 0.003CNN+最大L20.202±0.029CNN+最小L20.038±0.008CNN+平均值L20.688±0.080CNN+SoftMinL20.697± 0.085CNN+MaxPool0.202±0.029CNN+平均池0.771±0.064CNN+平均池<$0.856±0.0210.345± 0.0250.144± 0.0730.895± 0.0160.904± 0.0150.345± 0.0250.913± 0.0140.935± 0.0100.601± 0.0240.972± 0.0060.978± 0.0040.978± 0.0040.601± 0.0240.977± 0.0040.978± 0.0040.149± 0.0330.026± 0.0090.514± 0.1160.500± 0.1340.079± 0.0050.634± 0.1090.793± 0.0440.258± 0.0260.293± 0.1750.821± 0.0400.831± 0.0390.179± 0.0200.879± 0.0230.909± 0.0110.429± 0.0260.853± 0.0120.916± 0.0120.919± 0.0100.757± 0.0250.931± 0.0110.951± 0.0050.632± 0.0330.903± 0.0100.973± 0.0050.973± 0.0050.911± 0.0130.972± 0.0050.976± 0.0040.722± 0.0300.924± 0.0090.980± 0.0040.981± 0.0040.945± 0.0090.979± 0.0040.984± 0.0044368表3.最先进的方法，我们的基线和NAN网络在YTF数据集上的验证精度比较方法准确度（%）AUCLM3L [15] 81.3± 1.2 89.3DDML（合并）[14] 82.3± 1.5 90.1EigenPEP [21] 84.8 ±1.4 92.6深面-单[35] 91.4 ±1.1 96.3DeepID2+[33] 93.2± 0.2Wen等人[41] 94.9[31] 2016年12月25日10.80.60.40.210- 310-2十比一10010.980.960.940.920.90.8810-2十比一[28]第假阳性率CNN+Max. L291.96 ± 1.197.4最大值L 2最小值L 2平均值L 2软最小值L 2最大池平均池CNN+Min. 长294.96 ± 0.7998.5楠DeepFaceEigenPEPDDMLCNN+平均值L295.30± 0.7498.7CNN+SoftMinL295.36± 0.7798.7CNN+MaxPool 88.36± 1.495.0CNN+AvePool 95.20± 0.76 98.7NAN95.72±0.64 98.8图5.不同方法的平均ROC曲线和我们的NAN在YTF数据集上的10次分割。CNN+AvePool的性能，但对NAN的提升相对较小。我们相信NAN已经具备了对由来自少数媒体的劣质图像主导的模板在没有媒体聚合的情况下，NAN的表现明显优于其所有基线，特别是在低FAR的情况下。例如，在验证任务中，我们的NAN在FAR为0.001和0.01时的TAR分别为0.860和0.933，分别将最佳结果的误差从其基线减少了约39%和23%。据我们所知，与以前的方法相比，我们的NAN实现了媒体聚合的它在FAR=0.1时具有与[10]的最先进方法相同的验证TAR和识别Rank-10 CMC，但在所有其他指标（例如， FAR=0.01时， TAR 为 0.881vs.0.836 ，FPIR=0.01时，TPIR为0.817vs.0.958 vs. 0.928一阶精度）。图3显示了加权结果的一些典型示例NAN具有选择高质量和更具区分力的人脸图像的能力，同时排斥差的人脸图像。3.4. YouTube Face数据集然后，我们在YouTube Face（YTF）数据集上测试我们的方法[42]，该数据集专为视频中的无约束人脸验证而设计它包含1,595个不同人的3,425个视频，视频长度从48帧到6,070帧不等，平均长度为181.3帧。10倍的500个视频对是可用的，我们遵循标准的验证协议，以报告交叉验证的平均准确度。我们再次使用相似性和相似性变换来对齐人脸图像。我们的NAN、其基线和其他方法的结果如表3所示，其ROC曲线如图3所示。五、可以看出，NAN再次优于其所有图6. YTF数据集上的典型示例显示了NAN计算的视频帧权重。在每一行中，从视频中采样五个帧，并根据它们的权重（矩形中的数字）进行排序;最右边的条形图显示了所有帧的排序权重（高度缩放）。基线NAN和最佳性能基线之间的差距小于IJB-A的结果这是因为这个数据集中的人脸变化相对较小（比较图中的例子）。6和图3），因此与朴素平均池化或计算平均L2距离相比，不能提取太多有益的信息。与以前的方法相比，我们的NAN实现了95.72%的平均准确率，将FaceNet的错误减少了12.3%。请注意，FaceNet也是基于GoogLeNet风格的网络，每个视频中所有100帧对的平均相似度（即，，10K对）使用[31] 。据我们所知，只有 VGG-Face [28] 的准确率（97.3%）高于我们。然而，该结果是基于对YTF的进一步判别性度量学习，没有它，准确率仅为91.5%[28]。真阳性率视频中的样本高重量所有低重量权重0.0130.0340.0370.0420.0500.0210.0250.0330.0340.0380.0310.0350.1380.1600.6360.0400.0830.0910.0950.0974369N+最小 2N+平均值L2CNN+AvePool -oAggrCNN+AvePool -ectAggrN - VideoAggrN -SubjectAgNANACN视频主题grCNN+最小 2N+平均值L2N+平均池-ectA N-受试者ACNNAGGRSubjggr公司表4. 用于闭集测试的Celebrity-1000数据集上的识别性能（等级-1准确度，%）。的受试者表5. 在Celebrity-1000数据集上进行开集测试的识别性能（1级准确度，%）。的受试者方法1002005001000方法100200400800MTJSR [22]50.6040.8035.4630.04MTJSR [22]46.1239.8437.5133.50Eigen-PEP [21]50.6045.0239.9731.94Eigen-PEP [21]51.5546.1542.3335.90CNN+平均值L285.2677.5974.5767.91CNN+平均值L284.8879.8876.7670.67CNN+AvePool-VideoAggr86.0682.3880.4874.26CNN+AvePool -SubjectAggr84.1179.0978.4075.12CNN+AvePool -SubjectAggr84.4678.9377.6873.41NAN -主题聚集88.7685.2182.7479.87NAN -VideoAggr88.0482.9582.2776.24NAN -主题聚集90.4483.3382.2777.1710.953.5. Celebrity 1000数据集Celebrity-1000数据集[22]旨在研究无约束的基于视频的人脸识别问题。它包含159，726个视频序列，包含1，000个人类受试者，总共240万帧（每个序列1015帧）。我们使用提供的5个面部标志来对齐面部图像。0.90.850.80.750.70.650.6100101秩102103 100101秩102103在这个数据集中存在两种类型的协议-关于协议和数据集的更多细节可以在[22]中找到。密集测试对于闭集协议，我们首先在识别丢失的视频序列上训练网络。我们将FC层输出值作为分数，并将具有最大分数的主题作为结果。我们还为CNN+AvePool训练了一个线性分类器来对每个视频特征进行分类。由于这些功能是建立在视频序列上的，我们称这种方法为数据集中的每个主题都有多个视频序列，因此我们可以通过聚合所有训练（图库）视频序列中的所有可用图像来我们称这种方法为“SubjectAggr”。通过这种方式，可以绕过线性分类器，并且可以简单地通过比较特征L2距离来实现识别。结果示于表4中。注意：[22]和[21]没有使用深度学习，也没有基于深度网络因此，我们主要在以下方面与我们的基线进行比较。从表4和图7（a）可以看出，NAN始终优于“VideoAggr”和“SubjectAggr”的基线方法“SubjectAggr”方法在基线基础上实现了重大改进。有趣的是，与“VideoAggr”相比，这表明，当在具有多个视频的主题级别上应用时，朴素聚合变得更糟。然而，我们的NAN可以从“SubjectAggr”中受益这表明我们的NAN在处理大数据变化方面效果很好。（a）对1000名受试者进行封闭式测试（b）对800名受试者进行图7.Celebrity 1000上不同方法的CMC曲线开放式测试然后，我们用近集协议测试我们的NAN。我们首先在提供的训练视频序列上训练网络在测试阶段，我们采用之前描述的识别是通过比较L2距离之间的聚集人脸表示简单地表5和图7（b）中的结果表明，我们的NAN显著降低了基线CNN+AvePool的误差。这再次表明，在存在大的人脸方差的情况下，广泛使用的策略，如平均池聚合和成对距离计算，是远远不是最佳的。在这种情况下，我们学习的NAN模型显然更强大，并且它的聚合特征表示更有利于视频人脸识别任务。4. 结论我们提出了一种用于视频人脸表示和识别的神经聚合网络。它将所有输入帧与一组内容自适应权重融合，从而产生对输入帧顺序不变的紧凑表示该方法简单，计算量和内存占用量小，但经过训练后可以生成高质量的人脸表示。建议的NAN可用于一般的视频或集合表示，我们计划在未来的工作中将其应用于其他视觉任务。GH部分得到了国家自然科学基金资助61629301。 HL相对速率4370引用[1] W. AbdAlmageed，Y. Wu，S. Rawls，S. Harel，T.哈斯纳岛。Masi，J. Choi，J. Lekust，J. Kim，P. Natarajan等人使用深度多姿态表示的人脸识别。IEEEWinterConferenceonApplicationsofComputerVision（WACV），2016年。五、六[2] O. Arandjelovic，G.Shakhnarovich，J.费希尔河Cipolla和T.达雷尔。利用流形密度发散的图像集进行人脸识别。在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第5812[3] H. Cevikalp和B.Triggs 基于图像集的人脸识别在IEEE计算机视觉和模式识别会议（CVPR）中，第2567-2573页，2010年。4[4] D. Chen，G.Hua，F.Wen和J.太阳用于高效人脸检测的监督Transformer网络在欧洲计算机视觉会议，第122-138页6[5] D. Chen，S.任，Y. Wei，X. Cao和J. Sun.联合级联人脸检测和对齐。欧洲计算机视觉会议（ECCV），第109-122页。2014. 5[6] J. - C. Chen，V. M.帕特尔和R。切拉帕使用深度cnn特征的无约束人脸验证。在IEEE Win-计算机视觉应用会议（WACV），2016年。6[7] J. - C.陈河，巴西-地Ranjan、A.库马尔角H. Chen，V.Patel，andR.切拉帕使用深度卷积神经网络进行无约束人脸验证的端到端系统。IEEEInternational Conference on ComputerVision Work-shops，第118-126页，2015年。二、六[8] S.乔普拉河Hadsell和Y.乐存。学习相似性度量有区别地，与应用到人脸验证。在IEEE计算机视觉和模式识别会议，第1卷，第539-546页5[9] A. R. Chowdhury，T. Y. Lin，S. Maji和E.学习-米勒。基于双线性 cnns 的一对多人脸识别。 IEEEWinterConferenceonApplicationsofComputerVision（WACV），2016年。二、六[10] N. Crosswhite，J. Byrne，O. M.帕克希角Stauffer，Q.Cao和A.齐瑟曼。用于人脸验证和识别的模板自适应。arXiv预印本arXiv：1603.03958，2016年。一、五、六、七[11] Z. Cui，W. Li，D. Xu，S. Shan和X.尘通过多度量学习融合鲁棒的人脸区域描述符用于野外人脸识别。在IEEE计算机视觉和模式识别会议（CVPR），第3554-3561页1[12] A. Graves，G.韦恩和我丹妮赫卡神经图灵机。CoRR，abs/1410.5401，2014年。二、三[13] R. Hadsell，S.Chopra和Y.乐存。通过学习不变映射来降低维数。在 IEEE 计算机视觉和模式识别会议（CVPR），第2卷，第1735-1742页，2006年。5[14] J. 胡，J.卢，和Y。P. Tan. 用于野外人脸验证的判别式深度度量在 IEEE 计算机视觉和模式识别会议（CVPR），第1875-1882页1、7[15] J. Hu，J. Lu，J. Yuan和Y.- P. Tan。大幅度多度量学习用于野外人脸和亲属关系验证。在亚洲计算机视觉会议（ACCV），第252-267页。2014. 7[16] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。3[17] T.- K. Kim，O. Arandjel o v ic′和R. 西波拉基于图像集识别的提升的人-Pat-tern Recognition，40（9）：24

下载后可阅读完整内容，剩余1页未读，立即下载