比较器网络：基于集合的面部图像验证的深度学习方法

79 浏览量更新于2023-10-13 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

比较器网络Weidi Xie，Li Shen和Andrew Zisserman牛津大学工程科学系视觉几何组{weidi，lishen，az}@ robots.ox.ac.uk抽象。这项工作的目标是基于集合的验证，例如。以确定两组面部图像是否是同一个人的。解决这个问题的传统方法是学习为每个图像生成一个特征向量，将它们聚合成一个向量来表示集合，然后计算集合之间的余弦相似度相反，我们设计了一个神经网络架构，可以直接学习集明智的验证。我们的贡献是：（i）我们提出了一种深度比较器网络（DCN），其可以摄取一对集合（每个集合可以包含可变数量的图像）作为输入，并且计算该对之间的相似性-这涉及关注多个有区别的局部区域（地标），并且比较面部对之间的局部描述符;（ii）为鼓励每一套的高质素表现，引入内部竞争，以根据地标分数重新校准;（iii）受图像检索的启发，提出了一种新的硬样本挖掘机制来控制采样过程，使得DCN与标准图像分类模型是互补的。对IARPA Janus人脸识别基准的评估表明，比较器网络的性能大大优于以前的最先进的结果。1介绍本文的目的是确定两组图像是否属于同一对象。例如，在面部验证的情况下，集合可以是面部的图像;并且在人重新识别的情况下，该组可以是整个人的图像。在这两种情况下，目标是确定集合是否显示相同的人。在下文中，我们将使用面集合的示例，这些面集合通常被表示为在面集合中的“基本面”，并且我们将从这里开始使用该术语。模板可以由同一个人的多个样本组成（例如静止图像、或来自该人的视频的帧、或两者的混合）。随着深度学习在图像分类方面的巨大成功[1-4]，到目前为止，基于模板的人脸验证最常见的方法是生成使用深度卷积神经网络（CNN）表示每个面部的向量，并简单地对这些向量进行平均以获得整个模板的向量表示[5-8]。然后通过将模板向量与一些相似性度量进行比较来进行验证，例如余弦相似度到目前为止，研究驱动器不是改进这个简单的组合规则，而是改进组合规则。2Weidi Xie，Li Shen和Andrew Zisserman通过更复杂的训练损失，如三重损失，PDDM和直方图损失[6，7，9-12]，单个图像表示的性能。该方法在具有挑战性的基准上取得了非常令人印象深刻的结果，例如IARPA IJB-B和IJB-C数据集[13，14]。然而，首先生成每个面的单个向量，然后简单地对这些向量进行平均的该过程在以下四种方式中错过了潜在地使用更多可用第一，视点条件相似性-当两张脸具有相似的姿势和照明时，更容易确定它们是否属于同一个人。例如，如果两者都是正面的或都是侧面的，则点对点比较是可行的，因为它不是正面的，而是侧面的;第二，局部界标比较-为了解决细粒度问题，需要局部界标比较粒度“parts”（面部的局部界标），例如，眼睛与眼睛，或鼻子与鼻子。第三，在模板加权，第四，模板之间的加权例如，如果一个模板仅具有纵断面面，而第二个模板除了一个纵断面实例外都是正面，则它很可能第二模板中的单个简档实例比前面的简档实例更重要。简单的平均组合规则不能利用这四个中的任何一个，例如，未加权平均池化忽略了由每个面部图像提供的信息量的差异，并且异常图像（诸如非常模糊的图像）可以具有显著的效果（因为大多数模糊的面部图像看起来相似）。在本文中，我们介绍了深度比较器网络（DCN），这是一种旨在比较模板对的网络架构（其中每个模板可以包含任意数量的图像）。该模型由三个模块组成：检测、参与和比较，如图1所示，解决了上述四个要求：在检测模块中，除了密集特征表示图之外，多个区分性界标检测器作用于每个输入图像并生成分数图;Attend模块对模板内的图像上的地标响应进行归一化，并通过在特征图上使用图像特定加权平均池化来输出多个地标特定特征描述符，最后，Compare模块将两个模板之间的这些地标特定特征向量进行比较，并聚合成一个向量用于最终的相似性预测。DCN针对模板验证任务进行端到端培训。该网络在§ 3中详细描述。作为第二个贡献，我们介绍了一个想法，从实例检索文献，面对模板验证。大规模的实例检索系统通过两个阶段取得了较好的效果：给定一个查询图像，首先使用一种非常有效的方法（如bag）检索图像并进行排序比较器网络3...*重新校准**V11V 21十FC层V12V 2201FC层V13V 230 0 ... 0FC层通道级最大池化相似度（1 /V1kV 2k0FC层图1.一、上图：深度比较器网络（DCN）概述底部：各个模块的功能，即检测、关注、比较。DCN中的两个塔中的每一个都能够采用模板（具有任意数量的图像）作为输入。每个图像被馈送到共享检测模块中，并输出特征图以及多个区分性地标得分图。在在Attend模块中，首先在模板内重新校准地标得分图（从不同输入图像上的相同滤波器预测），然后通过特征图上的加权平均池化来获得每个模板的地标特定特征向量。在比较模块中，两个时间点之间的地标特定特征向量被用局部“相似性”（完全相似性的集合）进行比较.........V2KV23V22V21V1kV13的v12V11....... . .. . .4Weidi Xie，Li Shen和Andrew Zisserman视觉文字;然后，在第二阶段，使用更昂贵的方法对前k个图像进行重新排名，例如与查询的几何一致性[15，16]。由于现在可以非常有效地训练图像分类模型，因此我们将这种重新排序的想法重新用于模板验证，如下所示：在训练期间，我们采用标准的图像分类模型来对硬模板对进行采样。这在§4中描述，以及其他训练细节，例如训练集和损失函数。在§5中，我们报告了DCN在具有挑战性的IARPA Janus人脸识别基准测试中- 在这两个数据集中，DCN能够基本上优于先前的最先进的方法。2相关工作在本节中，我们将回顾影响DCN设计的工作多列架构。最近的作品[17-该模型被训练为通过基于图像“质量”的加权来融合来自多个输入的有用信息然而，这些模型仍然用一个向量对整个模板进行编码。它们无法解决本地地标比较和模板权重之间的挑战。基于零件表示的人脸识别。几个先前的作品提出使用基于部分的表示的面部图像或大头钉。在[20]中，人脸图像被密集地划分为多个尺度上的重叠块，并且每个块由局部特征表示，例如局部二进制模式（LBP）或SIFT，然后通过聚类表示为一袋空间外观在[21]中，Fisher向量（FV）编码用于聚合跨不同视频帧的局部特征以形成视频级表示。注意模特们。注意力模型已成功用于机器翻译[22]，多对象识别[23]和图像字幕[24]。在[25]中，作者提出从具有注意力的单个输入图像中提取基于部件的特征表示，并使用这些部件特定表示执行细粒度分类一般而言，这些注意力池化的想法可以被视为平均或最大池化的概括，其中空间权重从从输入图像映射到注意力掩模的参数化函数（通常是小神经网络）获得除了软注意力之外，[26]提出了空间Transformer网络（STNs），它允许学习任何最有助于分类任务的变换参数尽管在训练期间没有指定地面实况变换，但是模型能够关注并聚焦于感兴趣的对象。关系/共现学习。在[27]中，为了执行空间关系推理，每个空间位置处的特征与每个其他位置处的特征一起建模为了对特征的共现统计进行比较器网络5例如至于少量学习，在[29]中，作者提出用深度神经网络学习局部相似性度量作为扩展，[30]使用具有更大容量的模型进行实验，其中图像的特征图（来自支持集和测试集）被连接并传递到关系模块以进行简单的学习。类似地，在本实施例中，我们将局部特征描述符进行比较以比较来自两个3深度比较器网络我们考虑的任务，基于模板的验证，其目标是决定是否两个给定的模板是相同的对象或不。在验证问题中，训练集和测试集的标签空间通常是不相交的.在这里考虑的应用程序中，图像的脸，和目标是要验证是否两个模板显示相同的人或没有。从高层次的角度来看，深度比较器网络（DCN）专注于将两个模板（每个模板具有任意数量的图像）作为输入，并进行端到端的模板验证（如图1所示我们首先概述了这些模块的功能：检测，出席和比较，然后给出了更多的细节，他们的实现。补充材料中给出了各个模块每个输入图像共享检测模块，为每个图像生成多个区分部分的密集特征图和注意力图。在人脸识别文献中，这些有区别的部分通常被称为注意，隐式推断的界标旨在最好地辅助随后的模板验证任务，它们可能不遵循与人类定义的面部界标相同的直觉例如嘴、鼻等。理想地，给定具有处于各种姿势或照明的多个图像的模板，地标滤波器可以对不同的面部部分、视点或照明敏感，例如，对不同的面部部分、视点或照明敏感。一个人可能对正面脸的眼睛敏感，一个人可能对侧面脸的嘴更敏感。Detect模块充当用于实现以视点/局部地标为条件的模板比较的基础。Attend模块利用内部竞争机制实现模板内加权，并从每个模板中汇集出多个地标特定特征描述符。给定一个包含多个图像的模板，我们希望以强调来自相对高质量图像的特征表示，同时抑制较低质量图像的特征表示。为了实现这一点，我们将注意力得分图（从具有相同地标过滤器的不同样本推断出）归一化为因此，通过利用图像特定注意掩模关注特征图来计算多个界标特定特征描述符（并且假设高质量图像将比异常图像得分更高，例如，模糊图像）。因此，贡献6Weidi Xie，Li Shen和Andrew Zisserman888××C××K8畸变图像被抑制，视点因素和面部部分被分解和模板方式对齐。最后利用比较模块实现模板间的加权。模板式验证被重新表述为在全局和局部区域（即，局部区域）上的比较条件。地标），来自当地“专家”的投票被聚集到一个投票点，用于最终的简单投票。3.1检测检测模块将图像作为输入，并且生成具有多个（K个）界标分数图的中间密集表示形式上，我们将该模型参数化为由n个图像s（图2示出了n= 3的示例）生成的t和dResNet（θ（·;θ1））[F1，F2，…Fn，A1，A2，…An]=[ψ（I1; θ1），ψ（I2; θ1），…ψ（In; θ1）]（1）每个输入图像的大小为I∈RW×H×3，输出稠密特征表示-WHWH注意映射F∈R，以及一组注意映射A∈R，其中W、H、C、K指的是宽度、高度、通道和界标分别绘制地图。还通过局部地标分数图上的最大值来获得全局分数图。图二、检测模块。对于每一输入图像，检测模块产生对应于所述输入图像的检测结果。′ ′中间特征图（Fs）、K个地标注意力图（As）和全局图′（通过在A s通道维度上应用最大值而获得）。在这个例子中有示出了三个输入图像和K个地标注意力图中的三个。.理想地，每个图像的局部分数图应满足两个条件，首先，它们应该是相互排斥的（即，在每个空间位置处仅一个. . .. . .. . .比较器网络7第二，标测图上的分数应当与图像质量正相关，即，特定界标滤波器的响应在高分辨率正面图像上应该比在低分辨率正面图像上更高。3.2出席重新校准（内部竞争）。给定每个输入图像的特征图和界标分数图，在具有该特征图的分数图之间使用交叉归一化以用于重建。由于在模板内的图像的“质量”上，定位相同界标的分数图（来自单个模板内的因此，无论有多少图像被打包到模板中，在同一列中输出的注意力图总是加起来为1。0（图1）。形式上，对于每个n∈[1，N]和k∈[1，K]：exp（An..k）An.. k = Σexp（Anijk）（二）NIJ注意力集中。利用每个输入图像的重新校准的注意力图，我们接下来关注空间位置并通过Hadamard乘积计算局部表示。形式上，对于每个输入图像（n∈N），特征图为Fn，注意力图为An，ΣVk=NIJFnij：⊙Anijkfork∈[1：K+1]（3）因此，对于每个输入模板，我们能够计算K +1个特征描述符（K个界标特定描述符，“1”个全局特征描述符），其中每个描述符表示面部界标或全局信息中的任一个。3.3比较到目前为止，我们已经描述了如何从单个模板中池化K+ 1个特征向量。在这个模块中，我们将这些描述符成对地在两个不同的模板之间进行比较。详细地，来自两个模板的地标特定描述符首先被L2归一化，并且与独热编码地标标识符一起级联。每个级联的向量是由完整的级联（FC）层[ 27]定义的局部“exp e r t“参数的输入。通常，本地专家负责比较来自不同模板的地标特定描述符形式上，我们学习相似度函数y=C（x;θ2），其中x=[V1k：V2k：IDone-hot]，如图1所示在通过完全连接的层之后，由局部“相似性评分”给出的所述预评分被最大化，并且被8Weidi Xie，Li Shen和Andrew Zisserman讨论与[28，27]的方法不同，其中将每个空间位置处的特征与每个其他位置处的特征进行比较，这里的比较模块仅比较对相同界标区域进行编码的描述符例如前口到前口。通过附加地标标识符（独热指示符向量），完全连接的层能够专用于各个地标。在高级别上，以这种方式利用多个本地专家类似于在可变形零件模型（REMM）中使用多个组件（用于不同的视觉方面）[31]。4实验细节4.1VGGFace2数据集在本文中，所有模型都是在大规模VGGFace2数据集的训练集上训练的[5]，该数据集在姿势，年龄，光照，种族和职业方面有很大的变化（例如，种族）。演员、运动员、政治家）。4.2地标调节器在Attend模块中，地标得分图可以被认为是全局平均值的一般集合，其中基于输入图像隐式地发现了该地标得分图。然而，在检测模块中，没有什么可以阻止网络学习相同地标的K个相同副本，例如，它可以学习总是预测平均池化掩码。或者检测眼睛，或者给定具有足够大的接收场的网络，它总是可以精确定位图像的中心。为了防止这种情况，我们使用两种不同类型的地标正则化器进行实验：多样性正则化器（无监督学习）和关键点正则化器（监督学习）。多样性正则化器[32]。为了鼓励地标多样性，最明显的方法是惩罚不同地标的得分图之间的相互重叠。首先通过使用max（Eq4）的值对界标分数图中的每个界标分数图进行自归一化，以使其可预测地分布（p）exp（Anijk）pnijk=Σijexp（Anijk）（四）其中n、i、j、k分别指模板内的图像索引、宽度、高度、注意力图的数量理想地，如果所有K个界标彼此不相交，则通过取这些归一化分布的最大投影，应当恰好存在K个界标，并且它们应当总和为K。Lreg=nK−ΣNIJMaxk=1，...，Kpnijk（5）在此注意，仅当不同归一化的界标分数图中的激活不相交并且恰好为1时，该正则化子才为零。0.比较器网络9nij2关键点正则化器。受益于先前在面部关键点检测方面的富有成效的研究，我们从预先训练的关键点检测器获得伪地面实况地标。虽然预测并不完美，但我们推测它们足够准确，可以在早期阶段指导网络训练，并且随着训练的进行，正则化器权重会逐渐衰减，逐渐释放参数搜索空间。作为预处理，我们使用预训练的MTCNN [33]在整个数据集上预测5个面部关键点（图3），并通过阈值角度比估计三个面部姿势。1图3.第三章。VGGFace2图像的面部标志检测基于比率α/θ将人脸姿态量化为三个类别。向左剖面：α/θ <0。3、右向剖面：α/θ> 3。0，正面：α/θ ∈ [0. 三三0个字符]类似于多样性正则化器，推断出的界标分数图也是首先自归一化的（等式4），预测（p）和伪梯度图（p）之间的L2损失被应用为辅助的。不仅如此，给定面部图像仅属于三个姿态中的一个，12个地标图中只有4个实际上可用于监督个体图像。Σ1(pnijk−pˆnijk)2对于{pose-specific keypoints}Lreg=（6）0为了使实验具有可比性，在两个实验中，我们在检测模块中使用K= 12个地标得分图。4.3损失函数所提出的比较器网络通过同时优化三种类型的损耗来进行端到端训练：第一，模板级身份分类损失，使用通过注意力池化与重新校准的全局图获得的全局特征表示（参考图2）;第二，来自比较模块的相似性预测上的标准分类损失（2个类）;第三，来自检测模块中的地标得分图的正则化损失。L=α1（Lcls1+Lcls2）+α2Lsim+α3Lreg（7）1在我们的训练中，我们只使用4个面部标志，左眼，右眼，鼻子，嘴巴。通过对嘴角处的两个界标求平均来获得嘴界标。10Weidi Xie，Li Shen和Andrew Zisserman其中α1= 2。0，α2= 5。0表示分类和相似度预测的损失权重，α3表示正则化器的权重，初始化为三十0，并且每60，000次迭代衰减一半。注意，α3被调度为减小，因此，即使对于利用关键点正则化器的训练，辅助监督也仅在早期阶段指导网络训练此后，分类和验证损失将主导这些界标定位的训练。4.4硬样开采为了训练比较器网络进行重新排名，我们需要一种方法来对硬模板-模板对进行采样。在这里，我们描述了这个过程。其关键思想是使用标准ResNet-50生成的特征来近似模板描述符，并使用此近似模板描述符来选择硬模板对。详细地，模板级描述符通过对3个图像的特征向量（从ResNet-50预先计算）求平均并进行L2归一化来获得。然后将硬模板对的选择集成到比较器网络的训练中。在每次迭代中，随机采样256个身份，并用于创建512个模板，每个模板中有3个图像（即，每个身份有两个模板）。总共有256个阳性模板对和大量的阴性对。(a) 混淆矩阵（b）采样直方图图4.第一章基于预训练单图像分类网络的采样策略较大的值表示更困难的模板对。通过计算不同模板对之间的余弦相似度，我们生成用于模板到模板验证的512×512相似度矩阵Ms，其中小值指的是来自模板对的预测的不相似对比较器网络11预训练的ResNet50。我们进一步将验证难度矩阵定义为：D=|地面实况− Ms|（八）其中groundtruth label为0（不相似）或1（相似）。因此，在难度矩阵中，小值表示容易的样本对，大值表示困难的样本。4.5培训详情我们在VG-GFace 2数据集上从头开始训练整个比较器网络，详细的架构描述可以在补充材料中找到在训练过程中，输入图像的短边被调整为144，而长边被中心裁剪，使输入图像为144 × 144像素，面部居中，127。从每个通道中减去5在每个塔中，将3个图像打包为模板输入。注意，一个模板内的3个图像是相同图像2的概率为20%。在这种情况下，比较器网络相当于在单个图像上进行训练数据增强分别为每个图像操作的概率为20%，包括翻转，高斯模糊，运动模糊，单色变换。Adam [34]用于优化，初始学习率为1e−4，迷你bateches大小为64，正负对数量相等当错误达到平台时，学习率降低了两倍，降低了10倍。请注意，尽管批量大小很小，但网络实际上在每个训练步骤中看到64× 6个图像此外，尽管网络仅使用每个塔3个图像进行训练，但在测试时，它可以应用于每个模板的任何数量的图像。注意，替代方案是使用预先训练的面部网络，例如，a ResNet-50[5]，因为与端到端训练相比，这大大加速了训练，性能损失几乎可以忽略不计详细地，检测模块被预先训练的ResNet-50替换;地标条件描述符从conv 3块的最后一层（输入空间分辨率的1 / 8）计算;并且全局描述符来自最后一层（平均池化向量）。5结果我们评估了具有挑战性的IARPA Janus基准，其中所有图像都是从无约束的环境中捕获的，并且在视点和图像质量上显示出很大与传统的封闭世界分类任务[1-3]相比训练集和测试集的标签空间是不相交的），并且因此挑战了特征表示的所有模型都在2这保证了64%的概率，两个模板包含3个不同的图像，36%的概率，至少一个模板包含3个相同的图像。12Weidi Xie，Li Shen和Andrew Zisserman标准1：1验证协议（混合介质探针和两个图库之间的匹配），性能报告为真实接受率（TAR）与假阳性率（FAR）（即受试者工作特征（ROC）曲线）。IJB-B数据集[13] IJB-B数据集是IJB-A [35]的扩展，有1，845名受试者，其中21名受试者。8K静止图像（包括11， 754张人脸和10， 044张非人脸）和来自7， 011个视频的55K帧。模型1：1验证TARFAR=1E− 4 FAR=1E− 3 FAR=1E− 2 FAR=1E− 1Whitelam等人[13个国家]0的情况。5400的情况。7000的情况。840−−Navaneeth等人[36个]0的情况。6850的情况。8300的情况。9250的情况。978ResNet50 [5]0的情况。7840的情况。8780的情况。9380的情况。975SENet50 [5]0的情况。8000的情况。8880的情况。9490的情况。984ResNet50+SENet500的情况。8000的情况。8870的情况。9460的情况。981MN-v [19]0的情况。8180的情况。9020的情况。9550的情况。984MN-vc [19]0的情况。8310的情况。9090的情况。9580的情况。985ResNet50+DCN（Kpts）0.8500的情况。9270的情况。9700的情况。992ResNet50+DCN（Divs）0的情况。8410的情况。9300的情况。9720的情况。995SENet50+DCN（Kpts）0的情况。8460的情况。9350的情况。9740的情况。997SENet50+DCN（Divs）0的情况。8490.9370.9750.997表1. IJB-B数据集1：1验证方案评价。（越高越好）请注意，Navaneeth等人的结果。[36]是在Janus CS3数据集上。DCN（Divs）：使用Diversity Regularizer训练的深度比较器网络DCN（Kpts）：使用Keypoints Regularizer训练的深度比较器网络IJB-C数据集[14] IJB-C数据集是IJB-B的进一步扩展，有3，531名受试者，其中31名受试者。3K静态图像和117. 来自11，779个视频的5K帧。总共有23124个模板，19557个真正的匹配和15639K个冒名顶替者匹配。模型1：1验证TARFAR=1E− 4 FAR=1E− 3 FAR=1E− 2 FAR=1E− 1GOTS-1 [14]0的情况。1600的情况。3200的情况。6200的情况。800FaceNet [14]0的情况。4900的情况。6600的情况。8200的情况。920VGG-CNN [14]0的情况。6000的情况。7500的情况。8600的情况。950ResNet50 [5]0的情况。8250的情况。9000的情况。9500的情况。980SENet50 [5]0的情况。8400的情况。9100的情况。9600的情况。987ResNet50+SENet50 [5]0的情况。8410的情况。9090的情况。9570的情况。985MN-v [19]0的情况。8520的情况。9200的情况。9650的情况。988MN-vc [19]0的情况。8620的情况。9270的情况。9680的情况。989ResNet50+DCN（Kpts）0的情况。8670的情况。9400的情况。9790的情况。997ResNet50+DCN（Divs）0的情况。8800的情况。9440的情况。9810的情况。998SENet50+DCN（Kpts）0的情况。8740的情况。9440的情况。9810的情况。998SENet50+DCN（Divs）0.8850.9470.9830.998表2. IJB-C数据集1：1验证方案评价。（越高越好）GOTS-1，FaceNet，VGG-CNN的结果从[14]中的ROC曲线读取比较器网络13SENet50SENet50+ResNet50SENet50+比较器网络（分集调节器）SENet50+比较器网络（地标调节器）真实接受率（TAR）1.0 1.00.9 0.90.8 0.80.7 0.70.6 0.60.5104103102101100错误接受率（FAR）0.5104103102101100错误接受率（FAR）(a)IJB-B的ROC（越高越好）（b）IJB-C的ROC（越高越好）图五、IJB-B IJB-C数据集上1：1验证方案的ROC曲线5.1讨论从评估结果中可以观察到三个现象：首先，与先前的最先进模型[5]相比，通过重新排序训练的DCN可以显着提高IJBB和IJBC的性能（约4- 5%，这是误差的大幅减少）;其次，尽管ResNet 50和SENet 50的设计和训练不同，但它们的集合并不提供任何好处。这表明ResNet 50的困难模板对对于另一个更强大的SENet 50仍然很困难，表明在单个图像分类上训练的不同模型彼此不互补;而相反，DCN可以与ResNet 50或SENet 50一起使用以改进识别系统;第三，用不同正则化器训练的DCN的性能彼此相当，这表明面部关键点的地面实况在训练DCN中不是关键的。5.2可视化图6显示了随机采样模板的注意力图，该模板包含具有不同姿势的多个图像以这种方式可视化地图使得模型可解释，因为可以看到地标检测器在做出验证决定时集中在什么上。检测模块已经学会一致地以不同姿势精确定位地标，并且甚至容忍一些平面外旋转。有趣的是，界标检测器实际上同时学习定位两只眼睛;我们推测，这是由于人脸近似对称的事实，并且在训练期间，数据被水平翻转增强。6结论我们引入了一个新的网络，能够比较图像模板并验证它们是否匹配。网络非常灵活，SENet50SENet50+ResNet50SENet50+比较器网络（分集调节器）SENet50+比较器网络（地标调节器）真实接受率（TAR）14Weidi Xie，Li Shen和Andrew Zisserman见图6。在对三个标志检测器进行自归一化之后的预测面部标志得分图。补充材料中提供了更多的例子。第一行：模板中的原始图像，从左到右显示各种姿势的面部;第2、第4、第6行：自归一化地标得分图（注意力图）;第3、5、7行：与注意力图重叠的图像。虽然每个模板中的图像的数量可以在测试时变化，但是它也是机会主义的，因为它可以在测试时利用本地证据，诸如在传统的每个面部编码的单个塔中可能丢失的特定它的性能大大提高了国家的最先进的最近和非常具有挑战性的IJB基准。虽然我们在这项工作中使用了面部模板，但比较器网络可以直接应用于人的re-id，其中通常可以使用集合，并且也可以潜在地应用于其他细粒度分类任务，例如从同一实例的多个图像中确定鸟或花的种类。确认这项研究是基于国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA）支持的工作，合同号为2014-14071600010。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI，IARPA或美国的官方政策或认可，无论是明示还是暗示。政府的美国政府获授权复制及分发重印本作政府用途，即使该等重印本有任何版权注释。比较器网络15引用1. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：ImageNet分类与深度卷积神经网络任务。 In：NIPS. （2012）11062. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。In：ICLR. （2015年）3. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：Proc. CVPR. （2016年）4. 胡， J ， Shen ， L. ， Sun ， G. ：压缩 - 激励网络。 arXiv 预印本 arXiv ：1709.01507（2017）5. 曹Q.Shen，L.，Xie，W.，帕克希O.M.齐瑟曼，A.：VGGFace2：用于识别姿势和年龄的人脸数据集In：Intl.Conf. 自动人脸和手势识别（FG）（2018），http://www.robots.ox.ac.uk/vgg/data/vgg face 2/6. 帕克希O.M. Vedaldi，A.，齐瑟曼，A.：深度人脸识别。In：Proc. BMVC.（2015年）7. Schroff，F.，Kalenichenko，D. Philbin，J.：Facenet：用于人脸识别和聚类的统一嵌入。In：Proc. CVPR. （2015年）8. Taigman，Y.，杨，M.，Ranzato，M.，沃尔夫湖：Deepface：缩小与人脸验证中人类水平性能的差距。In：Proc. CVPR. （2014年）9. Schultz，M.，Joachims，T.：从相对比较中学习距离度量。在：NIPS。（2004年）10. Weinberger，K.Q.，Blitzer，J.，索尔，L.：距离度量学习用于大间隔最近邻分类。在：NIPS。（2006年）11. Ustinova，E.，Lempitsky，V.：使用直方图损失学习深度嵌入。在：NIPS。（2016年）12. Hermans，A.拜尔湖莱贝B：三重损失辩护人重新认定。arXiv预印本arXiv：1703.07737（2017）13. Whitelam，C. Taborsky，E.，Blanton，A.迷宫B亚当斯，J.，Miller，T.，Kalka，N.，Jain，A.K.，邓肯，J.A.，Allen，K.，等：IARPA janusbenchmark-b人脸数据集。在：CVPR生物识别研讨会。（2017年）14. 迷宫B亚当斯，J.，邓肯，J.A.，Kalka，N.，Miller，T.，奥托角Jain，A.K.，Niggel，W.T.，Anderson，J. Cheney，J.，Grother，P.：IARPAjanus基准-c：面部数据集和协议。第11届IAPR生物识别国际会议（2018年）15. Philbin，J.，Chum，O.，Isard，M.，Sivic，J.，齐瑟曼，A.：具有大词汇量和快速空间匹配的对象检索。In：Proc. CVPR. （2007年）16. 我是H Douze，M.， S chmid，C. ：具有用于存储大量数据的内存和数据库技术。 In：Pr oc. ECCV. （2008）30417. Luan，T.，Xi，Y.，小明：解纠缠表示学习GAN用于姿态不变人脸识别。In：Proc. CVPR. （2017年）18. 杨杰，Ren，P.，Zhang，D.，中国农业科学院农业研究所所长，Chen，D.，中国农业科学院，温，F.，Li，H.，Hua，G.：用于视频人脸识别的神经In：Proc. CVPR. （2017年）19. Xie，W.，齐瑟曼，A.：人脸识别的多列网络。In：Proc. BMVC. （2018年）20. Li，H.，Hua，G.，Brandt，J.，Yang，J.：用于姿态变化人脸验证的概率弹性匹配In：Proc. CVPR. （二零一三年）21. 帕克希O.M.西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：一种简洁而有区别的人脸轨迹描述子。In：Proc. CVPR. （2014年）22. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。ICLR Proc.（2015）16Weidi Xie，Li Shen和Andrew Zisserman23. Ba，J.，Mnih，V.，Kavukcuoglu，K.：多目标识别与视觉注意。ICLR Proc.（2015）24. 徐，K.，Ba，J.，基罗斯河周，K.，Courville，A. Salakhudinov河泽梅尔河Bengio，Y.：显示、出席和讲述：具有视觉注意的神经图像字幕生成。In：Proc.ICML. （2015年）25. 郑洪，Fu，J.，Mei T罗杰：学习多注意力卷积神经网络用于细粒度图像识别。见：Proc.ICCV。（2017年）26. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，等：空间Transformer网络。在：NIPS。（2015年）27. Santoro，A.Raposo，D.，巴雷特D.G. TMalinowski，M.，帕斯卡努河Battaglia，P. Lillicrap，T.P.：一个用于关系推理的简单神经网络模块CoRR abs/1706.01427（2017）28. Lin TJ RoyChowdhury，A. Maji，S.：用于细粒度视觉识别的双线性cnn模型。见：Proc.ICCV。（2015年）29. Vinyals，O.，布伦德尔角Lillicrap，T. Kavukcuoglu，k.，Wierstra，D.：匹配网络进行一次性学习。在：NIPS。（2016年）30. Sung ， F.，杨， Y.，张， L. ， Xiang， T.， Torr ， P.H.S.， Hospedales ，T.M.：学习比较：用于少数学习的关系网络In：Proc.CVPR。（2018年）31. Felzenszwalb，P.，Mcalester，D.，Ramanan，D.：一个有区别地训练的、多尺度的、可变形的零件模型。In：Proc. CVPR. （2008年）32. Thewlis，J.，Bilen，H.，Vedaldi，A.：基于分解空间嵌入的无监督学习。见：Proc.ICCV。（2017年）33. 张，K.，张志，Li，Z.，Qiao，Y.：使用多任务级联卷积网络的联合人脸检测和对齐。IEEE Signal Processing Letters 23（10）（2016）14 9934. 金玛，D.P.，Ba，J.： Adam：随机最佳化的方法 Corrabs/1412.6980（2014）35. Klare，B.F.，克莱因湾Taborsky，E.，Blanton，A. Cheney，J.，Allen，K.，Grother，P.，马，A，Jain，A.K.：推动无约束人脸检测和识别的前沿：IARPA janus基准a. In：Proc. CVPR. （2015年）36. Navaneeth，B. Jingxiao，Z.，红鱼，X. Jun-Cheng，C.，卡洛斯角Rama，C.：基于模板的人脸识别的深度异质特征融合。IEEE Winter Conference onApplications of Computer Vision，WACV。（2017年）

下载后可阅读完整内容，剩余1页未读，立即下载