人脸识别中基于地球移动器距离的重新排序改进了分布外的面识别

27 浏览量更新于2023-10-25 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

20259DeepFace-EMD：使用块式地球移动器距离的重新排序改进了分布外的面识别Hai Phan海潘1，2pthai1204@gmail.com阮英1gmail.com1卡内基梅隆大学（a）LFW（b）Masked（LFW）（c）Sunglasses（LFW）（d）Profile（CFP）第一阶段流程第二阶段流程第一阶段流程第二阶段流程第一阶段流程第二阶段流程图1.传统的人脸识别在图像级嵌入时根据图库图像与查询（顶行）的余弦距离对图库图像进行排名，这会在输入中的分布外变化（例如，面具或太阳镜;我们发现，使用它们的分块EMD相似性w.r.t.该查询实质上提高了对挑战性情况（b-d）的精确度（阶段2）。“流”可视化直观地显示了最高流量）。见图S4为前5名候选人的完整数字摘要人脸识别（FI）无处不在，并推动执法部门做出许多高风险决策。一种常见的FI方法通过取图像嵌入之间的余弦相似性来比较两幅图像。然而，这种方法遭受到对新类型的图像（例如，当查询面部被掩蔽、裁剪或旋转时）不包括在训练集或图库中。在这里，我们提出了一个重新排名的方法，比较两个面孔使用地球移动器我们的额外比较阶段明确地检查细粒度级别的图像相似性（例如，眼睛对眼睛），并且比传统FI对OOD扰动和遮挡更鲁棒。有趣的是，在没有微调特征提取器的情况下，我们的方法始终提高了所有测试的OOD查询的准确性：掩码、裁剪、旋转和对抗同时在分发图像上获得类似的结果1. 介绍是谁在迪凯特的Shinola奢侈品店偷了东西？你凭什么领取失业救济金[5]或登上飞机[1]？人脸识别（FI）是这些关乎生命的问题的答案的背后。然而，该技术可能会出错，导致严重的后果，例如。被错误地否认失业福利[5]或被错误地逮捕[2- 4，7 ]的在一张照片中识别人仍然具有挑战性，因为在许多情况下，问题是零拍摄和不适定的图像检索任务。首先，深度特征提取器可能在训练期间之前没有见过正常的非名人。其次，数据库中的个人照片可能太少，FI系统无法做出可靠的决策。第三，当一张脸在野外时（例如，来自监视摄像机）被遮挡[44，54]（例如，戴着面具），遥远或20260Q {}G {}∈Q裁剪，产生不在深度网络的训练集和检索数据库两者中的新类型的照片-即，分布外（OOD）数据。例如，给定被遮挡的查询人脸，人脸验证准确度可能会显著下降（在LFW上从99.38%下降到81.12%）（图11）。1b-d）[ 44 ]或对抗查询[ 8，73 ]。在本文中，我们建议评估最先进的面部特征提取器（ ArcFace [19] ， Cos- Face [61] 和 FaceNet [47] ）在OOD面部识别测试中的性能也就是说，我们的主要任务是在给定已知面孔的图库的情况下识别查询图像中的人。除了在分布（ID）查询图像，我们还测试了包含（1）常见的闭塞，即面向对象的查询FI模型。随意的作物，戴着口罩或太阳镜的脸;和（2）对抗性扰动[73]。我们的主要发现是：1• 有趣的是，OOD的准确性可以通过两阶段的方法大大提高（见图1）。2）：首先，使用余弦距离从图库中识别出一组最具全局相似性的人脸，然后，通过使用地球移动器距离（EMD）在补丁嵌入级别将这些候选人与查询进行比较，对这些候选人进行重新排名[ 45 ]。3秒4）.• 在三种不同的模型（ ArcFace ， CosFace 和FaceNet）中，我们的重新排名方法始终提高了原始精度（在所有指标下：P@1 、R-Precision和MAP@R），无需微调（第4）.也就是说，有趣的是，可以利用从这些模型中展示的空间特征来逐块比较图像（除了逐图像之外），并且进一步提高FI准确性。• 在掩码图像[59]上，我们的重新排序方法（无训练）与直接在掩码图像上微调的ArcFace模型（第二节）相媲美。4.3）。据我们所知，我们的工作是第一个证明EMD在深层特征层面上比较OOD，遮挡和对抗图像的显着有效性。2. 方法2.1. 问题公式化为了证明我们的方法的通用性，我们采用了以下简单的FI公式[19，33，71]：通过基于其与查询的成对相似性对所有图库图像进行排名来识别查询图像中的人。在排名（阶段1）或重新排名（阶段2）之后，我们将前1个最近图像的身份作为预测身份。评估在[38，71]之后，我们使用三个常见的评估指标：精度@1（P@1）、R-精度（RP）和MAP@R（M@R）。见其定义。[71]中的B11代码、演示和数据可在https://github.com/ anguyen8/deepface-emd上获取2.2. 网络我们使用三种最先进的 Py- Torch 模型 ArcFace ，FaceNet和CosFace分别在CASIA [65]，VGGFace 2 [14]和CASIA上进行预训练。它们的架构分别是ResNet-18[24]，Inception-ResNet-v1 [56]和20层SphereFace [33]。参见第S1以获取有关网络架构和PyTorch实现的更多详细信息。图像预处理对于所有网络，我们按照[11]中的3D面部对齐（使用5个参考点，宽度和高度的0.7和0.6裁剪比率以及相似性变换）对齐和裁剪输入图像本文所示的所有图像（例如，图1）进行预处理。使用MTCNN，所有三个网络的默认预处理，不会实质性地改变结果（第二节）。S5）。2.3. 2-分阶段分层人脸识别阶段-1：排名一个常见的1阶段人脸识别[33，47，61]基于它们与预训练特征提取器的最后线性层特征空间中给定查询的成对余弦相似性对图库图像进行排名（图1）。2）。这里，我们的图像嵌入是从所有三个模型的最后一个线性层中提取的，并且都是∈R512。阶段2：重新排序我们通过使用EMD计算图像对的分块相似性来对来自阶段1的前k个（其中最佳k=100）候选者总的来说，我们在两个层次上比较人脸（图2），首先是在粗略的图像级别，然后是细粒度的补丁级别。通过消融研究（第3），我们发现我们的2阶段方法（a.k.a. DeepFace-EMD）比单独的第1阶段（即，没有补丁式重新排序），也只有阶段2（即使用分块相似性对整个图库进行排序）。2.4. 地球移动EMD是两组加权观测值或分布之间的编辑距离[45]。其有效性首先在基于颜色直方图和纹理频率[45]测量成对图像相似性以进行图像检索中得到证明。然而，EMD也是两个文本文档之间的有效距离[29]，概率分布（其中EMD等效于Wasserstein，即马洛距离）[30]，以及许多其他领域的分布[27，34，43]。在这里，我们建议利用EMD作为两个面之间的距离，即。两组加权的面部特征令=（q1，wq1），.，（qN，wqN）是描述查询面部的N个（面部特征，权重）对的集合，其中qi是特征（例如，左eye或nose），并且对应的wqi指示特征qi在FI中的重要性。之间的流动以及图库面部=（g1，wg1），...，（gN，wgN）是任意矩阵F=（fij）RN× N. 直观地说，fij是与g j处的权重匹配的q i处的重要性权重的量。设dij为地20261∈ΣΣ× ×××NNi=1ΣQG- -IJ我 JNNΣ Σ#第1阶段：基于图像相似度的排名距离，= 1 −#，��$查询图像…CNN$#$#…$查询图像CNN图库图像塞吉特征加权{ #i}CNN图像嵌入阶段2：基于补丁相似性的重新排序流热门候选人CNN拉吉联系我们0.10.30.010.010.20.7 0.010.10.6 零点零二0.40.8 0.30.50.7 0.4= EMD距离地面距离矩阵最优流量图2.我们的两阶段人脸识别流程。阶段1基于图像嵌入级别上与查询面的余弦距离对图库图像进行排名。然后，阶段2在块嵌入级别使用EMD对来自阶段1的前k个入围候选者进行重新排名（qi，gj）与D=（dij）RN× N之间的距离是所有成对距离的基距离矩阵。我们希望找到一个最优流F，使下面的成本函数最小化，即。两组面部特征之间的加权成对距离之和：在[60]中，我们也将图像划分为网格，但我们从每个网络的最后卷积层也就是说，在FI中，面部图像被对齐和裁剪，使得整个面部覆盖图像的大部分（参见图11）。1a）。因此，没有面部咬合，NN每个图像块都应该包含有用的身份，S.T.COST（Q，G，F）= dijfij（1）i=1j =1fij≥0（2）<$fij≤wqi，且<$fij≤wgj，i，j∈[1，N]（3）形成，这与自然照片形成对比[66]。我们的ArcFace，FaceNet和Cos- Face的网格大小HW分别为8 8，3 3和6 7，这是它们最后一个卷积层的相应空间维度S1）的情况下。也就是说，每个特征qi是大小为1×1×C的嵌入，其中Cj=1ΣΣj=1i=1i=1Nfij=minwgj，wqi。（四）j=1i=1是信道的数目（即，512、1792和512）。地面距离像[66，71]一样，我们使用余弦距离作为嵌入（q，g）之间的地面距离d，两个补丁：与[66，71]一样，我们将一张脸的权重归一化，国际新闻报=1−qi，gj（五）特征的总权重是1，即， Nwq=我qiNj=1 wgj =1，这也是方程中的总流量。（四）、注意其中，？是两个特征向量之间的点积EMD是一个度量当且仅当两个分布具有相等的总权重并且地面距离函数是一个度量[16]。我们使用迭代Sinkhorn算法[18]来有效地解决方程中的线性规划问题。（1），其产生两个面之间的最终EMD，面部特征在使用EMD的图像检索中，一组特征qi可以是0.10.00.00.00.00.20.6 0.010.00.40.4 0.00.00.00.01 0.8……………N⨂20262主色[45]、空间频率[45]或基于参考身份的局部补丁的直方图状描述符的集合[60]。启发2.5. 特征加权我们的FI中的EMD直观上是匹配两幅图像中所有加权特征的最佳计划。因此，如何对特征进行加权是重要的一步。在这里，我们将深入探讨五种不同的FI特征加权技术。Uniform Zhang et al.[66]发现将较低权重分配给信息量较少的区域是有益的（例如，背景或遮挡）和更高的权重来区分20263××N1⟩1≥. Σ. Σ×联系我们× ××0，qi，JN，w，g=max0，gj，ii（七）区域（例如，包含显著对象的那些）。然而，给所有N=H W块分配相等的权重是值得测试的，因为背景噪声经常从预处理的人脸图像中被裁剪出来（图1）。1）：（a）SC（b）APC（c）LMKwqi =wgi =1，其中1≤k≤N（6）平均池相关性（APC）不是均匀加权所有补丁嵌入，[66]的替代方案是加权给定特征qi，与其与考虑的整个其他图像的相关性成比例。也就是说，权重wqi 应该是特征qi和所有嵌入的平均池化输出之间的点积图库图像{gj}N：.你好。Nq我JN图3.给出了三种不同技术下Ar- cFace的4 ~ 4块权值分配结果.基于检测到的地标（-）的每片密度，LMK（c）通常将较高的权重分配给面部的中心（无论遮挡情况如何）。相比之下，SC和APC分别为具有更高块级和块与图像相似性的块分配更高的权重APC倾向于降低面部特征的权重（例如，太阳镜或嘴周围的蓝色区域），如果其相应特征在另一个IM中被遮挡，年龄（b）。相比之下，SC对闭塞不敏感（a）。见图S1图S2为特征加权的更多热图示例。其中max（. ）保持权重始终为非负。APC倾向于将接近零的权重分配给被遮挡的区域，有趣的是，它还将未被遮挡的图库图像中的眼睛和嘴巴的权重最小化（见图2 ）。 3b;面罩和未封闭的嘴周围的蓝色阴影）。互相关（CC）APC [66]与[71]中介绍的CC不同，除了CC使用最后一个线性层的输出向量（见代码）而不是APC中的全局平均池化向量外，CC与APC相同空间相关性（SC）虽然APC和CC两者相反，受[53]启发的另一种选择是查询补丁qi以及每个图库图像{gj}N中的每个补丁：3. 消融研究我们进行了三项消融研究，以严格评估我们的2阶段FI方法中的关键设计选择：（1）使用哪些特征加权技术（第二节）3.1）？(2)使用EMD和余弦距离进行重新排序（Sec. 3.2）;和（3）比较补丁或图像在第1阶段（节。3.3）。实验对于所有三个实验，我们使用ArcFace对LFW [65]和LFW-crop进行FI。对于LFW，我们将所有1，680名拥有2张图像的人的图像总数当将每个图像作为查询时，我们在剩余的9，163个图像的图库中进行搜索。对于LFW-crop的实验，我们使用所有13，233个原始LFW图像作为图库。为了创建一个包含13，233个裁剪图像的查询集，我们克隆了图库并裁剪了每个wqiN=最大0，Jqi，gjqi2000年，N=最大0，我qi，gjqi（八）图像随机到其70%，并将其上采样回原始大小128 128（见图中的示例）。5 d）。也就是说，LFW作物测试识别作物（即，特写，和错位）的图像给出了不变的LFW画廊。LFW和LFW-crop测试提供对比洞察（ID与OOD）。我们观察到，SC经常分配一个较高的权重，包括区域，口罩和太阳镜（图）3b）。界标（LMK）虽然先前的三种技术自适应地依赖于图像块相似性（APC、CC）或逐块相似性（SC）来对给定的块嵌入进行加权，但是它们所考虑的重要点可能与面部界标对齐也可能不对齐，已知面部界标对于许多面部相关任务是重要的。在这里，作为APC，CC和SC的基线，我们使用dlib [26]来预测每个人脸图像中的68个关键点（见图2）。3 c）并通过块区域内的关键点的密度对每个块嵌入进行加权。我们的LMK体重分布呈现高斯型，峰值通常位于鼻子下方（图1）。3c）。第二阶段，即：重新排列前k个候选者，我们测试k的不同值100、200、300，并且没有发现性能实质上改变。在k=100时，我们的2阶段精度已经接近完美重新排序下的最大精度99.88（见表1）。1a;最大精度）。3.1. 比较特征加权技术在这里，我们评估我们的2阶段FI的精度，因为我们扫过五个不同的特征加权技术和两个网格大小（8 8和4 4）。在一个8 × 8的网格中，我们观察到一些面部特征，如眼睛，经常被分成两半，横跨两个补丁（见图2）。S5），这可能会损害分块相似性。所以，对于每一个重量-文勤=maxΣ20264×××××∼×××××联系我们ing技术，我们还测试了平均池8 8网格成4 4，并进行EMD对所得的16补丁。结果首先，我们发现，在LFW上，我们的基于图像相似性的技术（APC，SC）优于LMK基线（表1）。1a）尽管在加权过程中不使用界标，但验证自适应的基于相似性的加权方案的有效性。其次，有趣的是，在FI中，我们发现Uniform，APC和SC都优于[66，71]中提出的CC权重。这与[71]中的发现形成鲜明对比，CC优于Uniform（可能是因为面部图像没有背景噪声并且是特写）。此外，使用来自信道的全局平均池化向量（APC）实质上产生比CC实现中的最后线性层输出更有用的空间1 b; 96.16 vs.91.31 P@1）。第三，令人惊讶的是，尽管8 × 8网格中的贴片并不包围整个完全可见的面部特征（例如，一只眼睛），所有的特征加权方法在8 × 8网格上都是一样的或者比在4 × 4网格上更好（例如，选项卡. 1 b; APC：96.16vs. 95.32）。请注意，在4 × 4网格中可视化的最佳流比在8 × 8网格中更容易被人类解释（比较图10）。1与Fig. S5）。第四，在所有特征加权的变体中，我们的2阶段方法在LFW-crop上的表现始终并且大大优于传统的第1阶段，这表明其在处理OOD查询方面具有强大的有效性。第五，在前k个候选人（其中k=100）的完美重新排名下，仅在LFW中的第1阶段上只有1.4%的净空改进（表1）。1 a; 98.48 vs. 99.88）虽然有很大的LFW作物中的12%净空高度（制表。1 a; 87.35 vs. 98.71）。有趣的是，我们的重新排序结果接近上限重新排序精度（例如，ArcFace方法P@1RpM@RLFWvs.LFW（一）第一阶段[19]98.4878.6978.29最大预处理k=100时99.8881.32-[71]第七届全国政协委员[71]第四季第7集98.4281.6978.3576.2977.9172.47装甲运兵车（8 ×8）装甲运兵车（4 ×4）制服（8 ×8）制服（4 ×4）SC（8 ×8）SC（4 ×4）98.6098.5498.6698.6398.6698.6578.6378.5778.7378.7278.7478.7278.2378.1678.3578.3378.3578.33LMK（8×8）LMK（4×4）98.3598.3178.4378.3877.9977.90LFW作物与LFW（b）第（1）款第一阶段[19]87.3571.3869.04最大预处理k=100时98.7189.13-[71]第七届全国政协委员[71]第四季第7集91.3163.1272.3356.0370.0051.00装甲运兵车（8 ×8）装甲运兵车（4 ×4）制服（8 ×8）制服（4 ×4）SC（8 ×8）SC（4 ×4）96.1695.3296.2695.5396.1995.4276.6075.3778.0877.1578.0577.1274.5773.2576.2575.2976.2075.25表1.在LFW [65]和LFW-crop数据集上对Arc- Face [19]补丁嵌入的五种特征加权技术进行比较性能通常在8 8网格上比在44网格上稍好。我们的2阶段方法始终优于单独的香草阶段1，并接近最大的重新排名精度在k =100处。当我们增加α时单调增加（图4b）。也就是说，分块相似性的贡献越高，对具有挑战性的随机裁剪查询的重新排名准确性越好。我们选择α=0。7作为所有后续FI实验的最佳和默认选择。有趣的是，我们提出的距离（方程。9）也产生了MLFW上最先进的人脸验证结果[59]（Sec. S4）的情况下。选项卡. 1b; 96.26制服与98.71最大精度在k=100处）。3.2. 重新排序使用EMD余弦距离我们观察到，对于某些图像，在第2阶段使用分块相似性进行重新排名无助于提高准确性。在这里，我们测试是否线性组合EMD（在阶段2中的补丁级嵌入）和协99.098.598.097.597.096.596.095.595.094.5ArcFaceFaceNetCosFace100908070605040302010ArcFaceFaceNetCosFace正弦距离（在第1阶段的图像0.0 0.3 0.5 0.7 1.0阿尔法0.0 0.3 0.5 0.7 1.0阿尔法可以进一步提高重新排序的准确性（相对于单独的EMD实验我们使用88的网格大小，即。先前消融研究的更佳设置（第第3.1节）。对于每一对图像，我们将它们的块级EMD（θEMD）和图像级余弦距离（θCosine）线性组合为：θ=α×θEMD+（1−α）×θ余弦（9）扫过α0，0。3，0。5，0。7，1，我们发现改变α对LFW上的P@1有边际影响也就是说，P@1在[95，98.5]中变化，当仅使用EMD时，最低精度为95，即。α=1（见图4a）。相比之下，对于LFW作物，我们发现精度精密度@1精密度@120265(a) LFW（b）LFW作物图4.当使用APC特征加权时，我们的2阶段FI在扫过α时的P@1，用于线性组合LFW（a）和LFW裁剪图像（b）上的EMD和余弦距离。所有其他特征加权方法的趋势都是相似的（见图1）。S3）的情况下。3.3. 用于排序或重新排序的逐考虑到与单独的阶段1相比，在补丁嵌入空间使用EMD的重新排序大大提高了FI的精度（表1）。1），在这里，我们测试在阶段1而不是阶段2执行这种逐块EMD排序20266∼×实验也就是说，我们在补丁级别使用EMD而不是在图像级别使用标准余弦距离在第一阶段执行分片EMD明显比我们的两阶段方法慢，例如，慢 12倍（729.20秒， 60.97s ，共 13 ， 233 次查询）。也就是说，Sinkhorn是一种缓慢的迭代优化方法，并且第2阶段的EMD只需对k=100（而不是13，233）个图像进行排序此外，在所有特征加权技术下，在第1阶段使用EMD逐块比较图像的FI始终比我们的2阶段方法产生更差的准确性S1了解详情）。4. 附加结果为了证明我们的2阶段FI的通用性和有效性，我们采用最佳超参数设置（α=0. 7; APC）的消融研究（第3）并将它们用于三个不同的模型（ArcFace [19]，CosFace [61]和FaceNet [47]），它们具有不同的网格大小。我们在五种不同的OOD查询类型上测试了这三个模型：（1）戴口罩的脸或（2）太阳镜;（3）侧面脸;（4）随机裁剪的脸;和（5）敌对的脸。4.1. 识别被遮挡的面部实验我们在三个数据集上执行我们的2阶段FI：[2018 -04 - 17] 12，173-图像CALFW和16，488-image CARDB分别具有4，025和568个身份的年龄变化图像。CFP有500人，每人有14张照片（10张正面照片和4张侧面照片）。为了在具有挑战性的OOD查询上测试我们的模型，在CFP中，我们使用CFP中的2，000个侧面作为查询，并使用其5，000个正面作为图库。为了使用CFP 2、CALFW和CARDB创建OOD查询，我们通过使用dlib检测眼睛和嘴巴的地标并在面部上覆盖黑色太阳镜或面具来自动包含所有带有面具和太阳镜的图像（参见图2中的示例）。1）。我们还采用这三个数据集并创建随机裁剪的查询（如第二节中的LFW-crop。（3）第三章。对于所有的数据集，我们测试识别原始的，未修改的画廊被遮挡的查询面也就是说，对于每个查询，存在≥1个匹配图库图像。结果首先，对于所有三种模型和所有遮挡类型，I.E. 由于面具、太阳镜、裁剪和自遮挡（CFP中的轮廓查询），我们的方法在所有三个精度度量下始终优于传统的单独的第1阶段方法（表2、S8、S4）。第二，在所有三个数据集上，我们发现我们的阶段2在阶段1上提供的最大改进是当查询被随机裁剪或屏蔽时（Tab.2）。在某些情况下，仅使用余弦距离的阶段1不能检索其中的任何相关示例。2我们只在CFP的正面图像上应用面具和太阳镜数据集模型方法P@1RpM@RCALFW（口罩）ArcFaceST1我们96.8199.9253.1357.2751.7056.33CosFaceST1我们98.5499.9643.4659.8541.2058.87FaceNetST1我们77.6396.6739.7445.8736.9344.53CALFW（太阳镜）ArcFaceST1我们51.1154.9529.3830.6626.7327.74CosFaceST1我们45.2049.6725.9326.9822.7824.12FaceNetST1我们21.6825.0713.7015.0410.8912.16CALFW（作物）ArcFaceST1我们79.1392.5743.4647.1741.2045.68CosFaceST1我们10.9925.996.4512.355.4311.13FaceNetST1我们79.4785.7144.4045.9141.9943.83CORDB（面罩）ArcFaceST1我们96.1599.8439.2239.2230.4133.18CosFaceST1我们98.3199.9538.1739.7031.5733.68FaceNetST1我们75.9996.5322.2824.2514.9517.49太阳镜（Sunglass）ArcFaceST1我们84.6487.0651.1650.4044.9944.27CosFaceST1我们68.9375.9734.9035.5427.3028.12FaceNetST1我们56.7761.2127.9228.9820.0021.11作物数据库ArcFaceST1我们79.9292.9232.6632.9326.1926.60CosFaceST1我们10.1119.584.234.952.182.76FaceNetST1我们80.8086.7431.5031.5124.2724.32表2.当查询（来自CALFW [72]和CALDB [37]）被面具，太阳镜或随机裁剪遮挡时，我们的2阶段方法（8 8网格; APC）对第1阶段单独基线（ST 1）的鲁棒性更高，绝对增益高达+13%（例如，P@1：79.13至92.57）。结论与其他特征加权方法相似（见表1）。S2和Tab。S3）的情况下。前5名，但我们的重新排名设法推动三个相关的面孔进入前5名（图。5d）。第三，我们观察到，对于带有面具或太阳眼镜的面部，有趣的是，当计算与对应的包含查询的EMD逐块相似性时，APC经常从完全可见的图库面部中排除嘴部或眼睛区域（图11）。（3）第三章。同样的观察结果可以在最相似的斑块对的可视化中看到，即。最高流，对于我们相同的2级方法，使用4×4网格（图2）。5和图1）或8×8网格（图S5）。4.2. 对抗性图像对抗性示例对计算机视觉系统[28，39]（包括FI[50，73]）构成了巨大的挑战和严重的安全威胁。最近的研究表明20267×∼×∼∼∼(a) 屏蔽（LFW）（b）Sunglassess（CFDB）（c）配置文件（CFP）（d）裁剪（LFW）（e）对抗（TALFW）阶段1流程第2阶段第1阶段流程第2阶段第1阶段流程第2阶段第1阶段流程第2阶段第1阶段流阶段2图5.图以类似的格式，图。1.一、我们使用ArcFace（4 4 grid; APC）基于区块相似性的重新排名将更多相关的图库图像推到更高的位置（在这里，我们显示了前5名的结果），提高了各种类型的遮挡下的人脸识别精度“流”可视化直观地显示了查询的逐块重建（左上角最大流量）。斑块颜色越深，流量越低。例如，尽管纳尔逊·曼德拉被遮住了50%的脸（a），但他仍然可以被正确地检索出来，因为第二阶段找到了具有相似前额补丁的图库脸。参见图S5中的类似图为使用8×8网格运行我们的方法的结果（即，较小的补丁），这会产生更好的精度（表。1）。数据集模型方法P@1RpM@RArcFaceST193.4981.0480.35TALFW [73]vs.LFW [65]我们96.6482.7282.10CosFaceST1我们96.4999.0783.5785.4882.9985.03FaceNetST195.3379.2478.19我们97.2680.3379.39表3.我们的重新排名（8 8格; APC）在识别给定分布中LFW[65]图库的对手TALFW [ 73 ]图像时，与单独的第1阶段（ST1）相比，始终提高了精度。这些结论也适用于其他特征加权方法（更多结果请参见Tab。S5）。补丁表示可能是对抗图像的ViT印象鲁棒性背后的关键[9，35，49]。受这些发现的启发，我们在TALFW [73]查询上测试了我们的2阶段FI，给出了原始的13，233张图像LFW图库。实验TALFW包含4，069张LFW图像，这些图像被反向扭曲以导致面部验证者错误标记[73]。结果在整个TALFW查询集上，我们发现我们的重新排名在所有三个指标下都始终优于单独的第1阶段（表1）。（3）第三章。有趣的是，改进（对于三个模型，在P@1下2到4个点）比在原始LFW查询上测试时更大（在Tab中约为0.12）。1a），验证了我们基于补丁的重新排名的鲁棒性，当查询被非常小的噪声干扰时。也就是说，我们的方法可以提高FI精度时，扰动的大小是小（对抗）或大（例如。面具）。4.3. 重新排名竞争对手微调蒙面图像虽然我们的方法不涉及重新训练，但一种用于提高FI对遮挡的鲁棒性的常见技术是数据扩充，即，重新训练模型，除了原始数据之外。在这里，我们将我们的方法与掩蔽图像上的数据增强进行比较。实验为了生成增强的掩码图像，我们按照 [10] 在CASIA图像上覆盖各种类型的掩码我们将这些图像添加到原始的CASIA训练集，总共得到907K图像（10，575个身份）。我们使用相同的原始超参数在这个数据集上微调ArcFace [6]（参见第二节）。S2）的情况下。我们训练了三个模型，并报告了平均值和标准差（表1）。4）.为了进行公平的比较，我们在MLFW数据集[59]上评估了微调模型和我们的无训练方法，而不是我们自己创建的掩蔽数据集。也就是说，查询集具有11，959个MLFW掩模面部图像，并且图库是整个13，233个图像LFW。结果首先，我们发现微调ArcFace可以提高其在第1阶段单独FI中的准确性（Tab。4; 39.79 vs. 41.64）。然而，我们的两阶段方法仍然大大超过了单独的阶段1，无论是在使用原始的和微调的ArcFace（Tab。4; 48.23vs. 41.64）。有趣的是，我们还在DeepFace-EMD框架中使用微调模型进行了测试，发现它接近最佳的无训练结果（46.21 vs. 48.23）。5. 相关工作遮挡下的人脸识别部分遮挡对人脸识别提出了一个重大的不适定挑战，因为AI必须仅依赖不完整或嘈杂的面部特征来做出决策[44]。大多数现有方法提出通过用部分遮挡的面部来增强深度特征提取器的训练集来提高FI鲁棒性[23，41，57，59，63，63]。对增强的、包含的数据进行培训，鼓励模型更多地依赖于本地的、不相关的数据，20268×∼ArcFace方法P@1RpM@R预训练(a)ST1(b)我们39.7948.2335.1041.4333.3239.71调优(c)ST1(d)我们41岁64±0.1646.21 ±0.27三十四67±0.2438.65 ±0.26三十二66±0.25三十六73±0.26表4.我们的2阶段方法（b）使用ArcFace（8 - 8网格; APC）在识别MLFW的掩蔽图像（a）上的表现明显优于单独的阶段1有趣的是，我们的方法（b）也优于单独的阶段1时，弧面已被微调掩蔽图像（c）。在（c）中，我们报告了三个微调模型的平均值和标准差。犯罪性面部特征[41];然而，不能防止FI模型在新的OOD遮挡类型上表现不佳，特别是在对抗场景下[50]。相比之下，我们的方法（1）不需要重新训练或数据扩充;以及（2）利用图像级特征（阶段1）和用于FI的局部块级特征（阶段2）。一种常见的替代方法是学习生成空间特征掩模[36，44，52，58]或注意力图[63]来排除被遮挡的（即，无信息的或有噪声的）区域。受这些工作的启发，我们测试了五种方法来推断每个图像块的重要性（第二节）。3）EMD计算。早期作品使用手工制作的功能，并获得有限的准确性[32，36，40]。相比之下，后一种尝试利用了深度架构，但需要单独的遮挡检测器[52]或端到端训练的自定义架构中的掩蔽子网络[44，58]。相比之下，我们直接利用预先训练的最先进的图像嵌入（ArcFace，CosFace，FaceNet）和EMD从输入图像中排除遮挡区域，而无需任何架构修改或重新训练。另一种方法是预测被遮挡的像素，然后对恢复的图像执行FI [25，31，62，64，70，75]。然而，如何在保持真实身份的同时恢复未被遮挡的面部仍然是最先进的基于GAN的去遮挡方法的挑战[13，20，22]。人脸识别中的重新排序重新排序是一种流行的两阶段方法，用于在许多领域中改进图像检索结果[69]，例如。个人重新识别[46]、本地化[51]或网络图像搜索[17]。在FI中，Zhou et. [74]使用手工制作的补丁级特征来编码图像以进行排名，然后使用数据库中的多个参考图像来重新排名每个前k个候选者。两个身份之间的社会背景也被发现在重新排名照片标记结果中是有用的[12]。斯韦林根等等人[55]发现，利用外部与之前的工作相比，我们不使用额外的图像[74]或外部知识[12]。与人脸重新排名[21，42]相比，我们的方法是第一次基于成对相似性得分对候选人进行重新排名从图像级和块级相似性两者计算，所述图像级和块级相似性是根据现有技术的深度面部特征计算的。EMD用于图像检索虽然EMD是图像检索中的一个众所周知的度量[45]，但其在图像的深度卷积特征上的应用相对来说还没有得到充分的探索。Zhang等人[66，67]最近发现，通过在深特征空间中使用EMD逐块比较细粒度图像（狗，鸟和汽车）来分类细粒度图像，可以提高少数细粒度分类的准确性。然而，他们的成功仅限于使用较小网络的少数镜头，5路和10路分类（ResNet-12[24]）。相比之下，在这里，我们展示了使用EMD的FI的实质性改进，而无需重新训练特征提取器。与我们的工作同时，Zhao et al.[71]提出了DIML，通过使用余弦距离和EMD的总和作为用于排名的“结构相似性”得分，DIML在鸟类，汽车和产品的图像检索中表现出2-3%的一致改进他们发现CC比为图像块分配统一权重更有效[70]。有趣的是，通过对不同特征加权技术的严格研究，我们发现了针对FI的新见解：均匀加权比CC更有效。与之前的EMD作品[60，66，67，71]不同，我们是第一个显示EMD对（1）遮挡和对抗OOD图像的显着有效性;（2）人脸识别。6. 讨论和结论通过Sinkhorn解决分片EMD的速度很慢，这可能会阻止它用于对更大的图像集进行排序（参见Tab中的运行时报告）。S1）的情况下。此外，在这里，我们对两个等权分布使用EMD;然而，该算法可用于不等权重的情况[16，45]，这可能有利于处理闭塞。虽然在四种阻塞类型（即，面具，太阳镜，随机作物和对抗性图像），重新排名仅略好于ID和侧面人脸的单独阶段1，这在未来的研究中更深入地理解是有趣的而不是使用预先训练的模型，它可能是有趣的重新训练新模型明确的补丁明智的对应任务，这可能会产生更好的补丁嵌入我们的重新排名。总而言之，我们提出了DeepFace-EMD，这是一种用于分层比较图像的两阶段方法：首先在图像级别，然后在补丁级别。DeepFace- EMD对遮挡和敌对面部表现出令人印象深刻的鲁棒性，并且可以轻松集成到现有的FI系统中。在野外。致谢我们感谢李琦、陈培杰和阮基昂对稿件的反馈。我们还要感谢Chi Zhang、Wenliang Zhao和ChengruiWang分别重新租赁他们的DeepEMD、DIML和MLFW代码。AN得到了NSF Grant No. 1850117和NaphCare基金会的捐赠。20269引用[1] 面部识别技术在哈茨菲尔德杰克逊赢得了大多数国际三角洲客户 - 亚特兰大商业纪事。 https ：//www.bizjournalcom/Atlanta/news/2019/06/25/facial-recognition-tech-at-hartsfield-jackson-wins. HTML.（于2021年9月11日查阅）1[2] 有缺陷的面部识别导致逮捕和监狱的新杰里-西曼-纽约时报。https://www.nytimes。com/2020/12/29/technology/facial-recognition-misidentify-jail. HTML. （于2021年9月11日生效）。1[3] 密歇根州男子被错误地指控面部识别敦促国会法https：//www. 底特律新闻。com/story/news/politics/2021/07/13/house-panel-hear-michigan-man-wrongfully-accused-facial-recognition/7948908002/.（于 2021 年 9月11日查阅）1[4] 麻省理工学院技术评论（MIT Technology Review）的一项新诉讼显示，面部识别技术实际上是一个民权问题。 https ： //www. 技术评论 com/2021/04/14/1022676

下载后可阅读完整内容，剩余1页未读，立即下载