没有合适的资源?快使用搜索试试~ 我知道了~
利用无法识别的人脸提高人脸识别率
3424利用不可识别的人脸来提高人脸识别率司琪邓远军熊晓梦王伟夏伟Stefano SoattoAWS AI Labs摘要人脸识别系统的常见实现方式是检测阶段和识别或验证阶段的级联,这可能导致检测器故障以外的问题当检测器成功时,它可以检测到无法识别的人脸,无论识别系统的能力如何。因此,可识别性,一个潜在的变量,应考虑到人脸识别系统的设计和实施。我们提出了一个衡量人脸图像可识别性的指标,该指标利用了一个关键的经验观察:由使用大多数可识别身份训练的深度神经网络实现的人脸图像嵌入会导致超球体的分区,从而无法识别的身份聚集在一起。这与导致面部不可识别的现象无关,无论是光学或运动模糊、部分遮挡、空间量化还是较差的照明。因此,我们使用距离这种“不可识别的身份”作为可识别性的度量,并将其纳入整个系统的设计中我们发现,在IJB-C协变量验证基准测试中,考虑可识别性将单图像人脸识别的错误率降低了58%,在IJB-C基准测试中,在基于集合的识别中,将FAR= 1 e-5的验证错误率降低了24%。1. 介绍我们的目标是使人脸识别系统更容易负责任地这不仅需要降低错误率,还需要产生可解释的性能指标,估计何时可以可靠地执行识别,否则不应该尝试,或被认为不可靠。在大多数人脸识别系统[8,10,38]中,每个图像首先被馈送到人脸检测器(FD),该检测器返回可能描绘人脸的许多边界框的位置和形状。然后,这些与图像一起被馈送到下游面部识别(FR)模块,该模块返回与数据库中的身份相对应的K个标签中的一个(搜索),或者返回与数据库中的身份相对应的二进制标签。在亚马逊工作时做的工作。边界框是否匹配给定标识(验证)。FD和FR通常是在不同数据集上训练的非交互模块:FD的任务是找到面孔,无论他们是否能够识别。FR的任务是将每个检测映射到K个身份之一。这种cas-caded系统的一个明显的故障模式是当FD错误时:如果没有检测到面部,显然它不能被正确识别。如果检测到的边界框不显示面部,则FR系统仍然将其映射到已知身份中的一个,除非后处理步骤就位,通常涉及一些置信度测量的阈值。但即使FD是正确的,仍然存在以下问题:首先,虽然图像可能包含足够的信息来确定存在人脸,但它可能不包含足够的信息来确定它是谁的脸,无论FR系统有多好。这在FD和FR之间产生了间隙,FD的任务是确定存在面部而不管其是否可识别,FR的任务是识别它。FR系统不应尝试识别无法识别的人脸‡ 因此,我们如何衡量和解释人脸识别中人脸图像的可识别性其次,不考虑可识别性可能导致面部识别基准的误导性结果由于光学、大气或运动模糊、空间量化、不良照明、部分遮挡等导致的不可识别的面部因此,我们如何平衡发现无法识别的面孔的奖励和无法识别它们的风险?第三,未能解释面孔的可识别性考虑基于集合的人脸识别问题,其中身份不是分配给单个图像,而是分配给已知来自同一身份的一小部分图像这些可以一个最佳的(贝叶斯)FR系统将放弃FD并边缘化所有可能的位置和形状,这显然是棘手的。但是,以面孔的存在为条件,而不是将其边缘化,并不是唯一的问题:还有另一个潜在变量,即“可识别性”,它没有被考虑在内,而是被财务报告假设为真。3425图1.使用t-SNE [27],来自IJB-C数据集(彩色聚类)的不同人脸的超球体嵌入[38]被可视化为面积与可识别性成比例的圆圈随着图像被人为地扰动,变得越来越不可识别,它们的嵌入迁移到一个共同的集群(橙色正方形)。这种“无法识别的身份”(UI)在第2节中描述。2.2.1并与可识别嵌入物的质心(黑色五角星形)不同。注意人脸检测置信度(C)和基于嵌入的可识别性得分(R)之间的差异。前者是人脸检测器的输出,测量图像包含人脸的可能性,而后者测量人脸是否可以识别。可以是视频的帧,其中一些帧受到运动模糊或部分遮挡的影响使用所有可用的数据似乎只能提高决策的质量然而,均匀平均并不考虑与集合的差异以保证最佳性能。因此,假设我们有一个可识别性的衡量标准,我们应该如何在基于集合的人脸识别中组合图像?1.1. 主要假设和经验观察上述三个问题表明,需要明确地将“可识别性”表示正如FD的情况一样,边缘化是不切实际的。相反,我们假设可识别性可以间接量化。然后,可以使用可识别性的度量来完成FR的假设空间,有效地为不可识别的身份添加额外的类别,类似于开集分类。对可识别性的估计也将整体FR结果。最后,它将允许在基于集合的人脸识别中对不同样本进行适当的加权。因此,可识别性和添加不可识别的身份(UI)类将解决介绍中提出的问题。但什么是无法辨认的身份?它是一个实际的身份,还是只是所有已知身份之间决策边界如果我们把每个人的脸都嵌入一个com中, 紧凑度量空间(例如超球面)扰动图像直到其不可识别为止,从而将对应嵌入移动到决策边界附近所以,这是原因-图2.在人脸聚类过程中,通过基于距离的聚类方法将具有低可识别性分数的人脸分组为一个聚类(左),与具有已知身份的人脸聚类(右)进行比较。我们将前者称为无法识别的身份集群(UI)集群。UI集群包括受到遮挡、光学或运动模糊、低分辨率、较差照明等影响的图像。因此,UI的聚类不仅仅是由于视觉相似性。能够预期UI的嵌入沿着决策区域的边界分布,彼此没有特定的关系:当扰动时,远距离身份将变成远距离UI。相反,我们观察到以下现象:当在没有任何UI的情况下训练FR系统,并使用所得嵌入来聚类身份(可识别的和不可识别的)时,UI在表示空间中聚类在一起,尽管是不同身份的不可识别版本,否则这些身份可能在表示空间中很远。这种现象,如图所示。1,在很多层面上都是反直觉的:首先,UI并不分布在不同身份之间的边界附近,而是彼此靠近而远离相应的身份。这种情况不会对UI之间的距离造成任何损失-其次,这种现象不仅是由于UI的“低质量”图像在视觉上与运动模糊图像形成它们自己的集群的其他领域不同,与低分辨率集群不同,这里的UI集群是高度异质的,具有表现出遮挡、光学或运动模糊、低分辨率、差照明等的图像.因此,UI的聚类不仅仅是由于视觉相似性。这些现象的例子如图所示。2、第二。2.2.1.我们推测,这种行为是特定于FR,这是一个细粒度的分类任务,其中滋扰可变性可能会导致粗粒度的扰动,移动相应的样本的域。我们现在已经准备好实现主要目标:利用上面的关键经验观察来利用无法识别的人脸来提高人脸识别。这种现象与已知的低质量图像的表示向线性嵌入空间的原点的坍塌无关[29],因为这里的嵌入被限制在超球面上。3426∝|联系我们1.2. 相关工作和贡献人脸识别的文献是庞大的;由于认识到我们可能会忽略其他重要工作,因此我们必须将我们的综述限制在最密切相关的方法上。像大多数人一样,我们使用深度神经网络(DNN)模型来计算我们的嵌入函数,将图像x和边界框b映射到(伪)后验得分log(xb)logP(y x,b),其中y1,. . .,K表示搜索情况下的身份,并且K=2用于验证[9,11,20,43,30,33,25,39,49,26,41,19]。我们的工作是-有助于理解图像质量对人脸识别的影响:一些明确建模的人脸聚合图像质量最近,[15,16]开发了面部质量评估工具和方法[36],对数据不确定性进行建模的概率表示[35,2,34],以及使用子嵌入显式处理质量变化[35]。我们的贡献有三个方面,与导言中提出的三个问题相对应1) 我们提出了一个可识别性的措施,杠杆年龄的存在,一个单一的UI集群的学习嵌入。The2) 我们使用ERS来减轻对FD和FR使用不同数据集的不利影响。这导致在FAR= 1 e-5(表1)的单图像人脸识别中58%的错误减少,而不影响检测器的性能。3) 我们提出了一种聚合方法,基于集合的人脸识别,通过简单地计算相对于ERS的加权平均值,并报告24%的错误减少(在FAR= 1 e-5的IJB-C)相比,均匀平均。我们强调,无法识别的面孔仍然包括在评估和改进是 由 于 建 议 的 匹 配 方 法 使 用 ERS ( 第 10 节 ) 。2.2.2)。1.3. 对偏见和公平的与任何数据驱动的算法方法一样,由于训练集的分布,经过训练的FR系统会受到统计偏差的影响,并且更一般的算法偏差会受到模型选择、推理标准、优化方法和接口的影响。除了这些外部因素,在实现任何算法或收集数据集之前,可能存在固有的偏差来源:光与物质相互作用的方式取决于材料的次表面散射特性。因此,成像工具的次优校准可能会影响任何视觉系统的成像能力。此外,服装、化妆品和配饰会通过造成面部特征的遮挡而影响可识别性。因此,我们预计,图3. 人脸验证准确性可能会受到严重影响基于IJB-C模板的人脸验证基准测试结果证明:左边的x轴表示扰动水平从低到高,y轴表示FRR@FAR= 1 e-5,右边是相应的图像。扰动类型用颜色编码。UI将不代表群体的无偏采样,并反映场景、光源、传感器和捕获方法的物理和现象学此外,可识别性基于嵌入的统计特性,这受到通常的数据和算法偏差的影响。目前尚不清楚如何平衡UI中的不同人群。我们将这些重要而微妙的问题推迟到许多关于偏见和公平性的研究中[1,40,46,4],并专注于如何处理可识别性的正交问题,而不管识别使用什么出租或系统。2. 人脸识别为了在人脸识别系统的背景下考虑人脸可识别性,我们首先研究了人脸可识别性下降对FR准确性的影响,并揭示了为什么考虑输入数据可识别性很重要。然后,我们提出了一个衡量的人脸识别依赖于人脸嵌入模型。通过考虑FR预测决策的可识别性度量,我们提出了减轻不可识别人脸对FR系统的损害2.1. 观察可识别性UI聚类在一起的观察结果可以使用IJB-C数据集中8个随机抽样名人的图像上的人脸嵌入[38]来我们通过增加高斯模糊、运动模糊、遮挡等来扰动图像来合成UI图像。嵌入的t-SNE可视化如图所示。1,其中可识别的面部形成与其身份相对应的单独的集群,但是随着它们变得越来越不可识别,它们不分布在身份之间的边界周围,也不分布在其质心周围,而是分布在不同的集群(UI集群)周围。3427−E ∈R··图4.来自IJB-C数据集的样本图像,通过基于嵌入的可识别性分 数 ( ERS ) 分 组 : 高 ( >0.95 ) 、 中 ( 0.7 0.8 ) 和 低(0.6)。低ERS的图像即使对于人类观察者也难以识别。为了验证这一结果,我们对数据集进行了大规模的人脸聚类[6],其中有人脸或非人脸的人工或自然为了举例说明人工LR图像,我们从DeepGlint [7](一个人脸嵌入训练数据集)中提取了10K张人脸的子集我们随机应用高斯模糊、运动模糊、分辨率降低、旋转、仿射变换或遮挡来破坏1K的面部。在使用HAC算法[6]对归一化特征运行人脸聚类之后,出现了UI聚类。集群的大小比所有其他集群大两个数量级以上。对于自然LR图像,我们在WIDERFace [48]数据集上运行由最先进的FD模型检测到的面部作物聚类。同样,我们得到一个异构的集群,仅包括无法识别和视觉上不同的面孔。与身份无关的UI图像紧密地分布在一个集群中,并且远离基于身份的集群。这证实了两种典型类型的面部质量相关的错误,在FR报告在几个先前的作品[2,34]:不同ID的低质量面部之间的假阳性匹配以及相同ID的高质量面部和低质量面部之间的假阴性。人脸数据集上的聚类结果令人惊讶,因为低质量图像(例如,质量降级的ImageNet数据库)通常倾向于按外观聚类:模糊图像形成与暗图像和运动模糊图像等不同的簇。我们推测UI的存在与人脸域的细粒度性质有关,因为我们发现类似的现象也出现在其他细粒度识别任务中,如人物重新识别和时尚检索。UI对下游FR任务有什么影响?为了量化这一点,我们在IJB-C人脸验证基准中向图像添加了可识别性损坏(高斯模糊,降低分辨率和线性运动模糊),并在图中显示了错误率的变化3.第三章。我们观察到一个明显的通过测量它们到UI的距离来测量可识别性,并将可识别性因素纳入面部识别预测,如我们在第二节中详细介绍的那样。2.2.1.2.2. 可确认性基于到UI聚类中心的距离可以作为人脸识别能力的度量的假设,我们使用距离作为嵌入可识别性得分(ERS),其不需要额外的训练也不需要注释,并且可以容易地结合到单图像和基于集合的人脸识别中。2.2.1嵌入可识别性评分我们将嵌入可识别性得分(ERS)定义为嵌入向量与UI图像的平均嵌入之间的距离。UI图像可以通过人工降低常规人脸图像的可识别性来获得,例如来自人脸嵌入模型训练数据集的人脸图像,或者对由自然无法识别的人脸组成的野生人脸检测数据集进行聚类,例如WIDER- Face [48],并将所得的UI聚类(参见第二节中的详细信息)。3.3)。UI图像的归一化平均特征fUI,我们称之为UI质心(UIC),用于表示UI。嵌入fi的ERSei由下式给出:ei= 1 −fUI,fi.(一)我们在图中说明了ERS和识别率之间的相关性。4通过从IJB-C数据集中获取图像并按ERS分数对其进行分组。ERS降低伴随着面部质量变化,例如遮挡失真、较大的姿势和增加的图像模糊。2.2.2单图像识别人脸验证的目的是确定两个人脸图像x1和x2是否属于同一个人。它们有对应的真实身份标签y1和y2。面部嵌入模型将输入面部图像xi表示为特征向量fid。在不考虑模糊能力的情况下,两个图像来自同一个人的估计概率通常p(y1=y2|x1,x2)=s(f1,f2).(二)这里,s(i)是余弦相似性函数,并且y(i)是xi的估计的身份标签,其在实践中不被计算。 然后,基于错误趋势随着更多的损坏而增加。这显示了在识别中不考虑图像的可识别性的风险,并呼吁采取缓解解决方案。幸运的是,UI远离嵌入空间中可识别的的事实也表明了一种方法,在我们的上下文中,可识别性是依赖于观察者的,其中观察者可以是人类或算法。虽然当我们降低面部图像时,人眼无法识别的面部仍然可以被算法识别,但我们根据经验发现,根据手动检查添加极端噪声可以在基准测试3428j=1R → R我|Il|ilL我l=1我--本文件载有或利用了下列数据联系我们||取决于概率是否高于经验设定的阈值τ。为了考虑ERS,我们允许系统在e1或e2低于阈值γ时预测当x1或x2的ERS较低时,我们观察到可识别性较低。不能可靠地确定它们之间的相似性以预测它们是否属于同一ID。在应用中,可以选择对不确定的案件采取进一步行动。例如,在我们对IJB-C协变量检验的实验中,由于错误匹配的经验风险,我们选择将所有不确定的病例预测为不属于同一个面部识别旨在告知表示为fi的一个查询图像xi是否属于图库中表示为g j N的N个索引身份之一。在这里,我们假设画廊有大部分可识别的图像。在不考虑可识别性的情况下,决策函数S(Rd)→ [0,. . . ,N]是S(fi;{gj})=1[maxjs(fi,gj)≥τ]·arg maxj=1,.,Ns(fi,gj)(3)其中maxjs(fi,gj)指示最大相似性得分或搜索顶部检索。 当与任何图库图像的最大相似性得分高于阈值τ时,查询具有正匹配。 对于ERS,决策函数变为S′(fi;{gj})= S(fi;{gj})1(ei≥ γ).(四)同样,当ei小于γ时,它变成不确定的情况,我们预测不存在正匹配。如果不保证图库图像大多数是可识别的,则ERS可以被应用于拒绝低于γ的检索图库图像。2.2.3基于图像集的人脸识别在基于集合的人脸识别中,我们有先验知识,即每个集合或模板[28]包含属于单个人的一个或多个人脸图像。基于集合的人脸识别通常也包括人脸验证和人脸识别。我们首先对每一个包含图像xl作为fl的集合θ i中的每一幅图像使用嵌入模型提取特征向量|θi|其中θi是θi的基数。然后,将特征向量聚合成一个特征向量fi。在聚集之后,处理与在单个图像情况下相同。我们设计了一个由每个图像的ERS加权的聚合函数,图5.在不同设置下,在IJB-C模板上进行基线(平均池化)和我们的方法(ERS)之间的成对性能比较培训设置:参考( R101 , CosFace , DeepGlint) , SC- Arc ( R101 , Sub-center Arcface , DeepGlint ) , Center ( R101 , Soft-max+Center , DeepGlint ) , L2-Softmax ( R101 , L2-Softmax , Deep-Glint ) , IMDB ( R101 , CosFace ,IMDB),ResNet34(R34,CosFace Loss DeepGlint).其中fi和ei表示聚合的特征向量,并且针对集合θi的ERS,w:+表示基于ERS的加权然后可以如在单个图像情况下那样使用聚合的特征向量。我们讨论了消融研究中权函数的选择。3. 实验我们在多个基准上检验ERS在人脸识别中的有效性。我们考虑两种人脸图像质量评估方法作为基线:FaceQnet [16]和SER-FIQ [36]。在基于集合的人脸识别中,我们将基于ERS的聚合函数与其他基于集合的识别方法相结合:[2019 - 04 - 17][2019 - 04 - 17][2019 -04][2019 - 04 - 17][2019 - 04][2019 - 04 - 17][2019 - 04 -19][2019 - 04][2019 - 04 - 19][2019 - 04 - 19][2019 -04][2019 - 04 - 19][2019 - 04 - 19][2019 - 04 - 19][2019 -04][2019 - 04][2019 - 04 - 19][2019 - 05][2019 - 05][2019- 19][2019 - 05][2019 - 19][2019 - 19][2019 - 19][由于篇幅所限,我们在补充材料中分享我们对ERS的初步偏倚分析。我们在模型训练和评估中使用深度学习框架MXNet[3] 。 我 们 使 用 Cos- Face [38] loss , ResNet-101(R101)[14]骨干和DeepGlint-Face数据集(包括MS 1M-DeepGlint和Asian-DeepGlint)[7]训练人脸嵌入模型。HAC算法[6]用于聚类提取的嵌入并生成UI聚类。我们选择阈值γ=0。通过TinyFace [42]基准的交叉验证,ERS为60评估数据单张图像和基于集合的人脸识别实验在IARPA Janus Benchmark-C(IJB-C)[28]平台上运行。我们对IARPA Janus Benchmark-C(IJB-C)进行了评估[28]。IJB-C数据集套件包含野外名人媒体,包括照片和视频,(英)f我我l=1L 我埃莱湖我我多个预定义的基准协议。我们雇了四个(五)来自IJB-C的方案:1)IJB-C协变量面验证-f=el,e=、|θ|在这项工作中,我们只处理口述查询在图库中没有匹配是允许的,因为这是真实世界FR系统中最Li3429常见的用法。情报高级研究计划活动(IARPA):Bench-Mark C(IJB-C)数据详见Face Challenges主页。有关详细信息见https://nigos.nist.gov/datasets/ijbc/request。3430−−表1. IJBC协变量验证基准上的可识别性条件面部验证的比较。我们与FaceQnet [16]和SER-FIQ [36]进行比较,作为面部识别测量的替代方案。IJB-C测试10:用于基于集合的视频面部搜索的具有全运动视频面部搜索的野生探测器。值得注意的是,IJB-C测试10包含具有强运动模糊的视频帧,形成具有不可识别视频面部的FR测试床评估指标方法的性能是在两个标准的人脸识别测试案例中测量的:1:1验证和1:N搜索。对于人脸验证,我们以一组错误接受率(FAR)来测量错误拒绝率(FRR,也称为1对于面部搜索,我们测量假阴性识别率(FNIR,或1真阳性识别率)在不同的假阳性识别率(FPIR),以及前K精度。3.1. ERS在基于单幅图像的人脸验证中的IJB-C协变量测试协议对基于单个图像的人脸验证进行基准测试。在表1中,我们在此基准上评估了我们的方法 ,并与 Face-Qnet [16]和 SER-FIQ [36]进行 了比较,作为可识别性测量的替代方案。在相同的嵌入模型下,与不考虑可识别性相比,使用ERS作为可识别性度量,在FAR= 1 e-5时,误差减少了58%另一种可识别性测量FaceQnet无法在所有阈值上改善基线,SER-FIQ可以帮助减少错误,但效果较小。3.2. 基于集合的人脸识别我们使用ERS评估基于集合的人脸识别,如第二节所述。2.2.3.基于IJB-C模板的人脸验证和搜索的结果如表2所示(顶部)。我们在基于集合的基准测试中采用了媒体池[5]。我们将基于ERS的方法与不考虑可识别性的简单平均基线(AvePool)进行了比较。我们还比较了我们的方法与其他方法开发的基于集合的人脸识别。可以看出,该方法显著地降低了基线的识别错误.我们的结果是可比的或优于其他复杂的方法开发的基于集合的识别。我们还在IJB-C Test10基准测试中评估ERS,以在野外视频上测试我们的算法,并实现表2.基于IJB-C模板的验证的基准结果。上图:我们比较了使用ERS进行聚合与平均嵌入(AvePool)和其他面部聚合方法的基线。结果报告在不同的FAR水平。我们报告错误率是为了更好地说明方法之间的差异底部:ERS应用于最新的次中心ArcFace模型。平均池基线和基于学习的方法NAN [47]进行比较。结果总结于表3中。可以看出,虽然从图像中获得,但ERS也能够提高对视频数据的识别精度。改进最先进的面部嵌入模型。图1我们使用Cosface [38]嵌入来说明UI集群UI聚类现象并不局限于该嵌入模型。我们根据经验发现,多个其他人脸嵌入模型具有类似的行为,尽管它们的损失函数,训练数据集的大小和骨干架构不同。我们推测,UI集群的存在可能是由于人脸识别作为一个细粒度的分类任务的性质。由于ERS对于任何人脸嵌入模型都很容易获得,而无需额外的训练或注释,因此我们测试将ERS应用于在不同设置下训练的多个最先进的人脸嵌入模型,包括(1)损失函数设计:次中心ArcFace [9],Softmax+Center Loss[43]和S2-Softmax Loss [31] ;(2)训练数据集:IMDB[37] 和 DeepGlint- Face; ( 3 ) 主 干 网 结 构 : ResNet-101、ResNet-50和ResNet-34 [14]。IJB-C人脸验证基准测试的结果如图所示。5.我们在所有测试模型上观察到一致的误差减少,包括在FAR=1 e-5时在次中心ArcFace的强基线上减少10%的误差[9]。完整结果见表2(底部)。这表明ERS可以作为现有人脸识别系统的简单插件,以减少识别错误。3.3. 消融研究生成UI质心。UI质心(UIC)是我们基于ERS的方法的关键组成部分我们探索两种方法来获得UI图像。第一种是直接的如在第二节介绍。2.1,我们使用以下技术严重干扰了来自训练数据集DeepGlint的1K随机采样人脸的可识别性:梅霍德FRR@FAR验证1e-61e-51e-41e-3基线0.69760.45400.17470.0714FaceQnet[16](γ = 1.00)0.69760.45400.17470.0714SER-FIQ[36](γ = 0.(83)0.40270.20230.11640.0717方法骨干列车数据IJB-C Veri FRR@FAR1e-51e-41e-3多重[45个]R50VGGFace20.22900.13800.0730DCN [44]R50VGGFace2-0.11500.0530图标. [12个]美国有线电视新闻网[31]MS1M+UMD0.12700.07700.0470PFE [34]64层CNNMS1M0.10360.06750.0451NAN [47]R64 Cosface深瞳0.10230.05820.0347DUL [2]R64MS1M0.09770.05390.0530AvePoolERSR64 Cosface深瞳0.12620.09290.06390.05470.03320.0312AvePoolERSR101SubCenterArc深瞳0.05920.05280.04060.03630.02710.02453431表3. IJB-C测试10:Wild Probe with Full Motion Video FaceSearch结果,使用在Deep- GlintFace上训练的骨干ResNet101进行测试,带有CosFace [38]损失。与基线平均池和在相同骨干模型上训练的NAN [47]相比,我们基于ERS的聚合实现了最佳性能。聚类数据集DeepGlint 1KWIDERFaceFDDBUI聚类平均距离0.39070.32130.4344UIC到FDDB的0.05600.05260.0000带ERS FRR@FAR=1e-50.06230.06270.0625表4.基于IJB-C模板的人脸验证中不同数据集生成的UI与ERS结果的比较。在没有ERS的情况下,FAR= 1 e-5时的FRR为0.1140。PDS表示受干扰的DeepGlint子集。图三.在第二种方法中,我们从人脸检测数据集中自动选择UI图像,例如WIDERFace和FDDB [18]数据集,其中自然存在低识别率的人脸。在人脸聚类之后,我们发现最大的我们在表4中比较了从DeepGlint 1K,WIDERFace和FDDB [18]生成的UIC,其中我们列出了每个UI集群的平均余弦距离,生成的UIC之间的比较以及相关的聚合结果。可以看出,我们的方法对UI图像源不敏感,无论是人工的还是自然的。这也与我们观察到的异构UI图像聚集在一个集群中一致。我们的结论是,它是可能的,以获得UIC从不同的数据分布,其中有低识别率的图像。当跨不同的嵌入模型进行聚类时,我们发现UI集群中的结果图像具有显著的重叠。进一步的实验证明,从一个嵌入模型生成的一组固定的UI图像可以被其他模型重用,以获得UIC。事实上,我们从一个基于Res101的Cosface模型中获得了一个UI集,并将其重用为图3中的所有其他模型生成UIC。5和表3。无论是直接法还是聚类法,该方法的应用都是简单有效的。加权函数w的选择。在基于集合的人脸识别中使用ERS需要选择加权函数w。我们在IJB-C基于模板的人脸验证基准测试中比较了w我们还比较了两个特殊的选择,平均图像与前1%和前10%的ERS在一组。从表5中我们可以看到平方函数达到了最好的效果。我们在其他实验中使用它,没有特别说明。表5.基于IJBC模板的人脸验证基准上不同ERS聚合方法之间的比较,使用Cosface训练的Basenet ResNet101 [38]。FRR@FAR1e-51e-41e-31e-2基线平均池0.11400.04680.02640.0141ERS(加权池)0.06270.03930.02430.0140ERS增强型AvePool0.06440.04100.02550.0144表6.在IJB-C基于模板的人脸验证基准测试中,比较平均池化、ERS加权池化和具有ERS增强特征的平均池化,basenet是使用Cosface损失训练的R101。3.4. 提高能源效率较高的ERS通常与具有较好的可识别性的面孔相关联。这是有趣的探索,我们是否可以增加ERS的一个给定的图像。 我们提出了一个天真的方法的结果:通过删除其在UI表示的方向上的投影来增强面部特征,以产生高ERS(e= 1)特征。形式上,我们取原始特征嵌入f,单位向量fUI,并计算特征vid=f−f,fUIfUI.(6)对图像进行归一化处理,得到ERS增强后的特征fid. 从表6中,我们可以看到具有ERS增强特征的平均池化以较大幅度超过基线,并且实现了与ERS加权聚合相当的结果。这表明增加嵌入ERS可以在基准测试结果中产生有意义的差异,并且通过更先进的技术实现更高的ERS可能会进一步提高识别精度。3.5. UI集群受最近在分布外检测[17]方面的工作的启发,我们对训练期间UI图像嵌入的演变进行了探索性研究。我们分析了三组图像内和之间的嵌入向量的成对余弦距离:(a)来自已知UI集群的UI图像,(b)来自相同身份的可识别面部,(c)来自不同身份的可识别面部。在训练过程中,我们在每个epoch之后计算集合(a)上的UIC。我们测量这些中间UIC到最后一个历元后获得的UIC的距离我们对10次独立训练的结果进行平均,并将其显示在图中。6.我们可以看到,随着epoch训练次数的增加:(1)UI集群在训练过程中很早就出现了。它的质心在模型训练过程中会发生显著变化。(2)UI图像和可识别的id之间的距离很高,类似于来自不同id的人脸之间的距离(我们称之为方法FNIR@FPIR鉴别秩N误差1e-41e-31e-21e-115AvePool0.86070.68400.41290.20290.15640.1137NAN [47]0.85660.66970.37260.19560.15180.1100ERS0.82990.60960.30540.18070.14570.1055Weisoftmax(ei)e2我eiei集选择N/AN/AN/A前1前10%FRR@FAR 1e-50.06840.13930.06270.21960.20253432图6. 上图:训练w.r.t.期间UI质心的轨迹最后的UIC模型。底部:UI图像之间的距离比较,来自同一身份的可识别面孔和来自不同身份的可识别面孔。远距离组)。(3)UI图像之间的距离保持在低值,类似于来自相同id的面部的距离(低距离组)。(4)在高距离组和低距离组之间,可以观察到明显的间隙。3.6. 其他视觉任务的探索作为一个扩展的研究,我们探讨聚类的人重新识别(re-id)和图像检索,看看低识别率的聚类现象是否存在,以及我们的方法是否可以相应地应用。类似于图3,我们在Market 1501 [50]数据集上执行re-id嵌入聚类,并且对于部分扰动的Deepfashion In-Shop数据集也是如此[24]。我们观察到低recc- ognizability的杂项样本聚集在一个集群类似的面孔。在设计了相关的ERS措施后,可以从图1中观察到7和图8,与我们在面部上的发现一致,ERS也与输入图像可识别性相关。由于篇幅的限制,我们在补充材料中展示了更多的4. 结论与讨论人脸识别受到一系列可能影响其结果质量的问题的影响。虽然我们承认统计和算法偏差的存在和重要性,但在本文中,我们关注的是甚至在收集任何数据集之前就存在的其他问题,这些问题会影响没有经过数据训练的系统。简单地说,一些图像包含足够的信息来确定存在人脸,图7.来自Market1501的图片按ERS分组。可识别性与ERS之间可以观察到正相关。图8.来自Deepfashion的图像与合成腐败分组ERS。可识别性与ERS之间可以观察到正相关但不足以确定是谁的脸这种差距是由“可识别性”的概念捕获的,其受对象的物理性质(次表面散射和色素沉着、发型、配饰、化妆的遮挡)的影响,但也受场景的外在性质(例如,光源的性质和质量)、传感器的物理性质和由相机软件执行的预处理算法、成像条件(例如,大孔径/高捕获时间导致运动模糊、有限景深和所导致的光学模糊等。我们还承认,对于检测的级联故障和检测到的面部的可识别性的原则性解决方案由于这是非常不切实际的,我们解决了可识别性的中间推理,通过一个公认的特设措施的建议,建议由不可识别的身份的明显聚类。由于上面提到的问题,并且也通过经验验证,UI是高度异构的集群。它包括受到广泛变化的干扰的图像,不像其他领域,例如大规模图像分类,其中光学模糊图像形成与运动模糊图像或低分辨率图像分离的聚类。考虑到所有应有的警告,我们观察到,通过我们提出的公认的无原则方法明确地解释可识别性,我们仍然在标准公共基准上实现了人脸识别中的显著错误减少,并且有效地允许系统在开放集设置中操作,而没有成熟的开放宇宙训练的复杂性。3433引用[1] Guha Balakrishnan , Yuanjun Xiong , Wei Xia , andPietro Perona.面向人脸分析算法中偏见的因果基准测试。基于深度学习的人脸分析,第327-359页。斯普林格,2021年。[2] 常杰,蓝中浩,程昌茂,魏以辰。人脸识别中的数据不确定性学习。在IEEE/CVF计算机视觉和模式识别会议的论文集,第5710-5719页[3] Tianqi Chen , Mu Li , Yutian Li , Min Lin , NaiyanWang,Minjie Wang,Tianjun Xiao,Bing Xu,ChiyuanZhang,and Zheng Zhang. Mxnet:一个灵活高效的异构分 布 式 系 统 机 器 学 习 库 arXiv 预 印 本 arXiv :1512.01274,2015。[4] Alexandra Chouldechova,Siqi Deng,Yongxin Wang,Wei Xia,and Pietro Perona.人脸识别中的无监督和半监督偏差基准测试。2022年。[5] Nate Crosswhite,Jeffrey Byrne,Chris Stauffer,OmkarParkhi,Qiong Cao,and Andrew Zisserman.用于人脸验证和识别的模板图像和视觉计算,79:35[6] 威廉·戴和赫伯特·埃德尔斯布伦纳。凝聚层次聚类方法的有效算法。Journal of classification,1(1):7[7] 深闪http://trillionpairs.deepglint.com/overview。[8] Jiankang Deng , Jia Guo , Tongliang Liu , MingmingGong,and Stefanos Zafeiriou.副中心弧面:通过大规模噪声网络人脸增强人脸识别。在2020年IEEE欧洲计算机视觉会议论文集[9] Jiankang Deng , Jia Guo , Tongliang Liu , MingmingGong,and Stefanos Zafeiriou.副中心弧面:通过大规模噪声网络人脸增强人脸识别。在2020年IEEE欧洲计算机视觉会议论文集[10] Jia Guo , Xue Niannan , and Stefanos Zafeiriou.Arcface:用于深度人脸识别的附加角度余量损失。在CVPR,2019年。[11] Jiankang Deng,Jia Guo,and Stefanos Zafeiriou. 弧面:用于深面识别的附加角边缘损失。2019 IEEE/CVF计算机视觉和模式识别会议(CVPR),第4685-4694页[12] Prithviraj Dhar,Carlos Castillo和Rama Chellappa。关于测量一张脸的象似性2019年IEEE计算机视觉应用冬季会议(WACV),第2137-2145页IEEE,2019。[13] 龚思学,石宜春,阿尼尔·K·贾恩。视频人脸识别:智能 特 征 聚 合 网 络 ( C-Fan ) 。 arXiv 预 印 本 arXiv :1902.07327,2019。[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[15] Javier Hernana-Ortega,Javier Galbally,Julian Fierrez,and Laurent Beslay.生物识别质量:Faceqnet在人脸识别中的应用与回顾。arXiv预印本arXiv:2006.0329
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功