没有合适的资源?快使用搜索试试~ 我知道了~
12767无约束人脸识别中的联合配准和表示学习Munawar Hayat,Salman H.汗·萨默,Naoufel Werghi<$$>,Roland Goecke<$†澳大利亚堪培拉大学,CSIRO和ANU,澳大利亚阿拉伯联合酋长国阿布扎比酋长国{munawar.hayat,roland.goecke}@ canberra.edu.au,salman. csiro.au,naoufel. kustar.ac.ae摘要深度学习的最新进展已经在流行的无约束人脸数据集上实现了人类水平的性能,包括Labeled Faces in theWild和YouTube Faces。为了进一步推进研究,最近引入了IJB-A基准,其中包括更多挑战,特别是极端头部姿势的形式。这种面部的注册是相当苛刻的,往往需要费力的过程,如面部标志定位。在本文中,我们提出了一个基于卷积神经网络的数据驱动的方法,学习同时注册和代表的面孔。我们在基于模板的无约束人脸识别上验证了所提出的方案.这里,模板包含图像和视频帧形式的多个媒体。与现有的方法,综合所有的模板媒体信息在特征级别,我们建议保持模板媒体的完整性。相反,我们表示画廊模板的训练一对休息的判别模型,然后采用贝叶斯策略,最佳融合的决策,所有媒体在一个查询模板。我们在IJB-A,YouTubeCelebrity和COX数据集上证明了该方案的有效性,我们的方法分别实现了3.6%,21.6%和12.8%的相对性能提升。1. 介绍人脸识别技术由于其广泛的应用前景,一直是计算机视觉领域的研究热点。人脸识别中的挑战与常见的面部数据干扰有关,这些干扰包括头部姿势旋转、光照变化和表情变形。在最初的日子里,面部数据是在受控环境中系统地捕获的,并开发了算法来单独解决这些滋扰[24]。 这种算法可以实现*同等贡献在受限环境中表现出色,但在现实生活中失败了。为了 推 进 非 约 束 人 脸 识 别 的 研 究 , 野 生 标 记 人 脸(LFW)[15]和YouTube Faces(YTF)[39]数据集分别于2007年和2011年发布。在其发布时,现有的方法(使用约束数据开发)在LFW和YTF上表现不佳。从那时起,人脸识别研究的一大焦点一直是在LFW和YTF上实现优异性能的算法的开发。随着深度学习的最新进展,目前最先进的算法[33,27]现在可以在这些数据集上实现人类水平的性能然而,不受约束的人脸识别仍然被认为在很大程度上尚未解决[22]。 这主要是因为LFW和YTF都有一个众所周知的正面选择偏差。具体来说,这两个数据集中的人脸图像都是使用Viola和Jones自动检测的[34],这对于非正面人脸来说经常失败。因此,YTF和LFW的最新技术水平在存在较大头部旋转和极端头部姿势时表现不佳[22,6]。在本文中,我们的目标是解决极端头部旋转的人脸识别。这种面部图像的配准是相当具有挑战性的任务,并且通常需要复杂的预处理步骤,例如界标定位和额化。我们建议自动学习面部图像配准以及特征编码,作为端到端可训练卷积神经网络的一部分。网络(SEC)3)有两个模块:用于学习一组变换参数的配准模块,以及用于学习输入面部图像的有意义特征编码的表示模块。该网络在2622个主题的260万张图像上进 行 了 训 练 [27] 。 然 后 在 IJB-A [22] , YouTubeCelebrity [20]和COX [16]数据集上对所提出的方案进行评估,以进行基于模板的人脸识别。 IJB-A基准测试特别具有挑战性,包含极端头部姿势和侧面视图的面部图像和视频帧(见图1)。4). 所提出的方法在所有评估的数据集上实现了显着的性能提升(第二节)。(五)。12768研究了在身份验证和身份识别任务下的人脸识别问题。对于验证,我们计算给定探针面的一一相似性以验证其声称的身份。为了识别,计算探针的一对多相似性,以便在登记的受试者的图库中找到其最佳 因此,与人脸验证相比,人脸识别更具挑战性。然而,在过去的几年里,无约束人脸识别在很大程度上被忽视了。这主要是因为大多数研究是由LFW和YTF数据集驱动的,并且其评估方案仅用于验证本文提出了一种基于模板的非约束人脸识别方法.模板可以包含静止图像或视频帧形式的多个异构媒体。从模板进行人脸识别在许多商业系统中是相关的(例如,联邦调查局的头号通缉犯名单),其中一个人的多个图像同时可用。虽然模板包含更多的信息,但同时也对有效利用这些信息提出了挑战与现有的方法,合并所有的模板媒体在特征级别,我们建议保持它的完整性。为了利用这些无数的信息,我们为画廊模板训练了一对多的判别模型(第二节)。4.3),并采用贝叶斯方法,该方法最佳地融合了给定查询模板的媒体的分类决策(第4.3节)4.4)。2. 相关工作通用的人脸识别系统具有三个主要组成部分:i)原始面部图像的配准,ii)配准面部的特征编码,以及最后iii)分类(验证或识别)。在现有的文献中,已经开发出单独处理这三个组件中的每一个的技术。对于配准,已经设计了2D和3D面部对准方法[27,33,1]。特征编码,最后一步是分类。任何现成的分类器都可以适用于验证或识别。与以往的工作不同,本文将配准和表示步骤结合起来.我们建议将这些作为单个网络的一部分进行学习。这避免了诸如地标定位的预处理过程,这些预处理过程不仅在计算上昂贵,而且还可能引入许多挑战,特别是在具有极端头部姿势的场景中(例如,在IJB-A数据集中)。随着图像分类深度学习的进步[23,18,13],YTF上的人脸识别性能LFW数据集已经达到人类水平[33,30,32,27]并开始饱和。为了进一步推进研究,最近引入了IJB-A数据集作为非约束人脸识别的基准。与现有的人脸数据集相比,IJB-A是相当具有挑战性的,因为它包含广泛的外观变化,特别是以极端的头部姿势和可变的图像质量的形式(参见图1中的示例)4). 自发行以来,IJB-A的性能逐渐提高。在IJB- A上表现最好的方法采用从大规模外部数据库中学习的特征表示例如,在[4,29]中使用了CNN特征与三重丢失嵌入的组合。 Chen等人[3]使用联合贝叶斯度量学习和CNN特征。从[1]中的3D姿态渲染生成的面部数据中训练了五个特定于姿态的CNN模型。在[4]中使用了来自双线性CNN架构的特征。当前在IJB-A数据集上表现最好的方法[6]使用模板自适应策略结合学习特征[27]。为了计算两个之间的相似性得分模板X和Y,它训练两个二元分类器X和Y。分类器X使用X中的媒体作为针对大的负媒体集的正类来训练。分类器Y以类似的方式训练,使用Y中的媒体作为分类器。积极的阶级X和Y之间的相似性得分为由下式给出:1X(y)+1Y(x),其中X(y)是这些方法通常会扭曲自动检测到的面部2 2在具有标准正面视图的模型面部上的界标。对于面部特征表示,描述符可以手动设计或从大规模面部数据中自动学习。局部二进制模式[25],定向子的直方图[7]和Gabor小波[42]是设计特征的一些流行示例。大多数最近表现最好的人脸识别方法使用卷积神经网络(CNN)从大量训练数据中学习特征。例如DeepFace[33]、VGG-Face [27]、FaceNet [30]和DeepID [32]。DeepFace 和 VGG-Face 基 于 常 见 的 CNN 架 构 , 而FaceNet和DeepID使用专门的初始架构。作为特征学习的最后一步,这些方法中的一些使用度量学习(例如,三元组损失嵌入[29])来学习最佳任务特定特征嵌入(例如,使用LFW和YTF数据集进 行 人 脸 验 证[33,27])。注 册 后,模板YIJB-A评估协议用于基于模板的人脸识别,其中探针和图库实例都用多个视觉项目表示。在发布IJB-A数据集之前,已经积极研究了基于图像集分类的人脸识别[40,21,2,37,41,43,9,10,11,12]。与模板类似,图像集是多个媒体(如mugshot图像或视频帧)的无序集合虽然基于模板(或图像集)的分类以易于获得的多种数据的形式提供了许多承诺,但它同时提出了源自这种数据在质量和内容方面在文献中已经提出了许多例如,在非线性流形几何上表示的模板(例如,在Grassmannian流形上的一个点[38]或黎曼李群-12769nian流形[37])或通过介质组合(例如,平均池化[8,26])。在本文中,而不是代表所有模板媒体由一个单一的实体,我们建议保持它的完整性。所提出的方案被证明是相当有效的(证明了其优越的性能,在第二。5)因为它避免了模板中包含的任何潜在信息的丢失。3. 联合注册和代表人脸与标准正面图的配准对于后续的特征表示和分类步骤是虽然最近提出的数据驱动方法可以自动学习表示人脸,但它们采用专门设计的技术进行注册。例如,DeepFace[33]在检测到的面部标志的帮助下将面部扭曲为规范的3D模型。在本文中,我们提出了学习人脸注册联合表示。为此,我们训练了一个卷积神经网络(CNN),它由两个相互连接的模块组成(图1)。2)的情况。首先,注册模块学习一组变换参数以最佳地注册面部图像。第二,表示模块,其学习注册的面部图像的区别性特征编码这两个模块连接,配准模块的输出被输入到表示模块。下面将介绍这些模块3.1. 注册模块面部图像的配准通常涉及裁剪最相关的面部区域(具有最少的背景)并对裁剪的区域应用变形操作以将其变换为规范的正面视图。这通常需要复杂的面部预处理过程(例如自动地标定位),这可能是相当具有挑战性的,特别是在存在极端头部姿势的情况下。在本文中,我们提出了一个动态的学习机制,它自动估计一组最佳的参数来空间变换一个给定的输入人脸图像。我们的方法是基于CNN的,并部署了一个空间Transformer网络[17],它有三个部分:用于回归一组注册参数的定位网络。这些参数然后由网格生成器使用,该网格生成器输出采样网格。最后,采样器将输入图像映射到生成的网格上。定位网络的架构如图所示3.第三章。 注意第一池化层实现平均池化,而其余的执行最大操作。在所有层中使用2×2像素的池化过滤器每个参数层之后是整流器线性单元(ReLU)层,除了最后的全连接(FC)层,其回归变换参数。半径。对于给定的输入图像,定位网络输出一组六个仿射变换参数,用于生成采样网格。的像素值然后将输入图像采样到网格上。这导致输入图像的仿射变换(裁剪、平移、旋转、缩放和倾斜)。然后,所配准的面部图像变成到后续表示模块(接下来描述)的输入。3.2. 表示模块为了学习面部特征编码,我们采用VGG-16 [27]。它由8个卷积层和3个全连接层组成,每个层后面都有一个或多个非线性(ReLU,池化)。VGG-16具有相对简单的架构,在YTF和LFW基准测试中表现出卓越的性能[27]。然后使用Parkhi等人公开提供的人脸数据集对完整的网络(具有两个模块)进行训练。[27]第10段。数据集有2。600万张人脸图像,共2622名受试者。为了训练,检测到的面部区域(与数据集一起提供)被松散地裁剪。裁剪的图像包含完整的面部区域,并且还可能具有一些背景。在非正面和侧面视图的情况下,背景区域的量更多因此,网络的注册模块被部署为仅聚焦于感兴趣的相关面部区域而忽略任何背景。随后的表示模块然后学习输入面部图像的区别性和区分性特征编码 为了有效训练,我们通过VGG-Face模型初始化表示模块的参数[27]。通过单独训练初始化配准模块的参数,输出恒等变换参数。在学习网络参数后,我们将表示模块的第一个全连接层的输出作为输入图像的特征编码。4. 基于模板的人脸识别模板是同一主题的一组图像或视频帧。模板中的人脸识别在观察的历史记录可读的情况下是相关的它直接适用于许多现实世界的商业系统,其中一个主题的多个注册同时可用。例如,在法医搜索场景中罪犯的面部照片历史虽然模板中的大量异构数据可以用于增强人脸识别性能,但它同时引入了许多建模挑战以有效地利用这些信息。为了利用这些信息,我们建议为图库中的每个注册主题学习一个判别模型,然后部署一个12770培训阶段测试阶段图1:所提出的方法的框图在训练过程中,在从深度模型进行联合配准和特征编码之后,学习特定于类别的判别模型在测试时,这些模型被用来计算与登记的主题的相似性,并结合个人的决定,以获得一个类别标签。大规模人脸数据集联合注册和表示学习其与登记的图库模板之一的最佳匹配,或者确定Tq是否未登记在图库中。4.2. 模板媒体表示给定模板Ti={xm}:m=1· · ·M,我们通过将每个媒体xm通过我们的图2:关节面配准和表示。训练的卷积神经网络模型(如第(3)第三章。表示模块的第一个全连通层的输出被认为是特征编码224 × 2247 × 7@207 × 7@205 × 5@50@6模板媒体。给定多个模板媒体编码,在文献中提出了不同的策略来有效地对它们进行建模。他们中的大多数都能为所有的模板媒体找到一个合适的单一实体表示. 例如,模板中的所有图像和视频帧都可以由几何表面上的一个点表示,例如格拉斯曼流形[36]或黎曼流形的李群[37]。模板媒体也可以通过简单地取所有媒体编码的平均值来表示[26,8]。{0,1}{2,2}{0,1}输入池化卷积转换器FC输出{padding,stride}Filtersize:× @Numberoffilters图3:注册模块中的本地化网络。探针模板的评分级融合策略。下面是细节4.1. 问题描述对于基于模板的面部识别,图库包含N个模板{T1,T1,T1,. . . TN}对应于N个入组受试者。 每个模板Ti={x1,x2,. . . xM}具有M个媒体(媒体是图像或视频帧)。注意每个入组受试者的M是可变的。在测试时,我们给出了一个查询模板Tq,任务是找到在本文中,而不是找到一个单一的实体表示异构模板数据,我们建议保持媒体编码的完整性。这有助于避免丢失模板中包含的任何潜在信息。为了最佳地使用图库模板中包含的大量数据,我们建议为图库中的每个注册受试者学习个人特定的模型(详情请参见4.3)。 为了在分类时最佳地使用探针模板数据,我们采用融合策略(细节见第12节)。4.4)。在我们的实验评估中(Sec. 5.2),我们表明,保持模板媒体编码完整是相当有效的,并导致显着的性能提升。4.3. 个人特异性判别模型对于图库中的每个注册受试者,我们学习一个判别模型。为此,我们训练了一个简单的one-vs-rest二元SVM分类器。具体来说,为了学习一个人的模型参数,我们考虑特征en-探针模板输入SVM模型输出决策融合类别标签报名+特征编码计算相似度报名+特征编码学习one-vs-restSVMs脸部登记变换参数定位网络图库模板VGG-16 CNN12771JJ我我我我我j,dij j jjπm将该人的所有模板媒体的编码视为正类,而将其余主题的编码视为负类。然后训练一个二进制SVM来学习一个超平面,β:p(πm|αm)= Dir(πm; αm)(4)p(p|β)= Dir(p; β)(5)两个班级。这里,αm=[αm. . . αm ]和β =[β1. . . βN]。此外,本发明还j j,1j,NminW1wTw+C2Σ。Max不.0, 1−twTxtΣΣ2、(1)定 义 了 π={πm : j∈[1 , N] , m∈[1 , M]} 和 α={αm:j ∈ [1,N],m ∈ [1,M]}。然后,我们可以定义未观测变量的联合后验概率以观察到的类决策为条件:其中,t={1,-1}。按照这个过程,我们学习一组模型参数{wi}:i = 1。. . 图库中入组的受试者数量为N。4.4. 查询模板分类.YNp(y,p,π|(d)yi=1ΣYMMiyi,dim=1p(p|β)p(π|α)(六)在分类时,我们给出一个查询模板Tq={xm}:m=1· · ·M,其中xm是模板中第m个任务是找到Tq使用我们学习的个人特定模型{wi}:i=1· · ·N,我们可以计算第m个模板媒体的决策值dm,第i名入组受试者。这是由原始BCC模型[19]利用吉布斯采样用于计算昂贵且收敛缓慢的推理。为了实现有效的近似推断,我们使用Simpson等人的变分贝叶斯(VB)公式。[31]它的工作原理类似于期望最大化(EM)算法。 VB方法和-解析逼近后验分布p(y,p,π|d)、(定义在Eq.6)通过更简单和易处理的分布.1/ 1+实验Σ−WTxmq(y,p,π),其对其变量进行如下因式分解:dm=.Σ(2)q(y,p,π)=q(y)q(p)q(π)(7)iNi=11/ 1 + exp−WTxm其中,上面的过程给了我们一组决策值{dm}:m ∈ [1,M],i =[1,N]. 为了将这些结合起来,ΣNq(yi=j)=Ey[yi=j]=ρi,j/ρi,k(8)对于查询模板中的所有媒体的多个决策,我们探索两个方案。首先,简单的决策值平均方法,其中给定{dm},查询模板Tq的预测类标签yq由下式确定,S. t. ρi,j=exp(Ep[lnpj]+k=1ΣMEπ[lnπm])(9)m=1q(p)yq=arg maxdm.(三)嗯嗯iiq(πj)<$Dir(πj;αj)(11)M其次,我们采用贝叶斯方法,其中超参数更新如下:贝叶斯分类器组合(BCC)模型在[19]中提出。对于每个模板媒体xm,我们有一个隐藏的-ΣΣNαm=αm+ΣNδ<$dm=k)Ey[yi=j]dentrue标签yi∈[1,N],将其与入组受试者匹配。我们假设条件独立性之间的de-j jii=1Σ ΣNΣNk=112772我我JJ我j,kJβ)j,dβ)(α)α)j,dN给定实际标签yi的情况下, 让我们假设yi是由多项分布产生的,其参数为-用p:p(yi=j)表示这些端点|p)=pj,其中pj表示-β=β+i=1Ey[yi]=k]k=1(十二)表示类概率(或比例)。类似地,可以假设每个介质的决策dm由多项分布生成,其参数为α_m,β_m表示r型参数的先验估计.使用Eq中的当前期望估计值8,我们更新了方程中的变分分布。7(E步骤)。 然后我们用πm:p(dm=k|yi=j)=πm。 注意更新等式中的期望值。8如下(M步):π m表示混淆矩阵π m corre的行。Γ′(βj)(ΣNk=1k回应每一个媒体的表达。 因此,不…每个媒体表示的犯罪能力被编码在贝叶斯模型中。参数πm和p的先验分布为Ep[lnpj]=E[lnπmm])=+Γ(βj)Γ′(αmm)我ΣNr(k=1k北卡罗来纳州k=1+Σmj,k(十三),(14)J由具有超参数α的Dirichlet分布建模πj,diΓ(αmm)我r(k=1mj,k12773图4:来自IJB-A数据集的人的样本图像。注意极端的头部姿势和图像分辨率的变化。其中,Γ(·)是用于狄利克雷分布的归一化常数的标准伽马函数决策融合的VB算法是通过迭代更新来隐藏输出变量(实际标签y)和模型参数(π,p)。5. 实验我们在三个数据集上广泛评估了我们提出的方法的性能:[22]第20话,你是我的女人,我是你的男人。对于性能评估和与现有技术的比较,我们使用累积匹配特性(CMC)和决策错误权衡(DET)曲线。这些指标在Sec.5.2. 下面,我们首先简要描述我们实验中使用的数据集。5.1. 数据集IJB-A数据集:包含在现实生活场景中捕获的500个主题(来自不同地理位置)的5712张图像和2085个视频。虽然大多数其他人脸识别数据集包含静止图像或视频帧,但IJB-A数据集包含两者。 数据集中的图像和帧在种族、原籍国和头部姿势方面表现出多样性。数据集最具挑战性的方面是极端头部姿势和可变图像分辨率引起的外观变化一个主题的几个示例图像如图所示。4.第一章在这种极端的头部旋转的存在下,自动人脸检测往往失败。因此,对数据集中的媒体进行手动注释以生成面部边界框[22]。这避免了由于在极端头部姿势存在的情况下自动面部检测失败而导致的(例如,在YTF和LFW数据集中)。IJB-A数据集发布时具有明确定义的评估方案。对于基于模板的人脸识别,提供了10个随机训练和测试分割。每个分割使用所有500名受试者的数据,其中333名受试者随机抽样到训练集中,其余167名受试者形成测试集。测试集包含探针和图库模板。为了使评价更具有挑战性,从167名受试者中随机抽取55名受试者,将其从测试集中的图库中移除。这对应于探测对象未在图库中登记的场景。将根据仅112个受试者的图库模板检索所有167个受试者的探针模板。YouTube名人[20]数据集包含从YouTube下载的47位名人的1910个视频。由于视频是在现实生活中获取的,因此人脸图像的分辨率非常低,自动人脸检测失败[34]对于许多视频。因此,我们使用跟踪[28]从视频帧中提取人脸区域。然后将提取的人脸区域重新调整为30×30像素。对于基于模板的人脸识别,我们使用五折交叉验证实验协议[14,37]。具体来说,完整的数据集是分成五等份,重叠最少。每个分割具有每个受试者的九个模板(在[37,14,2]中称为图像集),其中三个用于形成图库,而其余六个是探针模板。COX[16]数据集包含1000名受试者的4000个非受控低分辨率视频序列。为了拍摄视频,要求受试者在体育馆内自然行走,而不对他们的面部表情、照明条件和头部姿势施加任何约束。对于我们的基于模板的人脸识别实验,我们将每个视频的帧视为模板,并遵循留一策略。具体来说,每个主题的一个模板是作为探针,而其余的形式画廊。为了保持一致性,通过交换探针和图库模板来执行四次实验5.2. 结果评估指标:人脸识别的性能通常是根据累积匹配特征(CMC)曲线来评估的。CMC曲线绘制了对应于不同等级的识别率。rank-k识别率被定义为在前k个匹配中返回其图库匹配的探针搜索的百分比。对于探针不一 定 登 记 在 图 库 中 的 场 景 , 根 据 决 策 错 误 权 衡(DET)曲线来评估面部识别性能,该曲线将假阴性识别率(FNIR)与假阳性识别率(FPIR)绘制为图库中前20个候选者的相似性阈值的函数FPIR是在相似性阈值之上返回的非配对(未登记)探测搜索的比例FNIR是比例1277488.第一次约会6± 4。1960± 1。0964± 0. 八千一百。0 ±0。0[6,27]第四十六章. 1± 7。七六七。0± 3。1913± 1。一百九十八。1 ±0。5[3]第十五话6± 6。5754± 1。488. 0± 1。597. 4 ±0. 6表1:IJB-A数据集的性能评估。方法TPIR@FPIR=0.01 TPIR@FPIR=0.1 TPIR@Rank=1 TPIR@Rank=10[5]第十四章. 2± 2。734.1±3。2588± 2。2 −[35]第三十五章:一夜情3± 6。3613± 3。2820± 2。4 −[1]第五十二话075086494。7[29]第57话. 7± 9。4790± 3。390. 3± 1。297. 7 ±0。7[6]第十七话4± 4。988. 2± 1。692。8± 1。0986 ±0。3.在相似性阈值之下或在前20个等级之外返回的配对(登记)探测器搜索对于DET,我们报告FPIR为0时的真阳性识别率(TPIR)。1和0。01,其中TPIR=1−FNIR。100989694929088861 2 3 4 5 6 7 8 9 10秩图5:IJB-A数据集上的CMC曲线(颜色最佳)。IJB-A数据集上的结果:我们在表中比较了IJB-A基准上的人脸识别性能。1. 现有方法的结果见[6]。由于IJB-A数据集的标准评价方案,报告的结果具有直接可比性。我们提出的方法实现了平均秩1和秩10的识别率为96。4%和100。0%。对于存在非配偶探针搜索的评估,我们的方法实现了88的平均TPIR。6%,96。0%,对应FPIR为0。01%和0。分别为1%。与现有技术相比,所提出的方法获得了3的相对性能提升。9%(等级-1),1. 4%(排名-10),8. 8%(@FPIR=0.1)和14.5%(@FPIR=0.01)。YTC和COX数据集的结果:我们进一步验证了我们提出的方法对YTC和COX的有效性数据集。这些数据集已在文献中用于图像集分类方法的性能评估为了本文的目的,图像集可以被认为是模板,因为它包含多个图像或视频帧。在图6中,我们将我们的方法的性能与一些最近引入的图像集分类方法进行了比较。这些方法包括互 子空 间方 法(MSM ) [40]、判 别典 型相 关分 析( DCC ) [21] 、 基 于 仿 射 外 壳 的 图 像 集 距 离( AHISD ) 的 线 性 版 本 [2] 、 稀 疏 近 似 最 近 点(SANP)[14]、协方差判别学习(CDL)[37]、正则最 近 点 ( RNP ) [41] 、 集 到 集 距 离 度 量 学 习(SSDML)[43],非线性重建模型(NLRM)[9]和反向训练(RT)[10]。对于比较的方法,我们使用各自作者提供的标准实现为了对人脸图像进行编码,我们首先使用各自论文中提出的原始特征我们还评估了现有的方法与我们提出的功能。实验结果总结在图中。6表明,我们提出的方法显着优于目前的最先进的实现平均秩1识别率为90。1%和83. YTC和COX数据集上的6%。5.3. 讨论我们认为,所提出的方法的两个主要方面有助于其实现卓越的性能。 一是其强大的特征表示能力。所提出的方法学习自动注册原始面部图像,同时找到一个独特的特征表示。下面,我们通过使用现有方法对其进行评估第二,它的能力,以综合大量的信息在模板媒体与建议的决策级融合方案。我们接下来将进一步阐述这些方面。面部特征编码:为了证明我们提出的学习功能的有效性,我们评估他们与现有的图像集分类方法在文献中。具体来说,我们使用我们的方法提取的面部特征,而不是使用各自论文中提出的原始特征通过将流水线的其余部分保持用于所比较的图像集类,IJB-A数据集模板适配模板自适应+联合贝叶斯模板自适应三元组嵌入VGG人脸VGG人脸联合贝叶斯VGG人脸三元组嵌入正确回收率12775YTC和COX数据集的性能评估10080604020MSM DCC AHISD SANP CDL RNP SSDML NLRM RT本文图6:不同图像集分类方法在YTC和COX数据集上的秩1识别率。由于高内存要求,CDL无法在具有学习特征的COX数据集上进行评估。最好用颜色来表示。100使用原始特征100使用我们学习的特征100使用原始特征的使用我们学习的特征在COX上绘制 CMC曲线959590858075名男男性接触者DCC70AHISD三普65CDLRNP60SSDMLNLRM55RT我们5012345678910秩(a) YTC:原创特色9590MSMDCC85AHISDSANPCDLRNP80SSDMLNLRMRT我们7512345678910秩(b) YTC:学习功能90807060名男男性接触者DCC50AHISD三普CDL40RNPSSDMLNLRM30RT我们2012345678910秩(c) COX:原始功能90858075名男男性接触者DCCAHISD70SANPRNPSSDML65NLRMRT本文601 2 3 4 5 6 7 8 910秩(d) COX:学习特征图7:YTC和COX数据集上不同方法的CMC曲线,使用其原始特征(a)(c)和我们学习的特征(b)(d)。最好用颜色来表示。固定化方法,我们的实验结果在图。6表明,所有方法的性能显着提高与我们提出的功能相结合。请注意,由于大量的内存需求,我们无法使用可用计算资源在COX数据集上使用学习的特征来评估CDL。图7中YTC和COX数据集上的CMC曲线表明,所有等级都实现了一致的性能提升。融合-功能与决策级别:对于基于模板(或图像集)的人脸识别,大量信息以异构模板媒体的形式存在。有效地利用这些信息是相当关键的整体人脸识别性能。在现有的文献中,已经设计了不同的策略来为模板媒体找到合适的这些包括由流形几何上的一个点表示的模板[38,37],代表性范例(例如,从仿射或凸包模型导出[2])或通过简单的池化媒体编码[26,8]。因此,现有的方法在特征(媒体)级别组合来自多个模板媒体的信息。在本文中,我们保持模板媒体的完整性,没有发现任何单一的实体表示。相反,我们建议综合所有TEM的信息在决策层的板块媒体。即使是简单的平均值的决策值的方法,我们实现了秩1的识别率为94。2±0。IJB-A数据集上的9个。所提出的方案在决策级而不是特征级融合信息,因此避免了任何潜在的信息丢失并产生优异的性能。6. 结论基于模板的面部识别在许多真实世界的应用中是相关的,其中人的面部的多个图像我们提出了一个简单而有效的策略来处理大量的模板媒体信息。与现有的方法,结合这些信息在初始特征级别,我们采用了贝叶斯方法融合它以后在决策层。针对具有极端头部姿态的无约束人脸数据的配准问题,提出了一种数据驱动的方法,在单个卷积神经网络中联合学习配准与表示。所提出的方案的有效性证明了他们的显着superior性能具有挑战性的无约束人脸识别基准。YTC-原创特色YTC-我们的特色COX-原创特色COX-我们的特色平均识别率平均识别率平均识别率平均识别率12776引用[1] W. AbdAlmageed,Y. Wu,S. Rawls,S. Harel,T.哈斯纳,I. Masi,J. Choi,J. Lekust,J. Kim,P. Natarajan等人使用深度多姿态表示的人脸识别。2016年IEEE计算机视觉应用冬季会议(WACV),第1-9页。IEEE,2016.[2] H. Cevikalp和B. Triggs基于图像集的人脸识别。 在计算机视觉和模式识别,2010年。CVPR 2010。IEEE会议,第2567-2573页。IEEE,2010。[3] J. - C. Chen,V. M.帕特尔和R。切拉帕使用深度cnn特征的无约束人脸验证2016年IEEE Winter计算机视觉应用会议(WACV),第1-9页IEEE,2016.[4] J. - C.陈河,巴西-地Ranjan、A.库马尔角H. Chen,V. M.帕特尔和R。切拉帕使用深度卷积神经网络进行无约束人脸验证的在IEEE计算机视觉研讨会国际会议论文集,第118-126页[5] A. R. Chowdhury,T.Y. Lin,S.Maji和E.学习米勒。基于双线性cnns的一对多人脸识别。2016年IEEE计算机视觉应用冬季会议(WACV),第1-9页。IEEE,2016.[6] N. Crosswhite,J. Byrne,O. M.帕克希角Stauffer,Q.Cao和A.齐瑟曼。用于人脸验证和识别的模板自适应。arXiv预印本arXiv:1603.03958,2016年。[7] N. Dalal和B. Triggs用于人体检测的定向梯度的直方图。在2005年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2005年。[8] T.哈斯纳岛Masi,J. Kim,J. Choi和S.哈雷尔PoolingFaces:基于模板的人脸识别与池脸图像.在CVPR研讨会上,第59-67页。IEEE,2016.[9] M.哈亚特山Bennamoun和S.一个.学习图像集分类的非线性重建模型。在计算机视觉和模式识别(CVPR),2014年IEEE会议上,2014年。[10] M.哈亚特山Bennamoun和S.一个.反向训练:一种有效的图像集分类方法。欧洲计算机视觉会议,第784-799页。Springer,2014.[11] M.哈亚特山Bennamoun和S.一个.用于图像集分类的深度重 建 模 型 。 IEEE transactions on pattern analysis andmachine intelligence,37(4):713[12] M. Hayat,S. H. khan和M.本那蒙为基于图像集的人脸识别提供简单的二进制分类器。International Journal ofComputer Vision,2017。[13] M. Hayat,S. H.汗,M。Bennamoun和S.一个.一种用于室内场景分类的空间布局和尺度不变特征表示。IEEETransactions on Image Processing,25(10):4829[14] Y. Hu,黄毛菊A. S. Mian和R.欧文斯使用稀疏近似图像集 之 间 的 最 近 点 的 Pattern Analysis and MachineIntelligence,IEEE Transactions on,34(10):1992[15] G. B. Huang,M. Ramesh,T. Berg和E.学习米勒。在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。技术报告。[16] Z. Huang,S. 山,H. Zhang,S. Lao、A. 库尔班,X.尘通过COX-S2 V数据集上的部分和局部线性判别分析对 静止 到视 频人 脸识 别进行 基准 测试 。计算 机Springer,2013.[17] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。神经信息处理系统进展,2017-2025页,2015年[18] S. H. 汗,M。哈亚特山贝纳蒙河Togneri和F.A. Sohel用于 室 内 场 景 识 别 的 卷 积 特 征 的 判 别 表 示 。 IEEETransactions on Image Processing,25(7):3372[19] H.- C. Kim和Z. Ghahramani贝叶斯分类器组合。人工智能和统计国际会议,第619-627页,2012年[20] M. Kim,S. Kumar,V. Pavlovic,and H.罗利真实视频中具有视觉约束的人脸跟踪与识别。在计算机视觉和模式识别(CVPR),2008年IEEE会议上,第1-8页。IEEE,2008年。[21] T.- K. 金,J.Kittler和R.西波拉使用典型相关性的图像集类 的 判 别 Pattern Analysis and Machine Intelligence ,IEEE Transactions on,29(6):1005[22] B. F. 克拉尔湾克莱因,E.Taborsky,A.Blanton,J.切尼K. Allen,P. Grother,A.是的,M。Burge和A. K.贾恩。推动无约束人脸检测和识别的前沿:Iarpa janus基准测试。在2015年IEEE计算机视觉和模式识别会议(CVPR)上,第1931-1939页IEEE,2015年。[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在F. 佩 雷 拉 角 , 巴 西 - 地 J. C. 伯 吉 斯 湖 Bottou 和 K.Q.Weinberger , 编 辑 , Advances in Neural InformationProcessingSystems25 , 第 1097-1105 页 CurranAssociates,Inc. 2012年。[24] E. Learned-Miller , G. B. Huang , 黄 背 天 蛾 A.RoyChowdhury,H. Li和G.华标签的脸在野外:一项调查。在面部检测和面部图像分析的进展中,第189248.施普林格,2016年。[25] T. Ojala,M. Pieti ké inen和T. 我很好。基于局部二值模式的多分辨率灰度和旋转不变纹理分类。PatternAnalysis and Machine Intelligence , IEEE Transactionson,24(7):971[26] E. Ortiz、A.Wright和M.Shah. 基于均值序列稀疏表示分类的电影预告片人脸识别在计算机视觉和模式识别(CVPR),2013年IEEE会议,第3531[27] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。在英国机器视觉会议,第1卷,第6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功