基于依赖感知的人脸图像集的验证与识别

137 浏览量更新于2023-10-13 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于依赖感知的图像集刘晓峰1[0000 - 0002 - 4514 - 2016]、B. V. K Vijaya Kumar1[0000 - 0001 - 7126 - 6381]、杨超2[0000 - 0002 - 6553 - 7963]、唐庆明3[0000 - 0002 - 2670 - 4917]、游珍4[0000 - 0002 -8181 - 4836]1卡内基梅隆大学美国liuxiaofeng@cmu.edu2University of Southern California CA 90089，USA3Toyota Technological Institute at Chicago IL 60637，USA4香港理工大学抽象。本文主要研究基于图像集的人脸验证与识别问题。与传统的单一媒体（图像或视频）设置不同，我们遇到了一组包含无序图像和视频的异构内容。每个图像的重要性通常被认为是平等的或基于其独立的质量评估。如何在一个集合内对无序图像的关系建模仍然是一个挑战。我们解决这个问题，制定它作为一个马尔可夫决策过程（MDP）的潜在空间。具体来说，我们首先介绍依赖性感知注意力控制（DAC）网络，该网络采用行动者-评论家强化学习对每个图像嵌入进行顺序注意力决策，以充分利用无序图像之间丰富的相关性线索。此外，我们还引入了样本有效的变体与离线策略的经验重放，以加快学习过程。姿态引导的表示方案可以进一步提高姿态变化的极端处的性能。关键词：深度强化学习·演员-评论家·人脸识别·集对集·注意力控制1介绍最近，无约束人脸识别（FR）在计算机视觉界得到了严格的研究[1，2]。在其最初的几天中，单个图像设置用于FR评估，例如，标签的面孔在野外（LFW）验证任务[3]。视觉媒体爆炸的趋势将研究推向了下一个阶段，其中视频人脸验证吸引了很多关注，例如YouTube Faces（YTF）数据集[4]。由于LFW和YTF有一个众所周知的正面姿势选择偏差，无约束FR仍然被认为是一个未解决的问题[5，6]。此外，与LFW和YTF数据集推广的验证相比，开集人脸识别实际上更具挑战性[7，8]。 IARPAJanus基准A（IJB-A）[9]提供了更实用的非约束人脸验证和识别基准。它需要一个集合（包含2X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你…CEATURE......CEATURE第5章是一个秘密.........CEATUREFig. 1.使用典型聚合方法的基于图像集的1：1人脸验证（左）和开集1：N识别（右）的图示。具有极端头部旋转、复杂表情和照明的无序图像和/或视频可以从罪犯的面部照片历史、身份证件的终身登记图像、不同的检查点和视频中的面部的轨迹中对对象的集合进行采样。这种设置更类似于现实世界的生物识别场景- ios [10]。从多个视图、背景环境、相机参数捕获人脸确实会导致较大的内集变化，但也会引入更多的互补信息，希望在实际应用中获得更高的准确性[11]。通常采用的在每个图像中聚合身份信息的策略是平均/最大池化[12由于图像质量不同，因此引入了通过这样做，正面和清晰的脸受到他们的模型的青睐。然而，这可能导致冗余并且牺牲集合中的多样性。如图在图2中，在一个集合中，这些较低的正面图像被给予相对高的权重，有时与给予最具辨别力的图像的权重一样高。几乎没有可以从相同姿势的模糊版本提取的附加信息，而有价值的简档信息等，几乎被系统忽略。我们认为，所需的加权决策应取决于一组内的其他图像相反，我们建议将注意力计划制定为马尔可夫决策过程，并采用演员-评论家强化学习（RL）来利用模型学习。依赖性感知注意力控制（DAC）模块学习策略以通过观察集合中的其他图像来通过这种方式，我们自适应地将特征向量聚合到由它们跨越的凸包内的高度紧凑的表示中。该算法不仅明确地学习支持高质量图像而排斥低质量图像，而且考虑了内集依赖性，以减少冗余并保持多样性信息的优点。此外，提取集合级不变特征可能总是具有挑战性的。一些方法聚合两个比较集的图像级成对相似性得分以充分使用所有图像[17给定n为………第5章是一个秘密达勒里达勒里Sett1SettDalerySetN………………Ceatures…………….........…………SET2SET1VideoStilVideoStilframesimage sframesimage sCeaturextratorCEATUREextractorA g r e g a t i o n m o d u leAgregationmoduletrobeSetVideoStilframesimagesCEATURECEATUREextractorextractorAgregationmoduleAgregationmodule基于图像集的依赖感知注意控制3不适用5ACNAN5ACNA N5AC(a)（b）第（1）款图二、（a）YTF和（b）IJB-A数据集的测试集上的典型示例，显示了通过先前的方法NAN [16]计算的图像权重，以及提出的DAC。一个集合中图像的平均数，则这对应于每个匹配操作的O（n2）计算复杂度和每个集合的O（n）空间复杂度是不期望的。最近，[21-23]提出了使用基于值的Q学习方法在这些配置侧重于验证，并且不能很好地扩展用于大规模识别任务[16]。通常，探针和图库样本的特征提取是独立的过程[8]。我们注意到姿势是IJB-A数据集和实际应用中的主要挑战[7，24，25]，并且存在正面和侧面面部结构显著不同的先验。因此，我们简单地利用姿态引导表示（PGR）方案与随机路由来模拟集合间的依赖性。它很好地平衡了计算成本和信息利用率。考虑到上述因素，我们建议充分利用内部和内部集之间的关系，统一的基于集合的人脸验证和识别。(1)据我们所知，这是第一次尝试将深度演员-评论家RL引入视觉识别问题。(2)DAC可以潜在地是将无序图像之间的丰富的相关线索的一般解决方案其系数可以在仅给定集合级身份注释的正常识别训练任务中训练，而不需要额外的监督信号。(3)为了进一步提高样本效率，引入了基于信任域的经验回放，加快了训练速度，获得了更强的收敛性。(4)PGR方案很好地平衡了计算成本和信息利用率在极端的姿态变化与人脸的先验领域知识。（5）基于模块的特征级聚合还继承了传统池化策略的优点，例如，采用不同数量的输入以及提供时间和存储器效率。我们表明，我们的方法导致了国家的最先进的准确性IJB-A数据集，也推广以及在几个基于视频的人脸识别任务，例如。YTF和Celebrity-1000。0的情况。3310.0250.0090.0060的情况。17800620.0130.0050的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况0的情况不，不，0。0970。0950 。0910.0835AC0.1920.13400170 .0250.011不，不，0。0380.0340.0330。0250.0215AC不，不，0。20701900.18101665AC0.3050.21000820.0140.1360的情况0的情况0的情况0的情况0的情况4X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你2相关工作基于图像集/视频的人脸识别近年来得到了积极的研究[2]。基于模板的数据集中的多图像设置类似于基于视频的识别任务中的多个帧。然而，集合内的时间结构通常是无序的，并且内部/集合间变化更具挑战性[9]。我们将不在此介绍利用时间动态的方法。有两种传统的解决方案，即，基于流形和基于图像的方法。在第一类中，每个集合/视频通常被建模为流形，并且在流形级中测量相似性或距离。在以前的工作中，已经提出了仿射壳、SPD模型、格拉斯曼流形、n阶统计量和超平面相似性来描述流形[26-30]。在这些方法中，图像被视为同等重要。他们通常不能处理大的外观变化在不受约束的FR任务。对于第二类，利用探针和图库图像之间的成对相似性进行验证[17，18，20，31，32]。比较的二次数使它们不能很好地用于识别任务。Yang等人[16]提出了一种注意力模型，将一组特征聚合为单个表示，并为每个特征提供独立的质量评估模块。参考文献[33]进一步将聚合特征上采样为图像，然后将其馈送到基于图像的FR网络。然而，图像的加权决策不考虑其他图像，如第2节中所讨论1.一、由于视频任务中经常使用的RNN [34，35，22]不适合图像集，因此在这项工作中，我们以不同的方式考虑一组特征内的依赖性，其中我们使用深度强化学习来建议每个特征的注意力强化学习（RL）训练智能体与动态环境进行交互（通过试错），目标是最大化其累积奖励。最近，使用卷积神经网络（CNN）的深度RL在Atari Games中实现了人类水平的性能[36]。CNN是解决无限状态空间的理想近似函数[37]。解决RL问题有两个主流：基于价值函数的方法和基于策略梯度的方法。第一类别，例如，Q学习是离散行动任务的常见解决方案[36]。第二类对于连续动作空间可以是有效的[38，39]。还有一种混合行动者-批评者方法，其中参数化策略被称为行动者，并且学习的值函数被称为批评者[40，41]。由于它本质上是一种策略梯度方法，因此也可以用于连续动作空间[42]。此外，基于策略和行动者-评论家的方法具有比基于值的方法更快的收敛特性[43]，但它们通常具有低样本效率，高方差并且经常收敛到局部最优值，因为它们通常通过策略算法学习[44，45]。甚至异步优势行动者-评论家[40，41]也需要为策略上的每个梯度步骤收集新样本这很快就变得非常昂贵，因为学习有效策略的梯度步骤的数量随着任务复杂度的增加而增加。相反，政策外学习旨在重用过去的经验。这是基于图像集的依赖感知注意控制5m=1不不不直接可行的传统政策梯度公式，尽管它相对简单的价值为基础的方法[37]。因此，在本文中，我们专注于将演员-评论家方法的稳定性与离线RL的效率相结合，这充分利用了深度RL [40]的最新进展，特别是离线算法[46，47]。除了其在机器人和控制方面的传统应用外，最近RL已成功应用于一些视觉识别任务。Mnih et等人[48]引入了循环注意力模型，以聚焦于来自图像的选定区域或位置，用于数字检测和分类。这个想法通过迭代地移除每个图像中的不相关像素而扩展到身份对齐[49]。采用基于值的Q学习方法进行目标跟踪[50]以及通过丢弃低效的探针-图库对[22]或在接收到足够的对[21，23]后停止比较，在计算高效的视图中进行视频验证。然而，这将不可避免地导致未使用的对的信息在视觉识别的政策梯度/演员-评论家RL方面取得的进展很少。3提出方法我们的框架的流程图如图所示3.第三章。它以一组人脸图像作为输入，并通过两个主要模块对其进行处理，以输出单个（w/o PGR）/三个（具有PGR）特征向量作为其识别的表示。我们采用了一个现代的CNN模块将图像嵌入到一个潜在的空间中，这可以大大减少计算量并提供一个实用的状态空间对于RL。然后，我们级联DAC，它作为注意力模型读取所有特征向量，并在特征级别将它们与自适应加权线性组合。遵循[34，35，16]中描述的记忆注意机制，特征被视为记忆，特征加权被视为记忆寻址过程。这两个模块可以以一个接一个或端到端的方式进行训练。我们选择了第一个选项，这使得我们的系统受益于基于图像的FR数据集的足够的训练数据。PGR方案可以进一步利用人脸的先验知识来解决具有大姿态变体的集合。3.1内集依赖控制在基于集合的识别任务中，我们被给予M个集合/视频（Xm，ym）M，其中Xm是具有变化数量的图像Tm（即， Xm={Xm，Xm，· · ·，Xm}，Xm是集合中的第t个图像）并且ym是1 2Tmt对应的集合级标识标签。我们将每个图像xm馈送到我们的模型，并且使用我们的神经嵌入网络提取其对应的特征表示fm在这里，我们采用GoogLeNet [51]和Batch Normalization [52]来产生128维特征作为我们对每个图像的编码。凭借相对简单的架构，GoogLeNet在几个FR基准测试中表现出了卓越的性能。它可以很容易地被其他先进的6X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你i=1i=1图3.第三章。我们的基于图像集的人脸识别网络架构CNN以获得更好的性能。在本文的其余部分，我们将简单地将我们的神经嵌入网络称为CNN，并在适当的地方省略上部索引（标识）以提高可读性。由于特征是根据图像确定性地计算的，因此它们也继承并显示大的变化。简单地使用硬注意方案丢弃其中的一些可能会导致集合中丢失太多信息[16，22]。我们的注意力控制可以被看作是强化学习的任务，以找到软注意力的最佳权重，它定义了记忆注意力机制集中了多少软注意力。此外，采取不同数量的图像没有时间信息的原则，并通过标准的识别训练有可训练的参数被充分考虑。我们的内集依赖建模的解决方案是制定为MDP。在每个时间步t，代理接收状态空间S中的状态 st，并遵循策略π（at ）从动作空间A 中选择动作at|st），这是年龄nt的最佳值。该操作将确定所需的x值。e. ，st+1或终止，并从环境中获得奖励rt（st，at）∈RR的目标是找到一个最佳的策略π *，最大限度地减少计算的成本Rt=不i≥0 γirt+i（st，at）是x∈[0，1）的一个约束条件权衡眼前和未来奖励的重要性[37]。I.在图像存储库的元素xtΣ中，我们将查找这些元素，也就是说， a1，a2，· · ·，aT ，作为每个特征表示{f}T的权重。的软注意力权重{a}T初始化为1，并逐步更新步状态st与t−1个加权特征和T−（t−1）to be有关加权特征与图像级依赖建模相比，紧凑嵌入大大缩小了状态空间，使我们的RL训练变得可行。在我们的实际应用中，st是ft与剩余特征的聚合的级联，其中剩余特征具有在时间步长t处的更新的权重。终止输入CeaturembdingS etmoduleCNNf1ƒ5AC模块）联系我们的1CNNF211...1FDeep-RLFf f一223T1ଶ上一页CNNF31.1Ff f1F深R Lଶ一13T23ƒ上一页ƒଶf1F21fT深R LfT-1CNNF不的Tଶ要删除的内…………………………………AggregationAggregationAggregationAgregationAgregation基于图像集的依赖感知注意控制7}/je意味着已经成功遍历了该集合中的所有图像.（ΣT af）−fs=Σi=1iitΣ连接{f}（1）tT（i=1不ai）−1我们通过聚合嵌入的整体识别性能来定义RL的全局奖励，这驱动了RL网络的优化。在在实践中，我们在DAC流的顶部添加了完整的网络连接。你是一个很好的人通过softmax计算交叉熵损失Lm=−log{eoymΣMoj来计算这个时间步长的奖励我们使用符号oj来表示cl的向量的第j个元素为ssc或eso。 g（·）是新的加权聚集函数，h用更新后的权重g（X m）映射聚集特征|st）到o。奖励的定义如下：ΣTmMaifimg（X| st, CNN)=Σa我i=1（在步骤t处具有更新的ai）（2）rt={Lm[h（g（Xm|st））]−Lm[h（g（Xm|st+1））]}+λmax[0，（1-at）]（3）其中铰链损失项用作正则化以鼓励冗余消除并且与λ平衡。它还有助于稳定训练。聚合操作本质上选择由所有特征向量所跨越的凸包内部的点[26]。在确定在该作用空间处的RL是一个在我们的空间A∈R+中的常数时，基于值的RL（例如，Q-Learning）无法解决此任务。我们调整演员-评论家网络，根据对其他特征的观察直接对每个特征进行分级。在基于策略的方法中，训练目标是找到参数化策略πθ（αt|st），其在给定起始状态的所有可能的聚合轨迹上最大化期望奖励J（θ）。根据策略梯度定理[43]，给定目标函数的参数的梯度具有以下形式：θJ（θ）= E[|st）（Q（st，at）− b（st））]（4）其中Q（st，at）= E [Rt|是状态-动作值函数，其中提供初始动作at以计算在状态s t中开始时的预期回报。通常减去基线函数b（st该基线的自然候选者是仅状态值函数V（st）= E [Rt|这是一个类似于Q（st，at）的问题，只是at在这里没有给出。优势函数定义为A（st，at）=Q（st，at）−V（st）[37]。当量(4)则变为：θJ（θ）=E[|st）A（st，at）]（5）这可以被看作是行动者-批评者模型的特殊情况，其中πθ（at|st）是演员，A（st，at）是评论家。为了减少所需参数的数量，参数化的时间差（TD）误差δω=rt+8X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你γVω（Ss+1）−Vω（Ss）可用于逼近该adva ntagefunction[45]。我们使用两个不同的符号θ和ω来表示演员和评论家函数，但这些参数中的大多数在主流神经网络中共享，然后分别分为两个分支用于策略和值预测。3.2政策外的行动者-评论家与经验重放基于策略的RL方法使用通过当前策略收集的样本更新模型。经验重放（ER）可以用于提高采样效率[54]，其中经验从重放池P中随机采样。这通过减少数据相关性来确保训练的稳定性。由于这些过去的经验是从不同的策略中收集的，因此使用ER会导致策略外更新。当使用RL训练模型时，ε-贪婪动作选择通常用于在利用和探索之间进行权衡，从而以一定概率选择随机动作，否则选择排名最高的动作用于生成训练权重的策略被称为行为策略μ，与被称为目标策略π的待优化策略形成对比。基本的优势行动者-评论者（A2 C）训练算法描述在节。3.1是基于策略的，因为它假设动作是从与要优化的目标相同的策略中提取的（即，μ=π）。然而，当前策略π是用从脱离策略学习中的旧行为策略μ生成的样本来更新的。因此，使用重要性采样（IS）比率来重新缩放每个采样的奖励以校正时间步长t处的采样偏差：|st）/µ（at|st）[55]。对于A2C，参数化的仅状态值函数Vω的偏离策略梯度因此具有以下形式：ΣT∆ωoff=t=1Yt（R<$t−V<$ω（st））<$ωV<$ω（st）i=1中文（简体）当R¯t是off-policyMont-Carloreturn[56]时：Y1R<$t=rt+γrt+1i=1TY−tρi+···+γT−trTρt+i（7）i=1同样，策略πθ的更新梯度为：ΣT∆θoff=t=1ρtθlogπθ（at|st）δ（ω（8）其中δω=rt+γVω（st+1−Vω（st）是TDerr或使用Vω.基于图像集的依赖感知注意控制9一tr2在这里，我们介绍一种改进的信任域策略优化方法[46，47]。除了最大化累积奖励J（θ）之外，优化还受到更新策略θ和平均策略θa之间的Kullback-Leibler（KL）发散限制以确保安全性。该平均策略表示过去策略的运行平均值，并限制更新后的策略偏离权重为α的平均值θa←[αθa+（1-α）θ]太远。因此，给出Eq中的off_p〇 l icyp〇 l icygradientΔθ〇ff。在等式（8）中，如下计算具有信赖区域z的模型概率尽量减少 1πθoff−zπ2，z22（九）Subjectto：θDKL[πθ（st）πθ（st）]Tz≤ξ其中π是由θ或θa参数化的策略，并且θ a控制KL约束的大小。由于约束是线性的，因此可以使用KKT条件导出该二次规划问题的闭合形式解。设k=<$θDKL[πθa（st）<$πθ（st）]，我们得到：*=∆θoff−max.kTθoff−kk（10）这个方向也被证明与自然梯度密切相关[57，58]。上述增强功能加快并稳定了我们的A2C网络训练。3.3姿势引导的集合间依赖模型为了在没有配对输入的情况下对集合间依赖性进行建模，我们提出了一种姿势引导的随机路由方案。这种分而治之的想法起源于[59]，它构建了几个人脸检测器来对每个视图进行收费。给定一组人脸图像，提取其一般特征集合F0，以及正面人脸特征集合F1和侧面人脸特征集合F2。F1和F2分别是来自近正面人脸图像（≤30◦）和侧面人脸图像（>30◦）的特征的加权平均值，其中注意力是通过观察全集来分配的。我们使用PIFA [60]来估计偏航角。在p1和p2处的前向和后向预填充的权重的总和与每个姿态组的质量有关。考虑到数据增强中的镜像变换和人脸的对称性，我们不区分左右脸。利用PCR，两组样本之间的距离d被计算为：d=1S（F1，F2）+1Σ2 Σ2S（F1，F2）p1p2（十一）20 02i=1j =1i j i j其中S是用于测量两个特征向量之间的距离的L2距离函数我们对待的通用功能和姿势特定的功能平等，并融合他们的评价。计算距离的次数减少到O（5n）。z10X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你…ƒଶ图4.第一章姿势引导表示方案的图示。这实现了有前途的验证性能，需要比传统的图像级相似性测量更少的比较。它也容易应用于其他变型。4数值实验我们在三个基于集合/视频的FR数据集上评估了所提出的方法的性能：[9][10][11][12][13][14][15][16][17][18][19][1为了利用数百万可用的静态图像，我们单独训练CNN嵌入模块如[16]所示，来自50K身份的3M人脸图像使用JDA [62]检测，并使用LBF [63]方法进行对齐，用于我们的GoogleNet训练。当我们在每个集合/视频人脸数据集上训练DAC模块时，这部分是固定的受益于DAC的高度紧凑的128-d特征表示和简单的神经网络，使用单个Xeon E5 v4 CPU的IJB-A数据集上的DAC（off）的训练时间约为3小时，每个集对的平均测试时间为62ms。我们使用Titan Xp进行CNN处理。作为我们的基线方法，CNN+Mean L2测量两个集合的所有图像对的平均L2距离，而CNN+AvePool使用每个特征维度的平均池进行聚合。之前的工作NAN [16]使用与我们的框架相同的CNN结构，但采用神经网络模块对每个图像进行独立的质量评估。因此，NAN也可以被视为我们的基线。我们将普通A2 C称为DAC（on），并将DAC（off）用于具有基于信任区域的体验重放方案的演员-评论家。DAC（off）+PGR是DAC（off）和PGR的组合。4.1IJB-A数据集IJB-A [9]是一个人脸验证和识别数据集，包含从姿势和成像条件变化很大的无约束环境中捕获的图像。有500个身份，总共25，813张图像（5，397张静态图像和从2，042个视频中采样的20，412个视频帧）。用于特定身份的一组图像称为模板。每个模板可以是以下的混合物：ƒƒ0S482…ଶƒ0S302ƒଶ ƒƒଶ…0S518ƒଶଶଶଶଶ0S6980的情0的情0的情0的情0的情0的情0的情0的情0的情0的情0的情况。0860的情0的情0的情0的情基于图像集的依赖感知注意控制11C NN+平均值L2C NN+平均池楠DAC（开）DAC（关闭）DAC（关闭）+PGR一点一点0.950.900.850.800.750.700.980.960.940.920.6510-310-2十比一1000.90100101102F alse阳性率Rank(a)（b）第（1）款图五、所提出的方法的平均ROC（左）和CMC（右）曲线及其在IJB-A数据集上超过10个分割的基线。静态图像和采样视频帧。模板中的图像（或帧）数量范围从1到190，平均每个受试者大约有11.4张图像和4.2个视频。它为每个具有3个地标的面部提供地面实况边界框。有10个训练和测试部分。每个分割包含333个训练标识和167个测试标识。我们将所提出的框架与现有的方法进行比较，在IJB-A数据集的标准评估协议的人脸验证和识别。使用图 1 中的受试者工作特征（ROC）曲线评估1：1比较任务的风险。第五条（a）款。我们还在表1中报告了真实接受率（TAR）与假阳性率（FAR）。对于1：N搜索任务，根据累积匹配特性（CMC）曲线来评估性能，如图2所示5（b）。它是一种信息检索度量，其绘制对应于不同等级的识别率秩k识别率被定义为在前k个匹配中返回其图库匹配的探测搜索的百分比表1中还报告了真阳性识别率（TPIR）与这些结果表明，验证和识别性能大大提高相比，我们的基线方法。RL网络已经学会了对低质量和冗余图像具有鲁棒性。DAC（on）在大多数操作点中优于先前的方法，表明我们的表示比[16，11]中的加权特征更具鉴别力，而不考虑内集依赖性。经验回放可以进一步帮助我们稳定训练，并达到最先进的性能。将非策略DAC和姿势引导表示方案组合也以有效的方式有助于最终结果。C NN+ 平均值L2 C NN+ 平均池NANDAC（开）DAC（关闭）DAC（关闭）+PGR真阳性率相对速率12X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你表1.IJB-A数据集的性能评估为了验证，将真实接受率（TAR）与报告假阳性率（FAR）。对于鉴定，真阳性鉴定率（TPIR）与的假阳性识别率（FPIR）和Rank-1的准确方法1：1验证TAR1：N鉴别TPIRFAR=0.01FAR=0.1FPIR=0.01FPIR=0.1秩-1B-CNN[15]--0.143±0.0270.341±0.0320.588±0.02LSFS[64]0.733±0.0340.895±0.0130.383±0.0630.613±0.0320.820±0.024DCNN[14]0.787±0.0430.947±0.011--0.852±0.018[65]第六十五话0.826±0.018---0.840±0.012Masi等人[第六十六话]0.886---0.906适应[6]0.939±0.0130.979±0.0040.774±0.0490.882±0.0160.928±0.010QAN[11]0.942±0.0150.980±0.006---NAN[16]0.941±0.0080.978±0.0030.817±0.0410.917±0.0090.958±0.005DAC（开）0.951±0.0140.980±0.0160.852±0.0480.931±0.0120.970±0.011DAC（关闭） 0.953±0.009 0.981±0.0130.853±0.0330.933±0.0060.972±0.012DAC（关闭）PGR0.954±0.01 0.981±0.008 0.855±0.042 0.934±0.009 0.973±0.0114.2YouTube Face数据集YouTube Face（YTF）数据集[4]是一个广泛使用的视频人脸验证数据集，其中包含1,595个不同主题的3,425个视频。在这个数据集中，有许多具有挑战性的视频，包括业余摄影，遮挡，有问题的照明，姿势和运动模糊。该数据集中人脸视频的长度从48帧到6,070帧不等，视频的平均长度为181.3帧。在实验中，我们遵循[16，22，33]中的标准验证协议，使用给定的5，000个视频对测试我们的无约束人脸1：1验证方法。这些对被平均分成10个分裂，每个分裂有大约250个个人内对和250个个人间对。表2给出了我们的DAC和先前方法的结果可以看出，DAC在没有微调YTF上的特征嵌入模块的情况下的设置优于所有先前的最先进的方法由于该数据集具有正面面部偏差[6]，并且该数据集中的面部变化相对较小，如图所示。2，我们没有使用姿势引导的表示方案。很明显，视频序列是冗余的，考虑到内部视频关系确实有助于[16]的改进。与基于时间表示的方法的可比性能表明，DAC在某些特定领域可能是RNN的潜在替代品。实际上，RNN本身在计算上是昂贵的，并且有时难以训练[67]。我们直接在特征级对依赖性进行建模，这比原始图像的时间表示更快[22]，并且比基于对抗性面部生成的方法更有效[33]。它还表明DAC在没有高度工程化的CNN模型的情况下实现了非常有竞争力的性能。请注意，FaceNet [18]，NAN [16]也使用GoogleNet样式结构。我们表明，DAC优于他们基于图像集的依赖感知注意控制13表2.平均验证准确度与YT F数据中最近一次结果的比较。t_t。方法精度†精确度年FaceNet[18]0.9512±0.0039-2015[13]第十三话0.9150.9732015[20]第二十话0.949-2016TBE-CNN[68]0.9384±0.00320.9496±0.0031 2017TR[22]0.9596±0.00590.9652±0.0054 2017NAN[16]0.9572±0.0064-2017DAN[33]0.9428±0.0069-2017DAC（开）0.9597±0.0041DAC（关闭） 0.9601±0.0048验证准确度和标准偏差。Deep FR、TBE-CNN和TR方法具有对具有YTF数据集的CNN模型的额外微调，并且在TR中使用残差构成网络考虑到我们基于模块的结构，这些先进的CNN可以很容易地添加到DAC上，并提高其性能。我们看到，DAC可以很好地推广基于视频的人脸验证数据集。4.3Celebrity-1000数据集然后，我们在Celebrity-1000数据集[61]上测试了我们的方法，该数据集是为无约束的基于视频的人脸识别问题而设计的。来自1，000个受试者的159，726个面部视频（每个序列约15帧）的240万帧包含在该数据集中。它与两个标准评估协议一起发布：开集和闭集。我们遵循标准1：如[61]中所述的N识别设置，并报告两个方案的结果。对于闭集协议，我们使用来自奖励网络的softmax输出由于基线方法没有多类预测单元，我们简单地比较L2距离，如[16]所示我们在表3中给出了结果，并在图3中显示了CMC曲线。第6（a）段。在CNN模型的端到端学习和大量训练数据的帮助下，深度学习方法的表现远远优于[61，12]。可以看出，DAC实现了最先进的技术我们还可以对于开集测试，我们采用每个图库主题的多个图像序列来提取高度紧凑的特征表示，如NAN [16]所示然后，通过比较聚合探针和图库表示的L2距离来执行开集识别。图6（b）和表3显示了我们实验中不同方法我们看到，我们提出的方法再次优于以前的方法，这清楚地表明DAC是有效且稳健。14X. Liu，B.V.K Kumar，C.扬角，澳-地唐娟你1.000.950.900.850.800.750.700.650.60C NN+平均值L2C NN+平均池楠DAC（开）DAC（关闭）100101102103兰克1.000.950.900.850.800.750.70C NN+平均值L2C NN+平均池楠DAC（开）DAC（关闭）100101102103兰克(a)（b）第（1）款图六、Celebrity 1000上不同方法的CMC曲线（a）对1000名受试者进行封闭式测试，（b）对800名受试者进行.表3.识别性能（等级-1准确度），在Celebrity- 1000 数据集上进行闭集测试（左）和开集测试（右）。方法受试者数量（已关闭）受试者数量（开放）1002005001000100200500800MTJSR[61]0.5060.4080.3546 0.30040.4612 0.3984 0.3751 0.3350Eigen-PEP[12]0.5060.4502 0.3997 0.31940.5155 0.4615 0.4233 0.2590CNN+ L2平均值0.8526 0.7759 0.7457 0.67910.8488 0.7988 0.7676 0.7067CNN+AvePool0.8446 0.7893 0.7768 0.73410.8411 0.7909 0.7840 0.7512NAN[16]0.9044 0.8333 0.8227 0.77170.8876 0.8521 0.8274 0.7987DAC（开）0.9125 0.8722 0.8475 0.82780.8986 0.8706 0.8395 0.8205DAC（关闭） 0.9137 0.8783 0.8523 0.8353 0.9004 0.8715 0.8428 0.82645结论我们已经介绍了视觉识别问题的演员-评论家RL。我们将内集依赖模型转换为MDP，并训练代理DAC在每个步骤中对每个图像进行注意力控制。PGR方案很好地平衡了计算成本和信息利用率。虽然我们只探讨了他们的能力，在设置/视频为基础的人脸识别任务，我们相信这是一个通用的和可行的方法，可以很容易地应用到其他问题，如Re-ID，动作识别和事件检测等。6确认这项工作得到了国家重点研发计划2016 YFB 0501003、香港政府一般研究基金GRF 152202/14 E、理大中央研究资助金G-YBJW、中国科学院青年创新促进会（2017264）、中国科学院国际创新计划（CIOMP）创新基金（Y 586320150）的部分支持相对速率相对速率基于图像集的依赖感知注意控制15引用1. Chen，J.C.，Ranjan河Sankaranarayanan，S.，库马尔，A.，Chen，C.H.帕特尔，V.M.，卡斯蒂略哥伦比亚特区切拉帕河：使用深度卷积神经网络进行无约束的基于静止/视频的人脸国际计算机视觉杂志（20 17）12. Learned-Miller，E.Huang，G.B.，RoyChowdhury，A.Li，H.，Hua，G.：在野外贴上标签的脸：一个调查。在：人脸检测和面部图像分析的进展。2016年第189- 248期3. Huang，G.B.，Ramesh，M.，Berg，T.，Learned-Miller，E.：在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告，技术报告07-49，马萨诸塞大学，阿默斯特（2007）4. 沃尔夫湖Hassner，T.，Maoz，I.：背景相似度匹配的无约束视频中的人脸识别。In：Computer Vision and Pattern Recognition（ CVP R），2011IConfere nceo n.（2011）5295. Phil l ips，P. J.Hill，M. 问： Swindle，J. 一、哦，天哪，A。J. ：Humanandalgorithm 在 pasc 人脸识别挑战赛上的表现。 In ： BiometricsTheory ， Applications and Systems （ BTAS ）， 2015 IEEE 7th InternationalConference on，IEEE（2015）1 - 86. Crosswhite，N.，Byrne，J.，Stauffer，C. Parkhi，O.，曹Q.齐瑟曼，A.：临时部署和应用程序，用于功能增强和识别。第一届：冯国成，李世石（2017）17. Hayat，M.，Khan，S.H.，Werghi，N.，Goecke，R.：无约束人脸识别的联合注册和表示学习。In：IEEE CVPR.（2017）27678. 刘伟，Wen，Y.，于志，Li，M.，Raj，B.，Song，L.：Sphereface：用于人脸识别的深度超球面嵌入。In：IEEE CVPR.第1卷（2017年）9. Klare，B.F.，克莱因湾Taborsky，E.，Blanton，A. Cheney，J.，Allen，K.，Grother，P.，马，A，Jain，A.K.：推动无约束人脸检测和识别的前沿：Iarpa janus基准测试。In：Proceedings of the IEEE Conference onC〇m puterVisi s i n andPater n Rec 〇 g nit i ti n.（2015）193110. Grother，P.，Ngan，M.：人脸识别厂商测试。人脸识别算法的性能（2014）11

下载后可阅读完整内容，剩余1页未读，立即下载