人脸反欺骗：模型和数据的重要性

69 浏览量更新于2023-10-18 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3507人脸防欺骗：模型很重要，数据也很重要肖扬12人，罗文汉2人，鲍林超2人，高元2人，龚迪宏2人，郑世宝1人，李志峰2人，刘伟2人1上海交通大学电子工程系2腾讯人工智能实验室，深圳，中国{肖扬，sbzh}@ sjtu.edu.cn，{whluo.china，linchaobao，ethan.y.gao，gongdihong}@ gmail.com，michaelzfli@tencent.com，wl2223@columbia.edu摘要人脸反欺骗是人脸检测、验证和识别等全栈人脸应用先前的方法在不能很好地模拟真实世界数据的数据集上构建模型小规模、不显著的变化等）。现有的模型可能依赖于辅助信息，这阻止了这些反欺骗解决方案在实践中很好地推广。在本文中，我们提出了一种数据收集解决方案，以及数据合成技术来模拟基于数字媒体的人脸欺骗攻击，这可以很容易地帮助我们获得大量的训练数据，很好地反映了现实世界的场景。通过利用一种新的时空反欺骗网络（STFNN），我们能够将公共人脸反欺骗数据集的性能大幅提升到最先进的方法之上。由于该模型可以自动关注有区别的区域，这使得分析网络的行为成为可能。我们进行了大量的实验，并表明所提出的模型可以区分欺骗脸提取的特征，从各种区域，以寻找微妙的证据，如边界，莫尔图案，反射文物等。1. 介绍人脸反欺骗[40，1，15，14]是人脸识别领域中一个重要但具有挑战性的问题。它在人脸认证、安全检查、访问控制等方面有着广泛的实际应用该任务是识别人脸是否从欺骗攻击中捕获，包括印刷人脸，用数字介质重放人脸视频，戴面具等，因此，人脸反欺骗对人脸识别系统的安全性至关重要[39]。近年来，以往的方法在达到可接受的精度方面取得了进展，但几乎没有被采用。等额缴款†通信作者图1.该模型包括三个组件，TASM，RAM和SASM。TASM提取时间和全局特征表示，SASM从局部重要区域学习判别，并加入RAM.通过我们收集的数据，该模型达到了最先进的性能。在实际应用中，由于各种原因。例如，一个原因可能是一些方法是使用具有小规模和/或不可区分变化的数据集来训练的。这使得这些方法不能很好地通用化。此外，一些算法依赖于附加信息，例如rPPG [26]和深度[2]。其性能在一定程度上取决于辅助信息的质量。这种依赖性也可能给实践带来不便。此外，现有的面部反欺骗数据集，包括NUAA [37]，CASIA-MFSD [44]和Replay-Attack [11]，都是几年前发布的。最近的MSU-USSA [32] 和 OULU-NPU 数据集 [10] 不包括姿势、照明和曝光的显著变化。目前的方法是在特定的数据集上训练/测试的，但在复杂的真实场景中并没有得到全面的证明。为了使人脸反欺骗的研究更有实际应用价值，本文提出了一种易于执行的解决方案，以获得大量的训练数据，并在数据上建立模型，以推动人脸反欺骗性能的极限具体来说，我们从网络上下载阳性样本（实时人脸视频），并通过在各种数字设备上记录显示的视频来收集阴性样本一种新的欺骗人脸合成方法3508以进一步加速数据采集过程。通过提出的解决方案，我们能够在一个月内收集5000个正面视频和5000个另一方面，我们建立了一个模型，称为时空反欺骗网络（STFAN），与时空注意机制。该模型由三个模块组成：时间反欺骗模块（TASM）、区域注意模块（RAM）和空间反欺骗模块（SASM）。在TASM中，CNN用于学习强大的特征，所采用的LSTM对视频分类的时间信息进行编码。从空间的角度来看，考虑到唯一的整个图像无法显示出足够的区分能力，局部细微特征被证明更有用[2，25]。与以前的随机方法[2]或固定设置[25]不同，我们通过深度模块RAM学习区分区域注意力该模块可以捕获具有较强鉴别能力的欺骗线索的重要局部区域。通过在所谓的SASM中参与这些局部区域，可以更有效地进行特征学习。此外，局部注意力结构和LSTM特征相互补充，为时空描述赋予不同的信息。在所提出的模型中的注意方案，使我们能够探索一个更直观的表示，有利于人类在理解如何解决这个问题我们深入到模型中进行了一系列的调查研究，并显示了一些有趣的（中间）结果，这将是有用的，为未来的研究在社区。我们的主要贡献总结如下：• 我们提出了一个易于执行的解决方案，通过模仿欺骗来收集大量数据-仿真结果表明，该方法对人脸反欺骗研究具有重要意义。• 我们提出了一个具有时空注意机制的人脸反欺骗模型，该模型融合了全局时间和局部空间信息，使我们能够分析人脸的欺骗行为。解析模型• 我们显著推进了公共人脸反欺骗数据集的最先进性能，从而为社区提供了一个有前途的方向，在实践中构建强大的反欺骗解决方案2. 相关工作传统方法。纹理的差异是区分真人脸和恶搞脸的主要线索之一[7]。这些信息已被用于面部反欺骗。例如，许多手工制作的功能已经在以前的作品中进行了研究，包括LBP [29，12，13]，[ 21][22][23][24][25][26][27][28][29]在此外，还利用不同的数据域来提取鉴别特征。Boulkenafet等人研究了不同的颜色空间，如HSV和YCbCr [6，8]。在[22]中还研究了频域中的特征这些方法中存在的共同问题是，这些手工制作的特征对于野外的各种讨厌的变量（诸如照明和遮挡）不鲁棒与仅使用静止图像相比，研究人员试图利用一系列帧中的自发面部运动来进行面部反欺骗。例如，在[30，36]中，眼睛闪烁已被用于检测面部活性 Kollrei-der等使用嘴部和唇部的动作来进行面部反欺骗[20]。然而，在实践中，自发的面部运动通常太微妙而不能被手工制作的深度学习方法现代CNN的强大表示能力已经在面部反欺骗研究中得到利用[27][16，23，31，42]。[23，31]中的方法使用预训练的CaffeNet或VGG-face模型作为特征提取器来区分活的和欺骗的面孔。在[38]中利用多个空间尺度对实时图像和欺骗图像进行分类。在[26，18]中利用了其他信息，例如远程光电容积描记术（rPPG，心脏脉搏信号）和欺骗噪声。尽管它们的性能相对于传统方法有了进步，但是对于实际使用而言，检测精度和对野外干扰变量的鲁棒性仍然不太令人满意。最近，通过将空间和时间方面考虑在内的simulation，已经实现了改进。我们的工作与[41]在这一类别中最相关，我们都在视频的多帧与[41]相比，我们进一步探索了局部区域融合和注意力机制，以提高性能并允许可解释的分析。3. 数据充分的数据对建立满意的模型起着重要的作用.通常，用于训练模型的数据预计是足够的，并且接近测试数据。然而，社区中当前的数据集要么规模小，要么不能充分模拟真实世界的测试数据，这限制了在这些数据集上训练的模型的潜力。为此，我们自己收集一组数据，并根据收集到的数据建立模型。一般来说，真人脸（不是恶搞）并不难获得。例如，网络上有很多自拍视频此外，它也很容易收集不是自拍但包括面部的视频。我们下载了一组阳性样本，使用Python脚本的实时人脸视频然后是5分10秒使用Dlib [19] Face从每个视频中提取剪辑检测器困难在于获得阴性样本，3509XR路R路作物&调整大小++透视变换+图2.合成欺骗面的过程请放大以检查结果中显示的合成反射伪影即，恶搞人脸视频。众所周知，恶搞行为在现实世界中非常罕见，因此恶搞人脸数据稀缺且昂贵。我们采用以下两种方法获得阴性样本。3.1. 手动模仿欺骗面为了模拟欺骗攻击过程，我们使用各种数字设备来显示正面人脸视频，并使用各种设备来记录所显示的视频。具体地，显示正常视频的设备包括三种型号的iPhone（iPhone 6、iPhone 7和iPhone X）、超过10种型号的流行品牌（三星、华为、小米等）的典型Android手机。）、平板电脑（iPad和Android平板电脑）以及台式机/笔记本电脑屏幕。作为随机变量绘制的模糊。另一方面，用反射加失真来增加正样本的过程如下（也如图所示）。2）的情况。 1)我们首先将阳性样本放入设备模板的屏幕（例如，iPhone）。为了模仿设备中的显示，导出的图像被表示为X′。2)该图像与随机图像混合作为反射层图像，我们得到了一个新图像′=（1-α）X′+αX，其中α是反射层图像X r中的内容的强度变量，从[0，0. 2]。3）由于显示设备很难在现场摄像机前严格垂直放置，我们建议-n应用透视变换（使用随机参数）P（·）到图像X′，产生新图像R用于录制视频的移动设备包括popu-'X路将存在与transfor相关联的掩码M更大的iPhone机型和Android机型。重要的是mation 4）我们再次将变换后的图像X′与注意到要求人类工作人员从收集的图像集中尝试他们的随机背景图像Xb最好模仿攻击过程时，记录欺骗考虑掩模M为，X=M<$X′+（1−M）<$Xb，′视频. 具体地说，他们被要求避开文物屏幕上的反射、莫尔图案、设备边缘/边界的外观等。这种小心的处理，就像是故意攻击的恶搞视频。通过这种方式，我们在不到一个月的时间里用两名人类工作者收集了2500个阴性样本（5 ~ 10秒的视频）3.2. 机器合成的欺骗面孔由人类精心制作的上述程序不够有效。为了解决这个问题，我们提出了一种新的和有效的方法来合成大量的阴性样本的基础上收集的阳性样本。我们观察到，真实世界中的欺骗人脸视频通常以模糊的形式表现出低质量，或者在显示屏幕中的反射加上透视失真。因此，我们合成了两组负样本，共2500个视频。给定正（图像）样本X，将高斯模糊核G应用于具有随机强度的图像以模糊图像。本程序适用于-其中，1是具有相同分辨率大小Xrd的2D矩阵，并且n表示矩阵之间的元素乘积。4. 模型反欺骗任务的输入是人脸视频，所以我们建议挖掘空间和时间线索来完成这个任务。此外，我们发现，除了整个图像提供了一个完整的视图的脸，局部微妙的区域更有助于我们的验证任务。有鉴于此，我们开发了一个名为时空反欺骗网络（STFAN）的神经网络模型，以学习更多有区别的时空特征来完成我们的任务。如图3.该模型由三个模块组成：时间反欺骗模块（TASM）、区域注意模块（RAM）和空间反欺骗模块（SASM）。TASM将人脸反欺骗作为一个视频分类问题，通过挖掘时间线索进行决策。RAM探索了本地-模拟为X=X<$G（σ），其中σ是潜在的微妙细节和每个补丁的出席3510i=1j=1图3.一个STARY模型的概述。该模型由时间反欺骗模块（TASM）、区域注意模块（RAM）和空间反欺骗模块（SASM）组成。TASM是一种CNN-LSTM结构，以帧序列作为输入，预测二进制分类结果。RAM基于来自TASM的CNN特征学习偏移，并输出关于序列图像的关注区域。参与的区域在参数共享的CNN中转发，以给出二进制预测。位置被馈送到SASM中以学习区域表示。4.1. 网络不同视频帧的关系。区域注意模块（RAM）。区域注意模块旨在生成重要的局部区域，设{（Vi，yi）}N表示训练数据集，其中被输入到SASM中。具体来说，当参与者-Vi表示训练视频，yi表示其标签，代表欺骗视频，1代表正常视频。每个视频由多个帧组成，如Vi={Xi，j}M，其中Xi，j表示视频Vi中的第j帧。位置，我们裁剪相应的区域，更精细的尺度，更高的分辨率，以提取细微的特征。为了确保整个网络可以在训练过程中得到优化，我们通过学习一个转换来建模这个过程。通常情况下，作为地面真理，只有类标签是亲-没有重要区域的注释。因此，在人脸反欺骗任务中，我们必须发现这些区域进行特定的处理。与传统战略矩阵作为，ΣT=sh0ax0sw ayΣ、（1）与随机选择[2]或添加卷积层的简单融合[24]一样，我们仔细设计了一种注意机制RAM，其具有更少的参数和更合理的初始化设置，用于定位有区别的和有意义的子区域。我们的STESTLE的概述如图所示。3.第三章。如前所述，STARCH包括三个模块。时间反欺骗模块（TASM）旨在捕获视频帧之间的时间依赖性。空间反欺骗模块（SASM）由K个流组成，每个流的目的是学习微妙的区别特征。区域注意模块（RAM）生成注意区域。时间反欺骗模块（TASM ）。TASM是一种Conv-LSTM结构，由卷积神经网络组成，用于提取代表性的视觉特征，LSTM模块，用于跨多个帧编码时间相关性我们使用在ImageNet数据集上预训练的50层ResNet该网络之后是全局平均池化层。一个LSTM模块跟随池化层，其允许裁剪和平移操作。我们修复SH和sw作为预定义的常数值来设置区域大小，并输出2×K（K是关注区域的数目）参数，以定位图像边界内的各个区域。为了实现这一目标，我们开发了一个简单而又有效子网络。如图4，我们将输入作为res conv5块的特征。然后是一个7×7滤波器的深度卷积层之后我们执行1×1通道卷积运算并输出2×K参数，表示相对于锚点位置的偏移/平移。这种横向通道结构对于学习空间注意力位置是有用的。该运算仅需常规卷积所需参数的1/C（C将关注区域的锚点位置初始化为图像的中心是简单的。然而，我们发现寻找注意区域位置的优化容易陷入局部过拟合，M*K共享参数SASMCNNCNNRAM粤ICP备16048777号-1TASM最大池化M个帧CNNLSTM……………3511FkKKCM*K*2采样器粤ICP备16048777号-1卷积1x1变换参数M个图像M*K图4.区域注意模块。输入是来自TASM中CNN的特征。通过应用深度卷积和卷积，函数卷积，输出变换参数这些参数由采样器参考以给出关注的局部区域。训练阶段因此，期望产生重要区域的更好的初始定位我们采用Grad-Gram [35]，它产生一个粗略的定位图，突出显示重要区域，以初始化注意区域的位置。当RAM结构学习位置偏移时，可以获得关注区域以及更好的初始化。假设我们已经有了时间反欺骗模块（TASM），给定图像X及其对应的标签yc，我们通过TASM转发该图像并考虑其标签计算原始分数。该分数信号被传播回卷积特征映射卷积层的Fk然后，我们推导出分数的梯度，当Fk为α时，通过全局池化来操作，以获得目标类c的特征图Fk的重要性权重αc，c1无菌室yc对相应的输出映射进行最大池化操作，使用批归一化[17]和ReLU的1×1卷积层将2048-dim特征减少到256-dim。然后我们连接K个256-dim特征的数量来分类欺骗面部与真实面部。在测试阶段，为了获得最有力的区分，我们结合时间和空间分数来得出最终分数。4.2. 逐步培训为了更好地优化注意定位和分类任务，我们开发了一个三步训练算法。在第一步中，我们通过使用在ImageNet上预训练的ResNet网络在 TASM中初始化CNN。然后，我们将视频数据馈送到具有交叉熵损失的5个训练时期的TASM中，并导出预训练的时间路径模型TASM。在第二步中，我们修复预先训练好的αk=zI jk，（2）IJTASM，并一起训练RAM和SASM具体最后，我们采用TASM获得的响应图像其中z是归一化因子。我们可以执行正向激活图的加权组合，并将其公式化为，ΣSF= ReLU（αcF k）。（三）K我们得到一个与卷积特征图大小相同的分数图（本例中为7×7），并在该分数图上应用双线性插值，使其与输入图像大小相同。然后，我们使用平均池化操作来导出一个4×4的得分图，每个值表示4 ×4网格中一个网格的重要性我们选择最大的K值，并让其相应的区域posi-作为帧中的初始重要区域。考虑到初始化位置，RAM结构将学习相应的偏移ax和ay通过这样做，可以获得最终的重要局部区域。空间反欺骗模块（SASM）。如图3、空间反欺骗模块（SASM）是一个多分支网络结构。该模块包括K个本地分支流。每个流的目的是学习最具鉴别力的特征用于面部图像的K个局部区域之一。为了减少模型参数，我们在多个流之间共享卷积层。全球每帧由Grad-Gram算法。然后，我们使用所提出的区域注意模块来生成局部区域，并将这些调整大小的局部补丁送入SASM与交叉熵损失。经过5次训练，我们获得了预训练的RAM和SASM。在第三步中，我们通过将学习速率降低到之前速率的1/10来优化训练性能，在另外5个epoch中5. 实验在本节中，我们对人脸反欺骗任务进行了广泛的实验在下文中，我们顺序地描述所采用的数据集度量（第二节）。5.1），实施细节（第5.2）和结果（第5.3-5.5 ）。5.1. 数据集指标我们在四个公共人脸反欺骗数据库上评估了所提出的模型，包括 Replay-Attack [11] ， CASIA-MFSD[44]， [10]和最新的SiW [26]。CASIA-MFSD [44]包含50个主题，每个主题有12个视频，具有3种不同的分辨率和照明条件。重播攻击[11]包括1300个现场和F3512表1. Oulu-NPU的消融研究结果，包括Pro-toplastin1和3。Prot.方法APCER（%）BPCER（%）ACER（%）1TASM1.73.32.5STYLE（无检索）2.12.52.3STYLE1.22.51.93TASM5.8±4.31.4±2.43.6±1.9STYLE（无检索）5.4±3.81.1±1.33.3±1.9STYLE4.7±3.90.9±1.22.8±1.650个主题的恶搞视频。这两个数据集用于交叉测试。Oulu-NPU [10]由990个真实人脸视频和3，960个恶搞人脸视频组成。有四个测试协议与Oulu-NPU相关，以评估算法的通用化。方案1评估照明变化，方案2研究不同类型的欺骗介质的影响协议3检查不同相机设备的影响，协议4调查上述所有挑战SiW数据集显示了不同现实世界因素的变化提出了三个协议与此数据集，关于模型性能方面的面部姿势和表情变化，跨欺骗媒体的重放攻击，和跨类型的攻击（例如，从打印攻击到重放攻击）。我们采用的性能指标是攻击呈现分类错误率（APCER）[4]，善意呈现分类错误率（BPCER）[4] 半总错误率（ HTER ）。 HTER 是错误拒绝率（FRR）和错误接受率（FAR）之和的一半。此外，我们使用ACER =（APCER+BPCER）/2。5.2. 实现细节该模型使用PyTorch框架实现我们使用K=4作为区域的数量，并设置sh=sw=0的情况。二十五在每帧的人脸检测之后，我们将每个人脸调整为固定大小224×224。我们使用Adam来优化我们提出的网络，在第二节描述的第一步和第二步中，学习率为5e−5四点二。这种学习率在微调的第三步中减小到其1/10的幅度。时间CNN-LSTM网络的批量大小为10，帧的数量M为10。我们亦会使用所收集的数据以进一步提高绩效。具体来说，我们使用自己的数据训练一个与TASM中CNN结构相同的CNN。我们将TASM中的CNN替换为用我们自己的数据训练的CNN模块。在评估之前使用单个公共数据集也就是说，我们只使用自己的数据来学习强大的功能作为预训练。我们将在稍后讨论在最终性能中使用我们自己的数据的意义5.3. 消融研究注意力机制的优势。显然，时间路径TASM可以完成任务。空间路径（SASM）与注意力模块RAM一起进一步挖掘任务的重要局部区域。因此，通过比较单独的TASM和整个网络的性能我们使用方案1和3对Oulu-NPU数据集进行消融研究。表1示出了比较结果。TASM表示唯一的时间路径，而STARCH是具有时间路径和关注的空间路径的完整方法。在不同的度量方面，STSTARCH优于TASM，误差减少约30%，表明通过将局部补丁与注意机制相融合，可以更准确地对欺骗人脸进行分类。初始区域搜索的优势。如所提及节中4.1、初始化图像随着偏移量的学习，图像容易陷入局部最优。因此，我们采用梯度革兰氏方法通过TASM获得更好的初始位置的局部区域，然后学习相应的偏移。在表1中将这种寻找初始区域的策略与朴素初始化方法（没有搜索）进行比较。如表1所示，与没有搜索的策略相比，寻求更好的初始区域位置进一步降低了错误率，表明了其优势。5.4. 内部测试在Oulu-NPU和SiW数据集上进行了内部测试。我们严格遵循Oulu-NPU上的四个测试协议和SiW上的三个协议进行评估。APCER、BPCER和ACER的度量值报告为定量结果。采用一组方法作为对比，包括CPqD[5]，GRADIANT [5]，MILHP [25]，MixedFAS-[18][19]我们使用Oulu-NPU数据集训练模型，在表2中称为此外，如SEC中所述。5.2，我们通过使用我们收集的数据推导出一个模型（第二节）。3）进行预训练，并与相关数据集进行微调。该模型在表中被称为表2显示，1）与最先进的结果相比，我们的方法（没有我们的数据）获得了相当的结果。它实现了三个最佳值和两个次佳值。这表明，我们的模型有效地区分欺骗面孔，而不诉诸其他信息来源。2)用我们自己的数据进行预训练，我们的方法优于所有的比较方法，具有明显的优势。特别是第四议定书，这是最困难的-ficult协议在这个数据集上，错误率的降低是最好的（通过比较第二个最好的）。它揭示了使用我们自己的数据的重要性，3513表2. Oulu-NPU上四种协议在不同度量下对于每个指标，较小的值意味着更好的性能。最好的性能以粗体显示，第二好的结果以下划线表示。这也适用于下表。Prot. 方法APCER（%）BPCER（%）ACER（%）1CPqD [5]2.910.86.9GRADIANT [5]1.312.56.9[25]第二十五话8.30.84.6辅助设备[26]1.61.61.6[18]第十八话1.21.71.5我们1.22.51.9我们的+1.20.81.02MixedFASNet[5]9.72.56.1[25]第二十五话5.65.35.4[18]第十八话4.24.44.3辅助设备[26]2.72.72.7GRADIANT [5]3.11.92.5我们4.20.32.2我们的+1.40.81.13MixedFASNet[5]5.3±6.77.8±5.56.5±4.6[25]第二十五话1.5±1.26.4±6.64.0±2.9GRADIANT [5]2.6±3.95.0±5.33.8±2.4[18]第十八话4.0±1.83.8±1.23.6±1.6辅助设备[26]2.7±1.33.1±1.72.9±1.5我们4.7±3.90.9±1.22.8±1.6我们的+1.4±1.43.6±4.62.5±2.24MassyHNU [5]35.8±35.38.3±4.122.1±17.6[25]第二十五话15.8±12.88.3±15.712.0±6.2GRADIANT [5]5.0±4.515.0±7.110.0±5.0辅助设备[26]9.3±5.610.4±6.09.5±6.0[18]第十八话1.2±6.36.1±5.15.6±5.7我们6.7±10.68.3±8.47.5±4.7我们的+0.9±1.84.2±5.32.6±2.8表3.SiW的三个协议的结果Prot.方法ACER（%）1辅助设备[26]3.58我们1.00我们的+0.302辅助设备[26]0.57± 0. 69我们0.28± 0. 05我们的+0.15±0.053辅助设备[26]8.31± 3。80我们12.10± 1。50我们的+5.85±0.85包括人工模拟数据和机器合成数据。对于最新的SiW数据，我们也严格遵循三个测试方案，并在表3中报告结果。关于第一和第二协议，我们的方法以显著的优势击败了现有技术[26对于第三个协议，所提出的模型并不优于它。然而，通过收集到的有用数据，我们的模型在所有协议上都取得了最好的性能，表明了我们的模型和数据的有效性。表4.CASIA-MFSD数据集上的交叉检验比较与重放攻击数据集的HTER比较。方法火车测试火车测试CasiaMFSD重放攻击重放攻击CasiaMFSD运动[13]50.2%百分之四十七点九LBP-TOP [13]百分之四十九点七60.6%[3]第三章百分之五十点一47.0%光谱立方体[34]百分之三十四点四百分之五十LBP [6]47.0%百分之三十九点六颜色纹理[8]30.3%百分之三十七点七[42]第四十二话48.5%45.5%辅助设备[26]百分之二十七点六百分之二十八点四[18]第十八话28.5%41.1%我们百分之三十一点五百分之三十点九我们的+百分之十八点七25.0%5.5. 正交实验交叉测试的目的是证明有关模型的推广潜力。为了验证模型的泛化能力，我们还进行了交叉测试。为了使其更具体，应用了两个测试设置。第一个是在CASIA-MFSD数据集上训练模型，并在Replay-Attack数据集上进行测试。第二个是交换训练数据集和测试数据集。与先前方法比较的结果示于表4中。我们的方法没有我们自己的数据击败了大多数传统方法加上CNN方法。我们的模型的性能与FaceDs [18]的最新结果相当，而略差于Auxiliary [26]。正如我们之前提到的，使用深度等附加信息来帮助分类，因此该模型有望实现比我们更好的性能。然而，根据我们的数据，我们的模型优于辅助模型。[26]并达到最佳性能。这验证了大量的合成数据确实提高了交叉测试情况下模型的泛化潜力。6. 分析随着先进性能的显著进步，我们有义务更多地了解拟议模型背后的内容：它是否足够健壮，能够对真实人脸和欺骗人脸进行分类？它在寻找什么线索来做出决定？幸运的是，在所提出的模型中的注意力机制，3514我们能够进行可视化实验，并揭示更多有趣的发现如下。模型如何表现？首先，我们的目的是研究所衍生的模型的行为例如，这两个类的边界是什么，即欺骗脸和活脸。为此，我们进行人脸特征的特征降维我们试图发现散点图中是否有任何模式。3515图5.欺骗面孔和实时面孔的2D可视化。降维的2D面特征绘制在左侧。与选定的最重要区域对应的面显示在右侧。请放大查看详情。最好用彩色观看。图6. RAM分别在活动面（顶部）和欺骗面（底部）上关注的局部区域。请注意，在实时人脸图像上，目标区域始终位于中心，而在欺骗人脸图像上则不同，表示边界等线索。最好用彩色观看。为了更好地可视化面部，采用t-SNE [28]作为特征降维的方法具体来说，我们使用TASM中最终卷积层的输出Z∈R2048×7×7作为特征。[35]这是一个很好的例子。特征图Z以选择最重要的部分Zp∈R2048。然后t-SNE通过最佳地保持KL发散距离将高维特征Zp图的左侧5显示绘制的结果，而0表示欺骗面，1表示活动面。右侧示出了具有所选择的最IM的注释感受野（由白框指示）的相应面部降维的重要区域。通过观察这个数字，我们有以下发现。1）虽然有几个面用不同的标签一起绘制，但一般来说，这些面是明确分开的。2)此外，不难发现每个类中存在聚类。我们进一步发现，这些集群表现出类似的线索。这一发现在恶搞面孔中更为明显。例如，如图1中的放大部分所示。5、具有明显显示设备边界的面容易被绘制在一起。3)如果我们放大以检查活动的面部，有趣的是，所选择的最重要的区域在图像空间中也是空间上接近的。这证明了模型的一致性，即相似的面部具有相似的重要局部区域。总的来说，在我们的任务中，重要区域的面被很好地分类，因此带注意力的区域分类的附加分支是重要的，并且不受整体空间的影响分布参加的地区有哪些？我们也很好奇参加的地区，为什么这些地区是在- tended。图6示出了由区域注意模块（RAM）定位的四个区分顶行和底行分别显示活动面和欺骗面。白色框表示初始区域的位置，黄色框是RAM输出的位置另外，活体面部更多地关注鼻尖附近的区域。然而，对于恶搞人脸，RAM更倾向于捕捉各种其他线索，如边界，莫尔图案，反射伪影等，这与人类的感知一致，因为人类也依赖于这样一种线索来做出决定。7. 结论在本文中，我们提出了一个实用的解决方案，建立一个强大的和强大的人脸反欺骗模型。该模型，即时空反欺骗网络（STFAN），考虑全局时间和局部空间线索来区分真实人脸和欺骗人脸。具体来说，STSTARY是在使用所提出的数据采集方法收集的大量数据上进行训练的。我们的模型在公共人脸反欺骗数据集上的性能证明了其优于现有技术的优越性。我们的研究表明，在大量训练数据上进行人脸反欺骗的研究对于现实世界的应用更实用，因为在不能很好地模拟真实世界数据的数据集上训练的模型在实践中可能意义不大，影响也不大。确认肖扬是腾讯人工智能实验室的实习生，同时也在做这项工作。这项工作得到了国家自然科学基金委员会的支持（No. 61671289号61571261）和STCSM Grant15DZ2270400。3516引用[1] A.阿加瓦尔河Singh和M. Vatsa.面对反欺骗使用haralick功能。在2016年IEEE第8届生物识别理论，应用和系统国际会议（BTAS），第1-6页，9月。2016. 1[2] Yousef Aiden ， Yaojie Liu ， Amin Jourabloo ， andXiaoming Liu. 使用补丁和基于深度的cnns的人脸反欺骗在国际生物识别联合会议（IJCB），第319-328页，2017年。一、二、四[3] Samarth Bharadwaj，Tejas I Dhamecha，Mayank Vatsa，and Richa Singh.计算效率高的脸欺骗检测与运动放大。在IEEE计算机视觉和模式识别研讨会上，第105-110页7[4] ISO/IEC JTC 1/SC 37生物统计学。信息技术- 生物特征表示攻击检测.第1部分：框架。国际标准化组织，2016年。6[5] ZinjudineBoulkenafet，JukkaKomulainen，ZahidAkhtar ， Azeddine Benlamoudi ， Djamel Samai ，Salah Eddine Bekhouche ， Abdelkrim Ouhouche ， FadiDornaika，Abdelmalik Taleb-Ahmed，Le Qin，et al.移动场景下基于广义软件的人脸呈现攻击检测竞赛。在国际生物识别联合会议（IJCB），第688-696页，2017年。六、七[6] Zinelabidine Boulkenafet、Jukka Komulainen和AbdenourHadid。基于颜色纹理分析的人脸反欺骗国际图像处理会议（ICIP），第2636-2640页，2015年二、七[7] Z. Boulkenafet，J. Komulainen和A.哈迪德基于颜色纹理分析的人脸欺骗检测。 IEEE Trans-actions onInformation Forensics and Security，11（8）：18182[8] Zinelabidine Boulkenafet、Jukka Komulainen和AbdenourHadid 。基于颜色纹理分析的人脸欺骗检测 IEEETransactions on Information Forensics and Security， 11（8）：1818-1830，2016。二、七[9] Zinperidine Boulkenafet，Jukka Komulainen和Abde- nourHadid。使用加速鲁棒特征和Fisher矢量编码的人脸反欺骗。 Signal Processing Letters ， 24 （ 2 ）： 141-145 ，2017。2[10] Zinquiinde Boulkenafet ， Jukka Komulainen ， Lei Li ，Xiaoyi Feng，and Abdenour Hadid.Oulu-npu：一个具有真实世界变化的移动人脸呈现攻击数据库在2017年的自动面部手势识别（FG）国际会议上，第612-618页一、五、六在现实世界中的措施工作吗？在国际生物识别会议（ICB），第1-8页，2013年。二、七[14] M. De Marsico，M. Nappi，D. Riccio和J.杜杰雷基于3d投影不变量的运动人脸欺骗检测。2012年第五届IAPR生物识别国际会议（ICB），第73-78页，2012年3月。1[15] N. Erdogmus和S.马塞尔用3d面具欺骗人脸识别IEEETransactions on Information Forensics and Security ， 9（7）：1084-1097，2014年7月。1[16] Litong Feng，Lai-Man Po，Yuming Li，Xuyuan Xu，Fang Yuan，Terence Chun-Ho Cheung，and Kwok-WaiCheung.集成图像质量和运动提示，用于面部反欺骗：神经网络方法。视觉传播和图像表示杂志，38：451-460，2016。2[17] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议，第448-456页，2015年5[18] Amin Jourabloo，Yaojie Liu，and Xiaoming Liu.面部反欺骗：通过噪声建模反欺骗欧洲计算机视觉会议（ECCV），2018年。二六七[19] 戴维斯E.王Dlib-ml：一个机器学习工具包。Journal ofMachine Learning Research，10：1755-1758，2009。2[20] Klaus Kollreider，Hartwig Fronthaler，Maycel Isaac Faraj和Josef Bigun。实时人脸检测和运动分析及其在活体评估中的应用。 IEEE Transactions on InformationForensics and Security，2（3）：548-558，2007。2[21] JukkaKomulainen ， AbdenourHadid ， andMattiPietikainen.基于上下文的人脸反欺骗。在IEEE第六届国际生物统计学会议上：理论，应用和系统，第1-8页，2013年。2[22] Jiangwei Li，Yunhong Wang，Tieniu Tan，and Anil KJain.基于傅立叶谱分析的活体人脸检测。在用于人类识别的生物识别技术中，第5404卷，第296-304页。国际光学与光子学学会，2004年。2[23] Lei Li ， Xiaoyi Feng ， Zinperidine Boulkenafet ，Zhaoqiang Xia，Mingming Li，and Abdenour Hadid.一种基于部分卷积神经网络的人脸反欺骗方法。图像处理理论工具和应用国际会议（IPTA），第1-6页，2016年。2[24] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。1：2，2018. 4[25] 陈琳，廖周英成，周鹏，胡建国，[11] 安德烈？伊戈尔？钦戈夫斯卡安乔和塞巴斯蒂安·马塞尔。倪冰冰。使用多个实例进行实时人脸验证-局部二值模式在人脸反欺骗中的有效性研究。在第11届国际生物统计学特别兴趣小组中，EPFL号-CONF-192369，2012年。一、五[12] 蒂亚戈·德·弗雷塔斯·佩雷拉、安德烈·安霍斯、何塞·马里奥·德·马蒂诺和塞巴斯蒂安·马塞尔。基于Lbp-top的人脸欺骗攻击对策亚洲计算机视觉会议（ACCV），第121-132页。Springer，2012. 2[13] 蒂亚戈·德·弗雷塔斯·佩雷拉、安德烈·安霍斯、何塞·马里奥·德·马蒂诺和塞巴斯蒂安·马塞尔。可以进行反欺骗计数-局部单应参数化在国际人工智能联合会议（IJCAI），第814-820页，2018年。二六七[26] Yaojie Liu，Amin Jourabloo，and Xiaoming Liu.学习面部反欺骗的

下载后可阅读完整内容，剩余1页未读，立即下载