人脸去欺骗：通过噪声建模的反欺骗

64 浏览量更新于2023-10-13 收藏 1.68MB PDF 举报

噪声建模

图像分解

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

人脸去欺骗：通过噪声建模的反欺骗AminJourabloo，YaojieLiu，Xiaoming Liu密歇根州立大学计算机科学与工程系{jourablo，liuyaoj1，liuxm}@ msu.edu抽象。许多现有的面部反欺骗工作开发了用于识别真实面部和欺骗面部之间的细微差异的判别模型。这些方法通常将图像视为不可分割的单元，并且整体地处理它，而不对欺骗过程进行明确建模在这项工作中，受噪声建模和去噪算法的激励，我们识别了一个新的人脸去欺骗问题，以达到反欺骗的目的：将欺骗面部逆分解为欺骗噪声和真实面部，然后利用欺骗噪声进行分类。提出了一种具有适当约束和监督的CNN架构，我们评估所提出的方法在多个人脸反欺骗数据库。结果表明，由于我们的欺骗噪声建模有前途的改善此外，估计的欺骗噪声提供了可视化，其有助于理解每个欺骗介质所添加的欺骗噪声。关键词：人脸反欺骗，生成模型，CNN，图像分解1介绍随着智能设备在我们日常生活中的影响力越来越大，人们正在寻求安全便捷的方式来访问他们的个人信息。人脸、指纹、虹膜等生物特征因其固有的独特性和使用方便性而脸作为最流行的模态之一iPhone X）。然而，这种关注也为黑客设计生物特征呈现攻击（PA）或欺骗以被认证为真正的用户带来了越来越大的激励。由于几乎没有成本地访问人脸，欺骗脸可以像打印的照片纸一样简单（即，打印攻击）和数字图像/视频（即，重新播放攻击），或者像3D面具和面部化妆品化妆一样复杂。通过适当的处理，这些欺骗可以在视觉上非常接近真实用户因此，需要开发鲁棒的人脸反欺骗算法。打印攻击和重放攻击作为最常见的欺骗攻击，已经从不同的角度得到了很好的研究。基于线索的方法旨在检测活性线索[1，2]（例如，眨眼、头部运动）来对实况视频进行分类。但是这些方法可以被视频重放攻击所欺骗。基于纹理的方法尝试使用预定义的特征（例如表示作者的同等贡献。2Amin Jourabloo，Yaojie Liu，XiaomingLiu图1.一、面部欺骗和反欺骗过程的说明。去欺骗过程的目的是从欺骗人脸中估计欺骗噪声并重建真实人脸。估计的欺骗噪声对于面部反欺骗应该是有区别的。LBP [3，4]，HOG [5，6]。与基于纹理的方法类似，基于CNN的方法[7，2，8]设计了特征提取和分类的统一过程使用基于softmax损失的二进制监督，它们有过拟合训练数据的风险无论从哪个角度来看，几乎所有的现有工作都将人脸反欺骗处理为黑盒二进制分类问题。相比之下，我们建议打开黑盒子，通过建模的过程中，如何从其原始的实时图像生成的欺骗图像我们的方法受到经典图像去X问题的激励，例如图像去噪和去模糊[9在图像去噪中，被破坏的图像被认为是来自加性噪声的退化，例如，椒盐噪声和高斯白噪声。在图像去模糊中，未受污染的图像由于运动而退化，这可以被描述为卷积过程类似地，在面部反欺骗中，欺骗图像可以被视为实时图像的重新渲染，但是具有来自欺骗介质和环境的一些因此，自然的问题是，当给定欺骗图像时，我们能否恢复潜在的实时图像，类似于图像去噪？是的本文展示了我们将将欺骗面部分解为欺骗噪声模式和真实面部的过程称为面部去欺骗，如图1所示。1.类似于先前的de-X工作，退化图像x∈Rm可以用公式表示为原始图像x¨的函数，de灰度矩阵A∈Rm×m和一个加法ive噪声n ∈Rm。x=Ax+n=x+（A−I）x+n=x+N（x），（1）其中N（x）=（A−I）x+ n是图像相关噪声函数。在解决A和n之前，我们决定直接估计N（x），因为它在深度学习框架下更容易解决[13 本质上，通过估计N（x（）和x（），我们的目标是剥离欺骗噪声并重建原始的活体面部。同样，如果给一张活生生的脸，脸反欺骗模型应返回自身加上零噪声。请注意，我们的脸去欺骗的目的是处理纸张攻击，重放攻击和可能的化妆攻击，但我们的实验仅限于前两个PA。面部去欺骗的好处有两个：1) 它反转或撤销欺骗产生过程，这帮助我们对不同欺骗介质的欺骗噪声模式进行建模和可视化2）欺骗噪声本身在实况图像和欺骗图像之间是有区别的，并且因此对于面部反欺骗是有用的生物计量系统反欺骗反欺骗实时面部欺骗面部去欺骗3虽然面部去欺骗与其他图像去X问题具有相同的挑战，但它有一些明显的困难需要克服：没有地面真相：图像de-X工作通常使用合成数据，其中原始未退化图像可以用作监督学习的基础事实。相比之下，我们无法访问作为欺骗面部图像的对应面部的X（）。无噪声模型：目前对欺骗噪声还没有全面的研究和认识。因此，不清楚我们如何能够约束解空间以忠实地估计欺骗噪声模式。各种恶搞媒体：每种类型的欺骗利用不同的欺骗介质来生成欺骗图像。每个欺骗介质代表一种特定类型的噪声模式。为了应对这些挑战，我们提出了一些限制和监督的基础上，我们的先验知识和案例研究的结论（在第3.1节）。假定一个视觉图像没有欺骗噪声，我们施加一个视觉图像的N（x（））为零的约束。基于我们的研究，我们假设欺骗图像的欺骗噪声是普遍存在的，即，它存在于图像的空间域中的任何地方;并且是重复的，即，它是图像中某些噪声的空间重复可以通过最大化傅立叶域中的估计噪声的高频幅度来鼓励重复性。利用[18]中提出的这些约束和辅助监督，本文提出了一种新的CNN体系结构给定一幅图像，一个CNN被设计成合成欺骗噪声模式并重建相应的实时图像。为了检查重建的实时图像，我们以端到端的方式训练另一个具有辅助监督和GAN类鉴别器的这两个网络的设计，以确保重建的图像的质量，关于其之间的区别性活和欺骗，和合成的活的图像的视觉似然性。总之，这项工作的主要贡献包括：我们提供了一个新的视角来检测欺骗脸从打印攻击和重放攻击，通过逆分解欺骗脸图像到活的脸和欺骗噪声，而不具有地面真理。提出了一种新的CNN架构用于人脸去欺骗，其中施加了适当的约束和辅助监督。我们通过其对面部反欺骗的贡献和欺骗噪声模式的可视化来证明面部去欺骗的价值。2先前工作我们从两个角度回顾与我们最相关的先前工作：基于纹理的人脸防欺骗和de-X问题。基于纹理的人脸反欺骗纹理分析被广泛用于人脸反欺骗以及其他计算机视觉任务[19，20]，其中定义有效的特征表示是关键。早期的工作应用手工制作的特征描述符，如LBP [3，4，21]，HoG [5，6]，SIFT [22]和SURF [23]，将面部投影到低维嵌入。然而，那些手工制作的特征不是专门设计来捕获欺骗面部中的细微差异的，因此嵌入可能不是有区别的。另外，那些特征可能对诸如照明、姿态等的变化不鲁棒。为了克服其中一些困难，4Amin Jourabloo，Yaojie Liu，XiaomingLiu研究人员在不同的领域解决了这个问题，例如HSV和YCbCr颜色空间[24，25]，时间域[26进入深度学习时代，研究人员的目标是建立更高精度的深度模型。大多数CNN作品将面部反欺骗视为二进制分类问题并应用softmax损失函数。与手工制作的特征相比，这样的模型[29]在内部测试中实现了显著的改进（即，在同一数据集内训练和测试）。然而，在交叉测试期间（即，在不同的数据集中训练和测试），这些CNN模型由于对训练数据的过拟合而表现出较差的泛化能力。Atoum等人[31]和Liu et al.[怎么样？观察softmax损失的过拟合问题，并且两者都提出了新的辅助驱动损失函数来代替softmax来监督CNN。这些工作给我们带来了深刻的见解，我们需要涉及的领域知识来解决人脸反欺骗。据我们所知，所有以前的方法都是判别模型。只有少数论文[22，2]试图对欺骗噪声模式的类型和属性进行分类，例如颜色失真和莫尔图案。在这项工作中，我们分析了欺骗噪声的属性，并设计了一个GAN方式的生成模型[32]来估计欺骗噪声模式并将其从欺骗图像中剥离。我们相信，通过对欺骗图像进行分解，CNN可以更直接、更有效地分析欺骗噪声，并在处理人脸反欺骗方面获得更多的知识。De-X问题De-X问题，例如去噪、去模糊、去马赛克、超分辨率和修复[33，13-一般去噪工作假设加性高斯噪声，研究人员提出非局部滤波器[33]或CNN [13，34]来利用图像内的固有相似性。对于去马赛克和超分辨率，许多模型，例如[14，15]中的ResNet和[16，17，35]中的联合模型，都是从给定的低质量输入和高质量地面真实值对中学习的。在图像修复中，用户在遮罩图中标记要修复的区域，并基于现有的补丁纹理和未遮罩区域中的整体视图结构应用填充[39，36，37]。现有de-X问题的一个优点是可以容易地合成大部分图像退化这带来两个好处：1）它为模型训练提供输入的退化样本和用于监督的黄金地面真实原始图像。2) 很容易合成大量数据用于训练和评估。相反，由于欺骗而导致的降级是通用的、复杂的和微妙的。它包括两个阶段的降解：一个来自欺骗介质（例如，纸张和数字屏幕），另一种来自欺骗介质与成像环境的相互作用每个阶段包括大量的变化，诸如介质类型、照明、非照明等。刚性变形和传感器类型。这些变化的组合使得总体降解变化很大。因此，几乎不可能通过合成降级来模拟真实的欺骗，这与传统的de-X问题相比是面部去欺骗的独特挑战。在没有降质图像的真实信息的情况下，人脸去欺骗成为一个非常具有挑战性的问题。在这项工作中，我们提出了一个新的损失函数和监督，以解决去欺骗问题的编码器-解码器架构。面部去欺骗5现场本地区域打印攻击局部区域局部区域噪声频率响应欺骗模式重放攻击局部区域局部区域噪声频率响应欺骗模式图二. 欺骗噪波图案的图示。左：活动面及其局部区域。右图：来自打印攻击和重放攻击的两个注册欺骗面孔对于每个样本，我们示出了面部的局部区域、与实时图像的强度差、2DFFT的幅度以及指示欺骗噪声模式的频域中最好是电子观看。3人脸去欺骗在本节中，我们将从欺骗噪声模式的案例研究开始，它展示了噪声的一些重要特征。这项研究促使我们设计新的CNN架构，将在第二节中介绍。3.2.3.1欺骗噪声模式人脸去欺骗的核心任务是估计给定人脸图像中与欺骗相关的噪声模式。尽管使用CNN模型的优势，我们仍然面临着在没有噪声模式的基础事实的情况下学习的挑战。为了应对这一挑战，我们首先要对噪声模式进行案例研究，目的是回答以下问题：1）是Eqn。一个很好的模仿噪声的欺骗？2)欺骗噪声具有什么特征？让我们把一个真正的面表示为通过使用打印纸或数字设备上的视频回放，攻击者可以从考虑到I和I之间没有非刚性变形，我们将从I到I的de级配总结为以下步骤：1. 颜色失真：颜色失真是由于欺骗介质的较窄色域（例如，LCD屏幕或碳粉盒）。它是从原始颜色空间到更小的颜色子空间的投影。该噪声取决于对象的颜色强度，并且因此其可以在降级期间作为降级矩阵应用于真实面部I2. 显示瑕疵：欺骗媒介通常使用几个附近的点/传感器来近似一个像素的颜色，并且它们还可以显示与原始大小不同的面部。近似和下采样过程会导致一定程度的高频信息丢失、模糊和像素扰动。该噪声由于其受试者依赖性也可以应用为退化矩阵。活体面部现场本地区域6Amin Jourabloo，Yaojie Liu，XiaomingLiuN0\1地图网0\1地图重复损失幅度损失$DS Net更新参数没有要更新的参数DQ网VQ网我我”真实/合成图三. 建议的网络架构。3. 呈现文物：当将欺骗介质呈现给相机时，介质与环境交互并带来若干伪像，包括表面的反射和透明度。该噪声可以作为加性噪声应用。4. 成像伪影：在相机的传感器阵列上成像网格图案，例如屏幕像素（例如，CMOS和CCD）会引起光的干涉。这种效果会导致混叠并产生莫尔条纹，这会出现在重放攻击和一些具有强晶格伪影的打印攻击中该噪声可以作为加性噪声应用这四个步骤示出了欺骗图像I可以通过将退化矩阵和附加噪声应用于（I）来生成，其基本上由等式（1）来表示。1.一、如Eqn所示。在图1中，欺骗图像是实时图像和图像相关噪声的总和。为了进一步验证这个模型，我们在图中展示了一个例子二、给定高质量的实时图像，我们通过打印和重放at- tack小心地产生两个欺骗图像，具有最小的非刚性变形。在将每个欺骗图像与实况图像配准之后，如果我们将对欺骗图像执行去欺骗，则实况图像变为地面实况实况图像这使我们能够计算出和欺骗图像，其是噪声模式N（I）。为了分析它的频率特性我们在欺骗噪声上执行FFT并且示出2D移位幅度响应。在这两种欺骗情况下，我们观察到在低频域中的高响应，其与颜色失真和显示伪像有关。在打印攻击中，步骤3中的重复噪声导致高频域中的几个“峰值”响应。类似地，在重放攻击中，可见的莫尔图案反映为低频域中的几个毛刺，并且引起莫尔图案的晶格图案表示为高频域中的峰值。此外，由于欺骗介质的均匀纹理，欺骗图案均匀地分布在图像域重复模式在频域中的高响应准确地表明它在图像中广泛出现，因此可以被视为无处不在。在这种理想的配准下，实时图像和欺骗图像之间的比较为我们提供了对欺骗噪声模式的基本理解它是一种具有重复性和普遍性的肌理。基于这种建模和噪声特性，我们设计了一个网络来估计噪声，而无需访问精确配准的地面实况实况图像，如本案例研究所示。面部去欺骗7表1. DS网、DQ网和VQ网的网络结构。每个卷积层之后是指数线性单元（ELU）和批量归一化层。DS Net的输入图像大小为256×256×6。所有卷积滤波器都是3×3。0\ 1 MapNet是左下部分，即conv 1 -10、conv 1 -11和conv 1 -12。DS Net（编码器部分）层Chan./斯特里输出大小DS Net（解码器部分）层Chan./斯特里输出大小DQ网层Chan./斯特里输出大小VQ网层Chan./斯特里输出大小输入图像输入池1 -1+池1 -2+池1 -3输入{image，live}输入{image，live}conv1-024/1256调整大小-/-256conv3-064/1256conv1-1conv 1 -2conv 1-3池1 -120/125/120/1-/2256256256128conv2-1conv2-228/124/1256256conv3-1conv 3 -2conv 3-3池3 -1128/1196/1128/1-/2256256256128conv4-1conv 4 -2池4 -124/220/2-/2256256128conv1-4conv 1 -5conv 1-6池1 -220/125/120/1-/212812812864conv2-3conv2-420/120/1256256conv3-4conv 3 -5conv 3-6池3 -2128/1196/1128/1-/212812812864conv4-3conv 4 -4池4 -220/116/1-/212812864conv1-7conv 1 -8conv 1-9池1 -320/125/120/1-/264646432conv2-5conv2-620/116/1256256conv3-7conv 3 -8conv 3-9池3 -3128/1196/1128/1-/264646432conv4-5conv 4 -6池4 -312/16/1-/2646432短接池1 -1+池1 -2+池1 -3短接池3 -1+池3 -2+池3 -3向量化1024conv1-10联系我们_联系我们28/116/11/1323232conv2-7conv 2 -8直播16/1 2566/1 256（图片-conv 2 -8）conv3-1012 - 12 -12 -12 -12128/164/11/1323232公司简介fc 4 -2脱落1/1-1/1100百分之零点二23.2反欺骗网络网络概述：图3显示了我们提出的方法的整体网络架构。它由三个部分组成：反欺骗网（DS网）、鉴别质量网(DQ Net）和视觉质量网（VQ Net）。DS Net被设计为估计欺骗噪声模式N（即，从输入图像I输出N（（I））。然后，可以通过从输入图像I减去估计的噪声N来重建图像I。该重建的图像应该是视觉上吸引人的并且实际上是逼真的，这将是令人满意的。分别由DQ Net和VQ Net保护所有网络都可以以端到端的方式进行训练网络结构的详细信息如表1所示。1.一、作为核心部分，DS Net被设计成一个输入I∈R256×256×6的编解码器结构。这里，6个通道是RGB+ HSV颜色空间，遵循[31]中的在编码器部分，我们首先堆叠10个卷积层和3个池化层。受残差网络[40]的启发，我们遵循一个捷径连接：将来自池1-1，池1-2和池1-3的响应连接起来，然后将它们发送到conv1-10。该操作有助于我们将来自不同尺度的特征响应传递到后期阶段，并简化训练过程。再经过3个卷积层，来自conv1-12的响应F∈R32×32×32是欺骗噪声模式。响应的幅度越大，欺骗就越多输入是可感知的。从编码器输出，特征表示F被馈送到解码器中以重构欺骗噪声模式。F的大小直接调整为输入空间大小256×256。它不引入额外的网格伪影，其存在于使用去卷积层的替代方法中。然后，我们将调整大小的F传递到几个卷积层以重建噪声模式N。根据方程式1时，重建的实时图像可以通过以下方式恢复：x=x−N（x）=I−N。DS网络中的每个卷积层都配备了指数线性单元(ELU)和批归一化层。为了监督DS Net的训练，我们设计了8Amin Jourabloo，Yaojie Liu，XiaomingLiu多个损失函数：来自DQ网络和VQ网络的图像质量损失、0\ 1图损失和噪声属性损失。我们将在第二节中介绍这些损失函数。3.3-3.43.3DQ网与VQ网虽然我们没有地面实况来监督估计的欺骗噪声模式，但可以监督重建的实况图像，这隐含地指导噪声估计。为了估计高质量的欺骗噪声，重建的实况图像应该被定量地和视觉地识别为实况。为此，我们提出了两个网络在我们的架构：判别质量网（DQ网）和视觉质量网（VQ网）。VQ网的目的是保证重建的人脸是真实感的。DQ网的建议，以保证重建的脸确实会被认为是活的，根据预先训练的人脸反欺骗网络的判断。我们提出的体系结构的详细信息如表1所示。1.一、鉴别质量网：我们遵循最先进的面部反欺骗网络架构[18]来构建我们的DQNet。它是一个完全卷积的网络，具有三个滤波器块和三个额外的卷积层。每个块由三个卷积层和一个池化层组成每个池化层之后的特征图被调整大小并堆叠，以馈送到下面的卷积层。最后，监督DQ Net以估计输入面部的伪深度D，其中，针对活面部的D是面部形状的深度，并且针对欺骗面部的D我们采用[41]中的3D人脸对齐算法来估计人脸形状并通过Z缓冲渲染深度。与以前的工作类似[42]，DQ Net经过预训练以获得实时人脸和欺骗人脸的语义知识。在DS网的训练过程中，对DQ网的参数进行了调整。由于重建图像是L个图像，因此对应的伪深度D应该是面部形状的深度。来自DQ Net的误差的反向传播引导DS Net估计应当从输入图像中减去的欺骗噪声模式。¨ ¨JDQ=¨CNNDQ（I）−D¨1 、（二）其中CNNDQ是固定网络，并且D是面部形状的深度。视觉质量网络：我们部署GAN来验证估计的实时图像的视觉质量。给定真实图像Ilive和合成图像Ilive，训练VQNet以区分Ilive和Ilive。同时，DSNet试图重建真实感的实时图像，VQ Net将其分类为非合成（或真实）图像。VQ Net由6个卷积层和一个全连接层组成，输出为2D向量，表示输入图像是真实图像或合成图像的概率。在训练过程中的每次迭代中，VQ Net用两个批次进行评估，在第一个批次中，DS Net是固定的，我们更新VQ Net，JVQtrain=−EI∈Rlog（ CNNVQ（I））−EI∈S log（1− CNNVQ（ CNNDS（I），（3）面部去欺骗9其中R和S分别是真实图像和合成图像的集合。在第二批中，VQ Net被固定并且DS Net被更新，JVQtest= −EI∈Slog（CNN VQ（CNN DS（I）。（四）3.4损失函数欺骗建模的主要挑战是缺乏欺骗噪声模式的基础事实由于我们已经得出了一些性质的欺骗噪声在秒。3.1，我们可以利用它们来设计几个新的损失函数来约束收敛空间。首先，我们引入幅度损失来增强实时图像的欺骗噪声为零。第二，零\一图损失被用来证明欺骗噪声的普遍性。第三，我们通过以下方式鼓励欺骗噪声的重复性属性重复性损失我们将三个损失函数描述如下：幅度损失：实时图像的欺骗噪声模式为零。可以利用幅度损失来对估计的噪声施加约束给定原始图像I的估计噪声N和重建图像I=I-N，我们有，Jm= N1。（五）0\1标测图丢失：为了学习编码器层中的区分特征，我们在DS Net中定义了一个子任务来估计活面孔的零映射和欺骗的一个映射。由于这是每个像素的监督，因此它也是对噪声的普遍存在的约束。此外，0\1映射使得每个像素的感受野覆盖一个像素。局部区域，这有助于学习这个问题的可概括特征形式上，给予在编码器中从输入面部图像I提取的特征F，我们有，Jz=CNN01map（F;Θ）-Mz1，（6）其中M∈032×32或M∈132×32是0\ 1映射标号。重复损失：基于先前的讨论，我们假设欺骗噪声模式是重复的，因为它是从重复欺骗介质生成的。为了鼓励重复性，我们将估计的噪声N转换到傅立叶域并计算高频带中的最大值高峰值的存在指示重复图案。我们希望最大化欺骗图像的峰值，但最小化实时图像的峰值，如以下损失函数：. −max（H（F（N），k）），I ∈SpoofJr=max（H（F（N），k））1，I∈Live，其中，F是傅里叶变换算子，H是用于掩蔽低-图像的频域，即，将k×k区域设置在移位的二维傅立叶响应为零。最后，我们训练中的总损失函数是上述损失函数和图像质量的监督，JT=Jz+λ1Jm+λ2Jr+λ3JDQ+λ4JVQ检验，（7）其中λ1、λ2、λ3、λ4是权重。在训练期间，我们在优化等式（1）和（2）之间交替。7和等式。3.第三章。10Amin Jourabloo，Yaojie Liu，XiaomingLiu表2. 所提出的体系结构及其融合的不同输出的准确性。方法0\1映射欺骗噪声深度图融合（欺骗噪声、深度贴图）所有三项产出最大平均最大平均APCER二、501 .一、701 .一、661 .一、701 .一、271 .一、701 .一、27BPCER二、521 .一、701 .一、681 .一、731 .一、731 .一、731 .一、73宏碁二、511 .一、701 .一、671 .一、721 .一、501 .一、721 .一、504实验结果4.1实验装置我们评估了我们在三个人脸反欺骗数据库上的工作，包括打印和重放攻击：Oulu-NPU [43]，CASIA-MFSD [44]和Replay-Attack [45]。Oulu- NPU [43]是一个高分辨率数据库，考虑了许多现实世界的变化。Oulu- NPU还包括4个测试方案：协议1评估照明变化，协议2检查不同欺骗介质的影响，协议3检查不同相机设备的效果，并且协议4包含上述所有挑战。这接近于交叉测试的场景CASIA-MFSD [44]包含分辨率为640×480和1280×720的视频。Replay-Attack [45]包括320×240的视频。这两个数据库经常用于交叉测试[2]。参数设置我们在Tensorflow中实现我们的方法[46]。模型的训练批量为6，学习率为3e-5。我们在重复损失中设置k=64，并在等式n中设置λ1至λ4 7为3，0。005，0。1和0。016分别DQ Net是在DS Net和VQ Net的更新期间，它们被单独训练并且保持固定，但是在每个协议中，所有子网络都用相同的和相应的数据来训练。为了与以前的方法进行比较，我们使用攻击呈现分类错误率（APCER）[47]，善意呈现分类错误率（BPCER）[47]和ACER=（APCER+BPCER）/2 [47]用于Oulu-NPU的内部测试，以及半总错误率（HTER）[48]，FAR和FRR之和的一半，用于CASIA-MFSD和Replay-Attack之间的交叉测试。4.2消融研究使用Oulu-NPU协议1，我们进行了三项研究分数融合的效果，每个损失函数的重要性，以及图像分辨率和模糊度的影响在所提出的架构中，三个输出可以用于分类：0\1图、欺骗噪声模式或深度图的范数。由于我们的学习所具有的区分性，我们可以简单地使用基本分类器，如L-1范数。注意，更高级的分类器是适用的，并且可能导致更高的性能。表2显示了每个输出的性能以及它们与最大值和平均值的融合。实验结果表明，欺骗噪声和深度图的融合效果最好但是，添加0\ 1地图分数不会提高准确性，因为它包含与欺骗噪声。因此，对于其余的实验，我们报告了平均值的性能- 欺骗噪声N和深度图Di 的融合，即，score=（N+D）/2。1¨ ¨1每个损失函数的优点我们在我们的建议中有三个主要的损失函数架构为了显示每个损失函数的效果，我们用每个损失训练一个网络面部去欺骗11简体中文简体中文256 ×256 128 ×128 64 ×64APCER1 .一、27二、27五、24BPCER1 .一、733 .第三章。36五、30宏碁1 .一、503 .第三章。07五、27简体中文简体中文1 ×1 3 ×35 ×5 7 ×7 9 ×9APCER1 .一、27二、293 .第三章。123 .第三章。954.第一章79BPCER1 .一、73二、503 .第三章。334.第一章16五、00表3. ACER的所提出的方法与不同的图像分辨率和模糊。为了创建模糊图像，我们将具有不同内核大小的高斯滤波器应用于输入图像。表4. Oulu-NPU的4个协议的内部测试结果议定书方法APCER（%）BPCER（%）ACER（%）1CPqD[49]二、910个。8六、9[49]第四十九话1 .一、312个。5六、9辅助设备[18]1 .一、61.61 .一、6我们1.21 .一、71.52MixedFASNet[49] 9 .第九条。7二、5六、1我们4.第一章24.第一章44.第一章3辅助设备[18]二、7二、7二、7戈润3.11.92.53混合FASNet五、3 ±6。77 .第一次会议。8 ±5。5六、5 ±4。6戈润2.6±3.9五、0 ±5。33 .第三章。8 ±2。4我们4.第一章0±1。83 .第三章。8 ±1。23 .第三章。6 ±1。6辅助设备[18]二、7 ±1。33.1±1.72.9±1.54[49]第四十九话三十五8±35。38. 3 ±4。1 二十二岁1±17。6戈润5.0±4.5十五岁0±7。110个。0±5。0辅助设备[18]9 .第九条。3 ±5。610个。4±6。09 .第九条。5 ±6。0我们五、1 ±6。36.1±5.15.6±5.7一个接一个地被排除在外。通过禁用幅度损失、0\1图损失和重复性损失，我们获得ACERs 5。24秒2 34和1。50，分别。为了进一步验证重复损失，我们通过将网络输入改变为原始1080P分辨率的脸颊区域来对高分辨率图像进行实验。具有重复损耗的网络的ACER为2。92，但网络没有收敛。分辨率和模糊度如重复损失的消融研究所示，图像质量对于实现高精度是至关重要的欺骗噪声模式可能不在低分辨率或运动模糊的图像中检测到不同图像分辨率和模糊度的测试结果3.这些结果验证了欺骗噪声模式对于较低分辨率或模糊图像的辨别力较低，因为输入图像的高频部分包含大部分欺骗噪声模式。4.3实验比较为了显示我们所提出的方法的性能，我们提出了我们的准确性在Oulu-NPU的内部测试和交叉测试CASIA和重放攻击。内部测试我们比较了我们的内部测试性能的所有4个协议的奥卢- NPU。表4显示了我们的方法与18种先前方法中最好的3种方法的比较[18，49]。我们提出的方法在所有协议上都取得了令人鼓舞的结果具体而言，我们在协议4中的表现远远优于先前的最先进水平，这是最具挑战性的协议，并且类似于交叉测试。12Amin Jourabloo，Yaojie Liu，XiaomingLiu表5. CASIA-MFSD和Replay-Attack数据库之间交叉测试的不同方法的HTER。我们用粗体标记前2名的表现。方法火车测试火车测试CasiaMFSD重放攻击重放攻击CasiaMFSD运动[4]50块百分之二四十七百分之九LBP-TOP [4]四十九百分之七六十岁。6%移动-Mag [50]50块百分之一四十七0%的百分比光谱立方体[51]三十四百分之四50块0%的百分比美国有线电视新闻网[8]四十八百分之五四十五百分之五LBP [24]四十七0%的百分比39岁6%颜色纹理[25]三十百分之三百分之三十七点七辅助设备[18]百分之二十七点六百分之二十八点四我们百分之二十八点五41岁百分之一交叉测试我们在CASIA-MFSD [44]和Replay- Attack [45]之间进行交叉测试。如Tab.所示。5、在CASIA-MFSD与重放攻击的交叉测试中，该方法取得了较好的性能。然而，我们实现了一个更差的HTER相比，从重放攻击CASIA-MFSD的最佳性能的方法我们推测原因是CASIA-MFSD的图像比重放攻击的图像具有更高的分辨率。这表明，用较高分辨率数据训练的模型可以在较低分辨率的测试数据上很好地泛化，但反之则不然。这是本文方法的一个局限性，值得进一步研究。4.4定性实验欺骗介质分类测试图像的估计欺骗噪声模式可以用于将它们聚类到不同的组中，并且每个组表示一个欺骗介质。为了可视化结果，我们使用t-SNE [52]进行降维。t-SNE通过最好地保留噪声N∈R256×256×6，将噪声N ∈ R 256×256×6投影到2维KL发散距离图4显示了Oulu上测试视频的分布NPU方案1.左图显示，现场的噪声聚类良好，而欺骗的噪声是受试者相关的，这与我们的噪声假设一致。为了获得更好的可视化效果，我们利用高通滤波器提取噪声模式的高频信息进行降维。右图示出了高频部分具有关于欺骗类型的更多主体无关信息，并且可以用于欺骗介质的分类。为了进一步显示估计的欺骗噪声的辨别能力，我们将协议1的测试集划分为训练和测试部分，并训练SVM分类器用于欺骗介质分类。我们训练了两个模型，一个三级分类器（现场，打印和显示）和一个五级分类器（现场，打印1，打印2，显示1和显示2），它们达到了82的分类准确率。0%，54。3%，如表1所示。6.五类模型的大部分分类误差都在同一欺骗介质内。考虑到在欺骗噪声模型的学习期间没有提供欺骗介质类型的标签，该结果是值得注意的然而，估计的噪声实际上携带关于介质类型的可感知信息;因此，我们可以观察到以下的合理结果：面部去欺骗13zzz预测值zzzz实际生活打印显示生活5910打印08832显示13899zzz预测值zzzz实际生活打印机1打印2 显示器1 显示器2生活590100打印机10412116打印20341196显示器110601331显示器2870639图4.第一章Oulu-NPU协议测试视频欺骗噪声估计的二维可视化1.一、左：估计噪声，右：估计噪声的高频带，颜色代码使用：黑色=实时，绿色=打印机1，蓝色=打印机2，品红色=显示器1，红色=显示器2。表6. 基于欺骗噪声模式的欺骗媒体分类混淆矩阵。欺骗介质分类。这表明估计的噪声包含欺骗介质信息，并且实际上我们正朝着估计驻留在每个欺骗图像中的忠实欺骗噪声的方向移动。未来，如果欺骗介质分类的性能得到改善，这可能会给法医等应用带来新的影响成功和失败的案例我们在图中展示了几个成功和失败的案例5-6. 图图5示出了估计的欺骗噪声在每个介质内是相似的，但是不同于其他媒介。我们怀疑前四列中的黄色是由于纸张攻击中较强的颜色失真。第五行示出了实况图像的估计噪声几乎为零。对于失败的情况，我们只有一些假阳性的情况。失败是由于不期望的噪声估计，这将激励我们进行进一步的研究。5结论本文介绍了一种新的角度来解决人脸反欺骗通过逆分解的欺骗脸为活的脸和欺骗噪声模式。提出了一种具有多个适当监督的新型CNN架构。我们设计的损失函数，鼓励欺骗图像的模式是无处不在的和重复的，而现场图像的噪声应该是零。我们可视化的欺骗噪声模式，这可以帮助有一个更深入的理解，由每个欺骗介质添加的噪声我们评估所提出的方法在多个广泛使用的人脸反欺骗数据库。14Amin Jourabloo，Yaojie Liu，XiaomingLiu欺骗图像估计噪声估计生活实况图像估计噪声估计生活图五. Oulu-NPU数据库协议1测试视频的输入图像、估计欺骗噪声和估计实时图像的第一行的前四列是纸上攻击，后四列是重放攻击。为了更好地可视化，我们将噪声放大5倍，并将值与128相加，以显示正噪声和负噪声。欺骗图像估计噪声估计生活图六、将欺骗图像转换为实时图像的失败案例。本研究基于国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA）支持的工作，通过IARPA R& D合同号。2017 - 17020200004。本文所载的观点和结论是作者的观点和结论，不应被解释代表ODNI、IARPA或美国政府的官方政策或认可（明示或暗示）政府的美国政府有权为政府目的复制和分发重印本，尽管其上有任何版权注释。面部去欺骗15引用1. 潘湾，孙湖，加-地吴志，Lao，S.：基于眨眼的反欺骗人脸识别从一个通用的网络摄像机。In：ICCV，IEEE（2007）2. Patel，K.，汉，H.，Jain，A.K.：跨数据库人脸反欺骗与强大的功能表示。在：中国生物识别会议，施普林格（2016）3. de Freitas Pereira，T.，Anjos，A.，De Martino，J.M.，Marcel，S.：基于LBP-TOP的人脸欺骗攻击对策。In：ACCV，Springer（2012）4. de Freitas Pereira，T.，Anjos，A.，De Martino，J.M.，Marcel，S.：人脸防欺骗对抗措施在真实世界场景中是否In：ICB，IEEE（2013）5. Komulainen，J.，Hadid，A.，Pietikainen，M.：基于上下文的人脸反欺骗。In：BTAS，IEEE（2013）6. 杨杰，Lei，Z.，Liao，S.，李S.Z.：基于成分相关描述子的人脸活性检测。In：ICB，IEEE（2013）7. Li，L.，Feng，X.，中国科学院，Boulkenafet，Z.，夏，Z.，Li，M.，Hadid，A.：一种基于部分卷积神经网络的人脸反欺骗方法。在：图像处理理论工具和应用（IPTA），2016年第6届国际会议，IEEE（2016）8. 杨杰，Lei，Z.，李S.Z.：学习卷积神经网络用于面部反欺骗。arXiv预印本arXiv：1408.5601（2014）9. 董，C.，Loy，C.C.，他，K.，唐X：学习用于图像超分辨率的深度卷积网络。In：ECCV，Springer（2014）10. Jourabloo，A.，Feghahati，A.，Jamzad，M.：用于恢复具有脉冲噪声的高度损坏的图像的新算法。Scientia Iranica19（6）（2012）173811. Kulkarni，K.，Lohit，S.，Turaga，P.Kerviche河Ashok，A.：Reconnet：非迭代重建从压缩感测的测量中构造图像。In：CVPR，IEEE（2016）12. Pathak，D.，Krahenbuhl，P.Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。In：CVPR，IEEE（2016）13. Lefkimmiatis，S.：基于卷积神经网络的非局部彩色图像去噪。In：CVPR，IEEE（2017）14. Tai，Y.，杨杰，Liu，X.，中国科学院院士，徐丙：Memnet：一个用于图像恢复的持久内存网络In：ICCV，IEEE（2017）15. Tai，Y.，杨杰，刘X：通过深度递归残差网络实现图像超分辨率。In：CVPR，IEEE（2017）16. 周，R.，阿昌塔河 Süsstrunk，S.：联合去马赛克和超分辨率的深度残差网络arXiv预印本arXiv：1802.06573（20

下载后可阅读完整内容，剩余1页未读，立即下载