没有合适的资源?快使用搜索试试~ 我知道了~
60980面向人脸反欺骗的域不变视觉转换学习0廖振豪1,陈文成2,刘轩彤3,叶奕人4,胡敏纯5,陈楚松101 台湾大学,2 成功大学,3 玉山金控股份有限公司,4 高雄师范大学,5 清华大学0r09922113@csie.ntu.edu.tw,jerrywiston@mislab.csie.ncku.edu.tw,ahare-18342@esunbank.com.tw0yryeh@nknu.edu.tw,anitahu@cs.nthu.edu.tw,chusong@csie.ntu.edu.tw0摘要0现有的人脸反欺骗(FAS)模型在特定数据集上取得了很高的性能。然而,对于实际应用系统的应用,FAS模型应该能够推广到来自未知领域的数据,而不仅仅在单个基准上取得良好的结果。由于视觉转换模型在学习辨别信息方面表现出惊人的性能和强大的能力,我们研究将转换器应用于区分来自未知领域的人脸展示攻击。在这项工作中,我们提出了一种用于FAS的域不变视觉转换器(DiVT),它采用两种损失来提高视觉转换器的泛化能力。首先,采用浓度损失来学习聚合真实人脸数据特征的域不变表示。其次,利用分离损失来合并来自不同领域的每种攻击。实验结果表明,我们提出的方法在域泛化FAS任务的协议上取得了最先进的性能。与以前的域泛化FAS模型相比,我们提出的方法更简单但更有效。01. 引言0人脸识别技术在许多应用场景中被使用,例如重要区域的访问验证、手机注册和支付系统。现代人脸识别模型在人脸识别方面已经取得了很高的准确性。然而,人脸展示攻击(如打印的人脸照片和重播的人脸视频)仍然对人脸识别模型构成严重的安全风险,这就提出了人脸反欺骗(FAS)研究的需求。提出了几种方法,包括使用辅助信息进行像素级监督和将欺骗痕迹与数据分离,以提高FAS模型的效果[1, 14,31, 38,43]。这些方法可以在特定的数据集或领域上取得很高的性能。然而,即使攻击类型相同,它们也不能很好地识别来自不同领域的攻击样本。0为了使学习的模型在不同的领域中有效,引入了各种域泛化FAS方法[4, 13, 18, 19, 27, 28, 30, 32,41]。在进行域泛化模型的研究中,假设模型是从一些训练领域数据集D1...DK中学习的,然后以零样本的方式应用于未知目标领域数据集DK+1。也就是说,在模型学习阶段,无论是在有监督还是无监督意义上,都没有目标领域数据可用。学习的模型应该对领域变化不敏感,并能成功应用于未知领域。为了解决上述混合领域FAS问题,最先进的域泛化方法[13, 18, 19,32]利用对抗学习、特征生成网络、自适应特征归一化的元学习或卷积神经网络(CNN)骨干上的对比学习来提取鲁棒特征。由于FAS的目的是将输入的人脸图像分类为真实(即真实)人脸还是伪造人脸,目前的主流方法[13,32]倾向于在特征嵌入空间中集中所有不同领域的真实人脸,或统一与活体相关的样式信息。在学习过程中,领域特定或攻击类型相关的表示被分离并推开。以这种方式学习的特征空间可以有效地推广到由真实人脸嵌入集中或强调的未知领域,并且领域特定的攻击信息被分布或抑制。在本文中,我们提出了一种新的域泛化FAS方法。注意,欺骗模式可以在被攻击的输入人脸图像上全局分布。由于基于转换器的模型可以提供比CNN更大的感受野,并且擅长捕捉长程依赖关系[25],这些模型更适合提取全局分布的线索,这是面部欺骗确定任务的一个特点。因此,我们采用视觉转换器架构作为我们的域泛化FAS方法的骨干。它可以利用输入自适应的注意力和缺乏CNN的全局关系编码。60990图1.在我们的工作中,我们将来自所有领域的真实面部的特征嵌入集中起来。来自不同领域的相同类型的攻击面形成一个单独的类别。0然而,Transformer模型(如ViT [8]和swin transformerv1、v2 [21,22])存在模型尺寸大和计算资源消耗大的问题。为了解决这个问题,我们在提出的域变化FAS方法中采用了一个轻量级但高效的Transformer模型Mobile-ViT [24]。受到[13,32]的启发,我们还将所有领域的真实面部统一为一组,并期望学习它们在该组中不变的特征嵌入。这强制实现了对真实或活体面部模式的统一分类,而不考虑它们的领域。然而,与以前使用复杂的对抗训练机制来实现目标的方法不同,我们的方法中,由于Transformer模型在整个面部的特征学习中已经非常强大,我们只采用了一个简单的集中损失来将真实面部集中在嵌入空间中,并发现在域泛化FAS上的性能非常好。对于攻击面,与以前的工作不同,我们还将所有领域中相同攻击类型的数据统一为一个类别。然后,我们使用分离损失将不同攻击类型和真实面部的组分开。我们的方法简单易行,实现起来简单,而且有效。在实验中,我们收集了多个FAS数据集,并采用一种留一法设置来评估所提出解决方案的域泛化能力。结果表明,我们的方法不仅优于现有的域泛化FAS方法,而且在资源消耗方面也更加高效。图1说明了我们的思路,简洁地用于学习FAS中的域不变特征表示。由于Transformer模型在学习判别信息方面具有很强的能力,这些信息不仅可以是局部特定的,还可以是全局分布的,我们发现简单的损失和学习机制设计在域泛化FAS中是高效且表现良好的。02. 相关工作0FAS的研究可以从几个方面来描述,包括输入信号的模态和方法的类型(例如基于帧或基于视频)。多模态:可以使用多个模态来区分真实和伪造的面部图像。例如,我们可以结合3D传感器和RGB相机形成一个多模态的FAS分类器[9]。由于并非所有的手机都配备有强大的3D传感器,因此最近的FAS研究普遍使用RGB图像[40]。帧级与视频级:伪造的面部可以通过单个图像帧或视频来确定[20, 33,42]。前者不需要假设有时序运动信息的可用性。后者可以利用跨帧匹配或运动估计线索来丰富特征表示并提高性能。然而,基于视频的方法会为FAS系统引入更多的响应延迟时间,因为它们依赖于抓取足够数量的输入帧。另一方面,帧级方法可以更灵活地集成到响应迅速和高效的交互系统中。然而,这个问题更具挑战性,因为只使用基于图像的信息。本文介绍了一种新的基于RGB图像的域泛化FAS方法。我们在第2.1节中对基于帧的RGBFAS进行了简要回顾,然后在第2.2节中调查了视觉Transformer模型及其在FAS中的使用。02.1. 基于RGB图像的面部活体检测0早期基于RGB的FAS方法利用各种手工设计的局部描述符,如局部二值模式[5]、梯度直方图[16]和加速稳健特征[2]。提取的特征被输入到二分类器(如支持向量机)中,以确定输入图像是否是攻击。随着深度学习的成功,许多方法使用基于CNN的模型进行FAS任务。CDCN [43]和BCN[39]使用其他模型生成的深度和反射图来改善通过像素级监督学习的FAS模型的可区分性。CDCN进一步利用神经架构搜索(NAS)在提出的中心差分卷积上找到一个更强大的模型,并提高了性能。STDN [38]和双阶段特征学习FAS[31]采用生成对抗训练来学习模型,以将伪迹与图像分离开来。生成的迹线进一步增加了模型决策的可解释性。我们的工作侧重于域泛化FAS。尽管上述方法在训练和测试领域之间的分布差异很小的情况下取得了良好的性能,但如果领域之间存在较大的差异,它们的泛化能力就会很差。因此,已经提出了许多域泛化FAS方法。SSDG[13]使用单侧对抗训练,使真实数据的提取特征在不同的DR =Drealk.(1)61000领域。此外,还提出了一种不对称三元组损失来聚合相同类别(所有领域的真实数据和分离领域的伪造数据)的特征,并分散这些类别。ANRL[19]探索了在特征提取过程中改进归一化机制以提高领域泛化能力。提出了自适应归一化来强制模型提取面部图像的领域不可知和区分表示。SSAN[32]引入了内容和风格解缠来解决FAS问题。该方法提取面部图像的风格特征,然后应用对比学习来提取跨不同领域的广义表示。FGHV[18]提出了生成真实人脸和已知攻击的不同分布假设。通过将人脸特征与使用高斯输入生成的特征生成网络生成的假设拟合,提取的特征在抵御未知领域的攻击方面更可靠02.2. 变压器和FAS0Transformer [29]在自然语言处理中被广泛使用,并在解决计算机视觉任务中引起了更多关注。Dosovitskiy等人[8]提出了VisionTransformer(ViT),它不是将像素作为自注意机制中的标记,而是将图像分成许多块,并将它们投影到低维特征空间中,以使计算变得可行。之后,有很多工作改进了ViT模型。Swin Transformer[22]引入了一种移动窗口注意机制,它在局部窗口内计算自注意,并通过在连续层中移动窗口来模拟跨区域关系。Focal Transformer[37]提出了焦点自注意。每个块不仅关注局部窗口中的其他块,还关注汇总的标记,以用边际开销编码长距离信息。CoAtNet[6]考虑了自注意和深度卷积在计算形式上的相似性。他们通过为注意机制添加独立于输入的权重来融合这两个模块,将平移等效信息嵌入到变压器中。MobileViT[24]将卷积和变压器结合到一个模块中,以高效地捕捉局部和全局信息。通过使用这个模块,即使模型较浅,该模型也能提供良好的性能,并使视觉翻译器更适用于边缘设备。过去,只有少数研究在FAS [10,12]中使用了变压器模型。[10]中的方法直接使用ViT[8]进行FAS的二元交叉熵损失。与[10]不同,[12]中的方法以间接的方式使用变压器模型;它采用多个视觉变压器作为教师模型,并旨在训练一个更小的学生CNN并提高学生模型的性能。因此,解决方案仍然是一个CNN推理模型。除了问题之外0尽管它们在单领域设置中可以达到竞争性的性能,但它们并不是为处理领域泛化的FAS问题而设计的。相反,我们的工作使用了一个轻量级的变压器模型MobileViT[24],它包含更少的参数。利用变压器模型,我们提出了两个损失项来处理跨领域的FAS问题,即领域不变的集中损失和攻击分离损失。我们的解决方案被称为面向领域不变的视觉变压器(DiVT)用于FAS,在资源消耗效率方面可以实现比以前的方法更高的性能,同时具有可比或更好的性能03. 提出的方法0我们的方法将变压器模型作为网络骨干。为了简洁起见,我们采用MobileViT[24]作为我们方法的骨干模型。也可以用其他变压器模型替换它(例如,ViT [8],Swin Transformer[22])。在实验中,我们展示了选择骨干变压器模型进行领域泛化FAS的消融结果。我们采用的MobileViT由一系列MobileNet-v2[26]和MobileViT块组成。MobileNet-v2块主要负责下采样特征图。MobileViT块对空间关系进行建模,其中特征图首先经过卷积层(用于编码局部空间信息)和逐点卷积(用于投影到高维空间)进行处理。然后,它被分成一系列块,馈送到多个变压器模块中以编码全局关系。之后,在生成输出之前进行进一步的投影和融合。详细信息可以在[24]中找到03.1. 领域不变集中损失0假设我们有 K 个数据集,即 D 1 ∙ ∙ ∙ D K;每个数据集指定一个领域。假设一个领域包含 C种攻击类型,D c k 表示领域 k 中第 c种攻击图像的数据集,其中 k ∈ { 1 ∙ ∙ ∙ K } 且 c ∈ { 1 ∙ ∙ ∙ C} 。此外,令 D real k 表示领域 k中的真实人脸图像集合。给定 D real k中的一个实际人脸图像,我们的目标是为其提供一个特征表示,不偏向特定领域。因此,所学习的表示应对领域变化具有不变性。为了实现这个目的,我们简单地将不同领域的所有真实人脸作为正(非欺骗)数据类别进行合并,如下所示:0K0将 D R 中的数据传递给深度变压器模型 π(例如MobileViT),令 E R = π(D R)为嵌入层中获得的特征表示。也就是说,我们将所有领域的真实人脸嵌入作为一个组 E R进行连接。然后,我们希望 E R 集中在特征嵌入空间的原点 0 = [0] d(所有元素都为零的 d维向量)上,其中 d 是变压器模型 π的特征嵌入空间的维度。因此,无论真实人脸图像的领域如何,我们希望其特征嵌入接近嵌入空间的原点。将特征拉向原点的思想也已经在动作分析中使用过[17]。领域不变集中(DiC)损失定义如下。all domains’ real face embedding as a group ER. Then, wehope that ER is concentrated on the origin of the featureembedding space, 0 = [0]d (the d-dimensional vector withall elements being zero), where d is the dimension of thefeature embedding space of the transformer model π.Hence, no matter the domain of a real face image, wehope that its feature embedding is near to the origin of theembedding space. The idea of pulling the features to the ori-gin has also been used for action analysis [17]. The domain-invariant concentration (DiC) loss is defined as follows.Dc =As the origin can drthe actual face features in the em-bedding space, no matter the domains, we hope to push theattack images’ feature representation to each other and awayfrom the origin. Figure 1 illustrates the idea. To achieve thispurpose, We simply add a classification layer in the trans-former model π to classify the data into the categories ofreal face and different attack types via cross-entropy loss.Consider a batch consisting of N samples {x1 · · · xN}.Let ˆyi = 1[xi ∈ Dc]|Cc=0 be the corresponding domain-union one-hot label of xi, where D0 (c = 0) represents61010图2.所提方法的概述。特征提取器与分类器连接在一起,将数据分类为代表不同攻击类型的真实数据和多个攻击类别。为了使真实数据的特征更加紧凑,我们通过集中损失将其拉向原点。(L DiC 图中的不同颜色表示不同领域。)0L DiC = 10i =1 1 [ x i ∈ D R ] ∙ ∥ f i ∥ 1 , (2)0其中 1 是指示函数,‘ ∙ ’表示内积,N表示批量大小,f i= π(x i )表示由变压器骨干提取的第 i个特征嵌入。本质上,方程2鼓励使得在所有领域中学习到的真实人脸图像的特征嵌入的范数更小。图2右下部分显示了一个示例。值得注意的是,我们的集中损失L DiC与广泛用于有效训练人脸识别器(FR)的中心损失[35]进行了比较。在中心损失中,每个类别都有一个中心。当给定一个样本时,我们希望使特征嵌入接近包含该样本的类别的中心。由于每个个体在FR中定义了一个类别,存在多个类别,它们的中心必须与网络权重一起学习。然而,在我们的领域通用FAS中,真实人脸模式是统一的。0而攻击类型的方式有无限的可能性。因此,我们仅对真实人脸的特征进行中心化,让欺骗特征在空间中自由分布。由于我们仅将中心化原则应用于单个类别(真实人脸),因此无需同时表示多个组中心。因此,我们可以跳过组中心的参数化学习,并直接指定中心在原点。中心不随小批量移动,训练过程更加简单和稳定。03.2. 领域不变攻击分离损失0集中损失鼓励真实人脸嵌入具有较小的范数,并将所有特征拉向原点。对于每种攻击类型,我们还希望将属于该攻击的数据进行分组,而不考虑数据的领域。为此,我们还将所有领域的相同攻击类型的欺骗人脸数据进行分组,如下所示:0k =1 D c k , c ∈ { 1 ∙ ∙ ∙ C } . (3)61020数据集 真实视频 伪造视频0CASIA-FASD [45] 150 4500MSU-MFSD [34] 70 2100Idiap Replay-Attack [5] 140 7000OULU-NPU [3] 720 28800表1. 我们评估中使用的真实和伪造视频的数量。0为了简化表示法,我们将真实人脸类别记为DR。域不变攻击分离损失定义如下:0L ce DiA =10N0N是样0i =10C0c =0 − ˆ y c i log y c i , (4)0其中yci是变换器模型π产生的类别c的softmax输出。攻击类型分类任务将不同攻击类型和真实人脸的组别分开,强制模型学习一个域不敏感的潜在空间。03.3. 训练和测试0在训练阶段,我们以监督的方式结合这两个损失来训练变换器模型。使用超参数λ作为它们之间的平衡因子。0L total = L ce DiA + λL DiC (5)0通过将真实人脸特征嵌入向原点收缩,并在变换器模型中分离不同类型的攻击嵌入,我们的方法简单而有效地学习了域不变的表示,以解决相关的FAS问题。图2概述了我们的方法DiVT for FAS。在测试阶段,我们直接使用Realhead(图2中的输出)作为从真实人员拍摄的输入图像的预测概率。我们的方法易于实现,并且在领域广义FAS的标准基准上可以实现最先进的性能。实验结果证明了我们方法的有效性。04. 实验04.1. 数据集和评估指标0我们使用四个公共的FAS数据集来评估我们的方法,分别是CASIA-FASD [45],MSU-MFSD [34],IdiapReplay-Attack [5]和OULU-NPU[3]。CASIA-FASD是在自然场景下使用三个不同视频质量的摄像头收集的。通过在铜纸上打印最高质量的图像和在平板上播放视频来产生打印和重放攻击。MSU-MFSD是使用笔记本电脑和手机摄像头收集的。通过在平板上播放高端摄像机录制的视频和在另一部手机上录制的视频来引入两种质量的重放攻击。0手机。高质量的照片被打印在纸上,以产生打印攻击。IdiapReplay-Attack在两个不同的环境下收集,一个是由灯照明的均匀背景,一个是由日光照明的复杂场景。重放和打印攻击是通过与MSU-MFSD数据集类似的设置使用不同设备生成的。此外,这些攻击材料要么被手持,要么通过固定支撑来持有。OULU-NPU在三个不同的照明和背景下进行收集。这些视频是使用六部不同的手机录制的。我们使用两台打印机和两台视频播放器来模拟入侵者将使用的设备的多样性。根据领域广义FAS [13]的设置,我们只使用IdaipReplay-Attack和OULU-NPU中的训练和测试集,而舍弃它们的验证集。其他两个数据集都被使用了。表1显示了我们实验中使用的真实和伪造视频的数量。Half Total ErrorRate (HTER)和Area Under Curve (AUC)被用作评估指标。04.2.实现细节0在图像预处理阶段,我们使用MTCNN[36]算法对所有视频帧进行对齐。然后我们裁剪人脸区域,并将裁剪后的区域调整为256×256。由于视频中不同帧之间几乎没有差异,我们采用与[13]相同的训练设置,随机从每个视频中抽样一帧作为训练数据。在每个训练步骤中,从所有训练数据集中随机采样相同数量的真实数据和伪造数据。我们使用CVNets [23]实现的MobileViT-S[24]作为我们的骨干网络。该模型在ImageNet-1K[7]上进行了预训练,并使用Adam优化器[15]进行优化,学习率和权重衰减参数分别为10^-4和10^-6。我们的工作中平衡因子λ设置为0.2。04.3.领域通用评估04.3.1 留一设置0为了评估领域通用的FAS方法,常用的设置是在第4.1节提到的数据集上进行留一测试。在这个评估协议中,模型在三个数据集上进行训练,然后在剩余的数据集上进行测试。我们遵循这个设置,并在表2中展示了我们的方法和先前竞争方法的性能比较(每个数据集都用其前缀表示)。请注意,这些方法都是像我们的帧级方法,只有NAS-FAS[42]是一种基于视频的方法,利用了更多的时间运动信息来增强性能。表2中的结果是参考SSAN [32]和NAS-FAS[42]的论文。最好和第二好的方法分别用粗体和下划线表示。在先前的方法中,SSDG-R [13]19.8686.4627.9278.72SSAN-R [32]25.5683.8924.4482.56DiVT-M20.1186.7123.6185.7361030方法 O&C&I到M O&M&I到C O&C&M到I I&C&M到O0HTER(%) AUC(%) HTER(%) AUC(%) HTER(%) AUC(%) HTER(%) AUC(%)0MADDG(CVPR'19)[27] 17.69 88.06 24.50 84.51 22.19 84.99 27.98 80.02 DR-MD-Net(CVPR'20)[30] 17.02 90.10 19.6887.43 20.87 86.72 25.02 81.47 NAS-FAS(TPAMI'20)[42] 16.85 90.42 15.21 92.64 11.63 96.98 13.16 94.18RFMeta(AAAI'20)[28] 13.89 93.98 20.27 88.16 17.30 90.48 16.45 91.16 D2AM(AAAI'21)[4] 12.70 95.66 20.98 85.58 15.4391.22 15.27 90.87 DRDG(IJCAI'21)[41] 12.43 95.81 19.05 88.79 15.56 91.79 15.63 91.75 ANRL(ACM MM'21)[19] 10.8396.75 17.85 89.26 16.03 91.04 15.67 91.90 FGHV(AAAI'22)[18] 9.17 96.92 12.47 93.47 16.29 90.11 13.58 93.55SSDG-R(CVPR'20)[13] 7.38 97.17 10.44 95.94 11.71 96.59 15.61 91.54 SSAN-R(CVPR'22)[32] 6.67 98.75 10.00 96.67 8.8896.79 13.72 93.630DiVT-M(我们的方法)2.86 99.14 8.67 96.92 3.71 99.29 13.06 94.040表2. 先前方法和我们的领域通用评估性能。粗体表示最佳性能,下划线表示第二好的性能。0方法 M&I到C M&I到O0HTER(%) AUC(%) HTER(%) AUC(%)0表3.有限训练数据的评估结果。我们使用它们的源代码获得了先前方法的结果。0SSAN-R是最先进的模型,NAS-FAS在某些评估集上表现出色。与先前的FAS领域生成方法(如SSDG和SSAN)相比,我们提出的DiVT在所有评估集上都取得了更好的性能。我们的工作在HTER方面的改进尤为显著。有两个设置甚至提高了超过3%。结果表明,我们的方法比先前的方法更有优势。我们的方法在AUC度量设置I&C&M到O上仅获得第二名。这个评估集上最好的模型是NAS-FAS,但它在HTER方面的性能不如我们的好。然而,NAS-FAS是一种基于视频的方法。相比之下,我们的DiVT-M,一种基于图像的方法,仍然取得了竞争性的结果(AUC差异小于0.2%)。04.3.2 有限训练数据设置0上述协议使用更大规模的训练域数据进行性能比较。另一种常见的设置是使用较小规模的训练域数据进行评估。我们也在这种设置下评估了我们的方法(遵循[13])。MSU-MFSD和Replay-Attack数据集用作训练数据,剩下的两个数据集用作测试数据。由于SSDG-R [13]和SSAN-R[32]使用更强的卷积骨干网络,它们比[13]和[32]中的其他版本更有效。为了进行公平比较,我们使用SSDG-R和SSAN-R发布的源代码重新训练这个设置,并获得比[13]和[32]中使用较弱骨干网络模型获得的结果更好的结果。如表3所示,我们的方法仍然在有限的训练数据情况下展现出了其有效性,并且在一般情况下优于先前的领域泛化方法。我们的方法唯一表现较差的结果是在M&I到C的HTER上(比SSDG-R差0.25%)。然而,我们的方法在AUC上仍然更好(高0.25%)。由于AUC通常反映了在不同阈值下假接受和拒绝之间的平衡,更高的AUC表明我们的方法通常更好。0为了进行公平比较,我们使用SSDG-R和SSAN-R发布的源代码重新训练这个设置,并获得比[13]和[32]中使用较弱骨干网络模型获得的结果更好的结果。如表3所示,我们的方法仍然在有限的训练数据情况下展现出了其有效性,并且在一般情况下优于先前的领域泛化方法。我们的方法唯一表现较差的结果是在M&I到C的HTER上(比SSDG-R差0.25%)。然而,我们的方法在AUC上仍然更好(高0.25%)。由于AUC通常反映了在不同阈值下假接受和拒绝之间的平衡,更高的AUC表明我们的方法通常更好。04.4. 消融研究0我们进行了几项消融研究来评估我们提出的方法,包括使用不同的骨干网络,提出的损失函数的有效性,不同的分类目标以及结合领域对抗训练。04.4.1 不同的骨干网络0我们使用不同的视觉变换器骨干网络评估我们的方法的性能,包括基本的V iT(ViT-Base)[8],SwinTransformer(Swin-T)[22]和MobileViT(MobileViT-S)[24]。它们分别表示为DiVT-V,DiVT-S和DiVT-M。我们还使用ResNet-18,一个CNN骨干网络,来比较使用CNN和变换器的有效性。所有的骨干网络都在ImageNet-1K数据集上进行了预训练。我们采用超参数调优来找到四个骨干网络的最佳平衡因子λ。我们分别使用了0.5、0.05、0.2和0.2的因子。表4显示了结果,上半部分显示了当这些骨干网络仅使用二元交叉熵损失进行训练时的结果。结果显示,变换器骨干网络的性能大多优于CNN。性能上的优势可能是由于注意力模块和全局特征。UC(%)ResNet-1812.6293.7825.8984.6725.0075.7321.1186.1421.1585.08ViT-Base7.1497.9424.0084.2710.7994.6928.9178.5717.7188.87ViT-Tiny8.5797.1822.0086.8515.0094.8917.7690.9315.8392.46Swin-T2.8699.3411.7895.8311.3694.9914.8893.0810.2295.81MobileViT-S5.4893.9913.2293.3217.1490.9815.2890.7812.7892.26DiVT-ResNet11.4394.6818.6791.3221.4388.2817.4889.9717.2591.06DiVT-V10.0096.6414.6793.085.7197.7318.0690.2112.1194.42DiVT-V(Tiny)7.1498.2711.8995.1711.4397.0015.4292.9711.4795.85DiVT-S8.5797.297.2298.136.4398.2114.2793.629.1296.81DiVT-M2.8699.148.6796.923.7199.2913.0694.047.0797.34LceDiALDiCHTER (%)AUC (%)HTER (%)AUC (%)HTER (%)AUC (%)HTER (%)AUC (%)5.4893.9913.2293.3217.1490.9815.2890.78✓2.6299.109.3396.407.7196.9215.4291.52✓5.7198.3610.0096.8017.8688.8813.3394.11✓✓2.8699.148.6796.923.7199.2913.0694.0461040方法 O&C&I 到 M O&M&I 到 C O&C&M 到 I I&C&M 到 O 平均0表4. 使用不同骨干网络对所提出方法进行领域泛化评估的性能。DiVT后缀表示所采用的特征提取器:ResNet-18,V iT,V iT(Tiny),SwinTransformer和M ovileViT。上半部分显示了当这些骨干网络仅使用二元交叉熵进行训练时的结果。0组件 O&C&I 到 M O&M&I 到 C O&C&M 到 I I&C&M 到 O0表5. 我们方法中每个组件的评估。当不应用 L DiA 时,使用二元分类。0我们发现使用我们的损失方法(表4的下半部分)通常比使用二元交叉熵损失的方法(表的上半部分)在大多数情况下更好。这表明我们的损失方法的整体有效性。0关于在我们的方法中使用不同的视觉变换器骨干的比较(表4的下半部分),我们发现DiVT-V的性能不如其他模型。我们推测原因是ViT缺乏对局部模式的建模,并且具有大量的参数,需要大量的训练数据来收敛。SwinTransformer和MobileViT采用分层架构或卷积模块来建模局部空间特性,可以适应较少的训练数据情况。这两种方法都取得了竞争性的性能。由于DiVT-M在两个评估指标上都取得了最佳平均性能,并且具有最小的模型大小,我们在后续研究中使用它。0尺寸兼容的ViT比较:DiVT-M的性能优于DiVT-V。这可能是由于模型大小与训练数据量之间的适当比例。因此,我们进一步研究了使用ViT-Tiny[8]作为骨干的性能,它与DiVT-M具有可比较的模型大小。如表4所示,DiVT-V(Tiny)的性能优于DiVT-V,可能是因为它的大小适合数据。DiVT-M仍然是变换器模型中最好的。我们推测这是因为MobileViT也利用了卷积的优势,而其他模型则没有。0与使用变换器[10]的FAS的比较:只有少数几个0之前的一些工作[10,12]已经将变换器应用于FAS。由于[12]主要将变换器作为教师模型进行蒸馏,并仍然使用CNN模型进行推断,我们在实验中比较了[10]。如前所述,[10]只是采用ViT作为骨干,使用二元交叉熵损失。因此,表4中ViT-Base的结果只揭示了其在留一领域通用的FAS协议上的性能。可以看出,ViT-Base[10]在大多数情况下表现不如DiVT-V。当用ViT-Tiny、Swin-T和MobileViT-S替换骨干时,它们的平均性能仍然不如DiVT-V(Tiny)、DiVT-S和DiVT-M。[10]中另一种实现版本是固定骨干权重,只训练分类器层。我们也做了实验,但结果要差得多,显示在补充材料中。从结果来看,我们的方法更受青睐。04.4.2 损失组合和分类目标0我们研究了我们方法中两个核心组件(L ce DiA和LDiC)的有效性,并在表5中展示了四个组件组合的结果。当L ce DiA和LDiC都不被使用时,我们使用两类(真实和伪造)的分类头,通过使用二元交叉熵损失训练模型。结果证明,这两个组件都对改进视觉变换器在领域通用的FAS任务上是有效的。领域不变的攻击分离损失提供了主要的改进(平均约3.7%的AUC),而领域不变的集中损失则提升了(%)(%))SSDG-R [13]2.3811.1811.2993.81SSAN-R [32]2.248.079.2896.46DiVT-V17.5985.812.1194.42DiVT-V(Tiny)1.265.5211.4795.85DiVT-S4.4927.59.1296.81DiVT-M2.004.947.0797.3461050分类目标 O&C&I to M O&M&I to C O&C&M to I I&C&M to O0二分类 5.71 98.36 10.00 96.80 17.86 88.88 13.33 94.11 攻击类型 2.86 99.14 8.67 96.92 3.71 99.29 13.06 94.04 领域 5.9598.31 9.89 96.54 12.86 94.49 10.10 96.43 攻击类型 + 领域 9.76 96.37 12.78 96.12 9.36 96.14 13.04 94.150表6. 不同分类方法的性能(采用L DiC)。0方法 O&C&I to M O&M&I to C O&C&M to I I&C&M to O0DiVT-M 2.86 99.14 8.67 96.92 3.71 99.29 13.06 94.04 DiVT-M + 领域对抗 4.29 98.20 7.33 97.56 5.71 98.07 15.14 92.550表7. 在我们的方法中利用领域对抗学习技术。0方法 Flops(G) Params(M) 平均 平均0表8. 计算资源比较。0平均AUC约为1.3%。当两个组件都应用时,该模型达到最佳性能。在这项工作中,攻击分离损失被证明对跨领域FAS任务是有效的。基于这个成功,我们对不同分类目标对模型改进的效果也很好奇。除了二分类和攻击类型分类外,我们还对领域分类进行了实验。表6显示了不同分类目标的结果,其中“Domains”表示将数据分类为真实人脸和不同攻击领域,“Domains + AttackTypes”表示将数据分类为真实人脸和领域和攻击类型的组合类别。我们可以观察到,攻击类型分类获得了最佳的平均性能,揭示了我们方法中领域不变假设的有效性。领域分类稍微提高了模型的性能,但不显著。当采用攻击类型和领域分类的组合时,性能变差。原因可能是模型在这些组合类别上过拟合。04.4.3 领域对抗学习0我们还在特征提取器中采用了SSDG和SSAN [13,32]中使用的相同的领域对抗损失,该损失通过梯度反转层和两层鉴别器来区分攻击领域。结果如表7所示。添加对抗损失的性能稍差。即使在使用了对抗损失的情况下,MobileViT仍然表现最好。0我们将我们的解决方案中设计的简单损失与对抗训练进行了比较。这可能是因为特征已经可以通过监督学习很好地提取出来。在这种情况下,对抗训练似乎导致了过度竞争。此外,如何在对抗训练中很好地使用视觉变换器仍然值得探索。04.5. 计算资源比较0我们比较了先前方法和我们方法之间的模型大小(参数数量)和FLOPs。如表8所示,DiVT-M的性能更好,需要的参数更少,比DiVT-S和DiVT-V更好。模型DiVT-V(Tiny)的FLOPs更少,但性能较差,需要更多的参数。这再次验证了我们方法中采用的MobileViT模型适用于领域广义FAS任务。05. 结论0处理来自未知领域的攻击样本是人脸反欺骗中的一个重要问题。我们在这项工作中提出了领域不变视觉变换器(DiVT)来解决领域广义FAS问题。我们应用了一种高效的基于视觉变换器的模块来提取欺骗模式的全局和局部分布线索。然后,我们引入了两个损失项来学习一个领域不变的潜在空间。首先,应用领域不变的集中损失来集中真实人脸的特征。其次,采用分离损失将不同攻击类型和真实人脸的组别彼此推开。实验结果表明,我们提出
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功