PatchNet：人脸反欺骗的细粒度补丁识别模型

151 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20281PatchNet：一个基于细粒度补丁识别王建义1卢玉定2杨尚塔1赖尚宏11台湾微软人工智能研发中心2HTC{chiwa，shanya，shlai} @jonlu.citi gmail.com microsoft.com摘要人脸反欺骗（FAS）在保护人脸识别系统免受不同呈现攻击方面起着关键作用以前的作品利用辅助像素级监督和域泛化方法来解决看不见的欺骗类型。然而，图像捕获的局部特性，即，捕获设备和呈现材料，在现有的工作中被忽略，并且我们认为这样的信息是网络区分实况图像和欺骗图像所必需的在这项工作中，我们提出了PatchNet，它将人脸反欺骗重新定义为细粒度的补丁类型识别问题。具体来说，我们的框架识别的组合的捕获设备和呈现材料的基础上裁剪的补丁从非失真的人脸图像。这种重构可以大大改善数据的变异性，并迫使网络从局部捕获模式中学习区分特征。此外，为了进一步提高欺骗特征的泛化能力，本文提出了新的基于非对称边缘的分类损失和自监督相似性损失来正则化补丁嵌入空间。我们的实验结果验证了我们的假设，并表明，该模型是能够识别看不见的欺骗类型鲁棒地只看局部区域。此外，FAS的细粒度和块级重构在数据集内、跨数据集和主泛化基准上优于前向方法。此外，我们的补丁网络框架可以使实际应用，如少数镜头参考为基础的FAS和促进未来的探索欺骗相关的内在线索。1. 介绍人脸反欺骗技术是防止人脸识别系统受到安全攻击的关键技术。随着深度神经网络的发展，提出了几种基于学习的方法来区分真实人脸和物理呈现攻击。图1.人脸识别模型学习人脸嵌入空间以区分身份。我们的细粒度补丁类型识别模型学习补丁嵌入空间，以区分具有不同捕获特征的补丁。以前的人脸反欺骗方法受到数据集规模和变化的高度限制。常用的数据集[1，5，18，27，34]在训练期间包含少于100个标识，并且在有限的变化下捕获欺骗图像。根据我们的观察，使用二进制分类模型在这样的数据集上进行训练容易对数据收集引入的偏差过拟合，并且学习的特征在看不见的测试场景中很脆弱。因此，先前的面部反欺骗工作[14，15，18，21，29，30]利用辅助像素方式的监督（例如，面部深度图和反射图）作为强先验知识，以在具有不可见照明或欺骗类型的测试场景下实现更好的其他FAS作品[19，33]提出采用生成对抗网络（GAN）通过重建新的实时和欺骗面部图像来解开实时面部和欺骗图像的特征图尽管这些欺骗检测技术是有效的，但如何描述从网络中学习到的内在线索仍然Yu等人[29]将FAS重新表述为一个结构材料识别问题，它假设区分人类面部皮肤和物理欺骗载体之间的结构材料是FAS任务的本质。基于类似的动机，我们认为，识别和比较不同的能力20282细粒度的材料类型是学习FAS的鲁棒内在线索的关键。在本文中，我们提出了PatchNet，它学习的基础上从整个面部区域裁剪补丁的区分特征。受先前工作的启发[2，6，28]，补丁级输入可以增强数据变化并强制网络学习局部区域中的欺骗特定特征，从而防止网络过度拟合数据集引入的偏差。我们没有像最近的FAS作品那样将输入的人脸图像裁剪成相同的大小，而是直接从原始的人脸捕捉中裁剪固定大小的补丁，以避免歧视性FAS线索的失真。通过补丁级输入，我们的PatchNet旨在对相应的细粒度类别进行分类，即，捕获设备和呈现材料，并且我们将每个类别定义为特定的“补丁类型”。为了强制网络学习鲁棒的欺骗相关特征，以在测试期间识别看不见的补丁类型，我们采用了人脸识别任务中常用的基于角边缘的softmax损失[8，23，25]，旨在优化归一化超球体上的人脸嵌入（图1）。此外，由于补丁类型的类是不对称的活和欺骗的脸，我们提出了“不对称的角边际损失”，并施加一个更大的利润活类型的类。受最近关于自监督学习的工作的启发[3，4，10]，以及材料模式在整个面部区域中空间上存在的事实为了证明PatchNet的有效性，我们在数据集内、跨数据集和领域泛化基准数据集上进行了大量的实验，PatchNet在大多数测试场景下都达到了最先进的性能。此外，我们还进行了消融研究，以进一步研究所提出的组件。我们的贡献总结如下：• 我们将人脸反欺骗重新定义为细粒度的补丁识别问题，并设计了一个简单的框架PatchNet来学习嵌入空间，以编码来自本地补丁的内在线索来表示捕获• 我们提出了新的基于非对称边缘的Softmax损失和自监督相似性损失来监督PatchNet训练。虽然前者有助于学习更一般化的补丁类型嵌入空间以解决直播和欺骗之间的不对称性，但后者可以强制补丁特征在单个捕获内保持不变。• 所提出的框架可以同时在数据集内、跨数据集和主泛化基准上实现最先进的性能，输出辅助的逐像素监督和域生成技术。此外，所学习的补丁嵌入空间可以实现像少拍参考FAS和补丁类型检索这样的应用，这可以在某些部署场景中提高FAS性能2. 相关作品基于数据的方法。最近的工作大多利用辅助任务作为先验知识，以指导特征学习更普遍的线索。Liu等[18]建议采用深度图和rPPG作为活样本的强监督信号，以规范特征。Kim等人[13]进一步利用反射图作为欺骗样本的监督信号。许多其他FAS方法[9，14，15，20，21，29，30]也严重依赖于类似的辅助逐像素监督来提高其FAS模型性能。即使特征学习可以受益于这样的监督，用于这些任务的伪地面真值是不准确的，并且这些监督信号的生成需要大量的计算资源。领域泛化FAS方法。在面部反欺骗社区中，开发了域泛化技术来解决不同反欺骗数据集之间的域转移。Shao等人[21]采用元学习技术来模拟训练过程中的目标域偏移，以正则化特征学习方向。Wang等人[24]提出了通过一个分解的表示学习框架来学习领域独立的特征。与我们最相关的工作是[12]，它不对称地处理实时和欺骗样本，并应用对抗损失和三重损失来正则化归一化空间中的特征。实际上，在FAS任务中很难定义域，因为即使在同一数据集内，也存在使用非常不同的捕获设备的捕获。当人们使用泛化方法来寻找集合和欺骗类型之间的共同特征时，我们的目标是打破域的概念，并提出学习一个显式编码捕获特征的通用嵌入空间。3. 该方法3.1. 概述如示于图2、将人脸反欺骗问题转化为一个细粒度的斑块类型识别问题，并提出了一个简单的训练框架来有效地学习斑块特征。首先，我们对原始图像进行一定的变换以获得块输入，然后由编码器提取块基于来自训练数据集的元信息，我们基于呈现的材料和捕获设备精细地划分类别。例如在20283我−联系我们Σ1L=−ΣcyJΣ我yi我我我我图2.我们建议的PatchNet框架概述。我们解决了人脸反欺骗与细粒度的补丁类型的识别模型。通过捕捉设备和呈现材料的组合来预定义补丁类型类，并且通过非失真增强操作从面部捕捉中提取在最后一个分类层中采用了非对称角度余量Softmax Loss，自监督相似性损失被应用于在单个捕获内强制执行补丁特征不变性。CASIA-FASD中，有两种不同的欺骗介质和三种不同的捕获分辨率，因此有九种细粒度补丁类型（三种实时和六种欺骗类型）。受最新人脸识别方法的启发，在训练过程中，我们采用了基于角边缘的softmax损失，它可以强制每个类别的特征聚类是紧凑分布的，并具有更好的泛化能力。此外，由于欺骗样本之间的分布差异大于真实样本，因此我们不对称地处理真实样本和欺骗样本：迫使模型在真实样本中学习更紧凑的聚类，同时使欺骗样本在特征空间中更加分散。我们修改了基于角度边距的softmax损失，并将不对称边距应用于活动和欺骗补丁类型：在活动类型上施加更大的角度边距以推动更紧凑的边界。最后，自监督相似性损失通过将对比度损失的正部分应用于来自单个完整人脸图像的两个变换的补丁视图来进一步正则化补丁特征。假定欺骗特定的区别性信息在空间上存在于得到最终的特征： ft1=Normalize （ Eθ（xt1）），ft2=归一化（E θ（x t2））。3.3. 细粒度斑块识别假设我们在训练数据集中有N个补丁类型类，它由k个活类和N k个欺骗类组成。每个输入片t（xi）属于一个细粒度的Ground Truth class y iL1，L2，. Lk，S1，S2，... SN−k，角裕度Softmax损失应用于reg，使面片特征化。角边际Softmax损失有许多变体[8，16，17，23，25]，通常用于人脸识别，以提高开集身份的泛化能力。在这项工作中，我们采用AM-Softmax[23]损失来优化细粒度补丁识别模型，并对其进行修改以解决面部反欺骗中的不对称3.3.1预赛原始Softmax损失的公式如下：在整个面部区域中，来自同一面部捕获的两个不同块视图之间的特征应该是相似的。ne信噪比测井WTfi我eWT fi3.2.面片特征提取i=11Σj=1eWyificos（θyi）（一）我们希望避免任何可能导致图像失真或减少重要的欺骗有关的=−ni=1logcj=1、eWjficos（θj）信息.给定来自原始捕获的裁剪的面部区域xi，来自xi的两个增强的面片视图是其中f是用于分类的全连接层的输入（fi表示第i个样本），Wj是第j列t1 =t1（x i）和x t2 =t2（xi），其中t1，t2<$T. T是全连接层的，yi是地面真值标签是第i个样本的非失真增强操作的序列术语W Tf i也称为目标其仅具有随机水平翻转、随机旋转和固定大小的裁剪。然后将两个输入补丁传递到编码器Eθ和归一化层，以第i个样本的logitSphereface [16]引入了大边界性质，它定义了一个通用函数θ（θ）nX20284nΣWfi∥ ∥∥∥yiiWFnΣ--eyi日志LAMS= −n日志我（4. 实验L+j=1，j=yis·（WTfi−ms）模型，分别用于数据集内测试。CASIA-MFSD、重放攻击和MSU-MFSDΣ我我Pe伊伊eJ 我以在特征向量和权重向量之间施加角余量在应用特征和权重标准化（Wyi=fi=1）之后，损失函数变为3.5. 训练和测试3.5.1全损1Σeni=1e（θyi） +（θyi）Cj=1，j=y我e在训练期间所提出的框架的总损失L是L=α1 LAsym +α2L SIM（九）其中，在AM-Softmax [23]中，函数θ（θ）定义为θ=cosθ−m（3）在实现过程中，对特征和权重进行归一化后的输入实际上是x=cosθyi 为不所以在前向传播中，它只需要计算（x）=x-m（4）然后，它使用超参数s，最终的AM-Softmax损失函数变为1es·（cosθyi−m）i=1es·（cosθyiy我+Cj=1，j−m）es·cosθj其中，α1和α2是平衡影响的权重损失的组成部分。在所有的实验中，我们设置α1=α2= 1。0的情况。3.5.2测试策略给定一个测试人脸图像，我们从整个图像中均匀地裁剪出用于网络推理的补丁，补丁大小与训练过程中的补丁大小相同。假设我们有P个裁剪的块特征（f 1，f 2，. fP），则平均存活概率可由上一次完整的存活类概率之和得到连接层：s·（W Tfi−m）i=1e伊伊+j=1，jeJyi1天1=−n日志eyis·（W Tf−m） c.sWTfLiveProb=Pi=1y∈L Softmax（s·Wyf）（10）3.3.2非对称AM-Softmax损耗我们施加不同的角度余量ML和MS上活和欺骗类别，分别。将活动类别集表示为L={L1，L2，. L k}，并且欺骗类别设置为S =S1，S2，... S N−k。修改后的AM-Softmax Loss of One特征样本fi变为4.1.数据集和方案数据库。在测试协议中使用了五个数据库OULU-NPU [1] （表示为 O ）， SiW [18] （表示为 S ），CASIA-FASD [34] （表示为 C ）， Replay-Attack [5]（表示为I），MSU-MFSD [27]（表示为M）。OULU-NPU和SiW是大规模高分辨率数据库，包含四种和三种协议，用于验证通用的s·（WTfi−ml）个aam （fi）=日志eyis·（WTf−m）<$Ns·WTfyi∈L化（例如，看不见的环境和欺骗媒介），−logs·（WTf−ms）<$Ns·WTfyi∈S是包含低分辨率视频的数据库，更少的视频剪辑，并用于跨数据集测试，n−LS=−、（二）cos（θj）L20285−L我我SIM我我n i=1我我 2nt1t211 2eyi+ejj=1，j yi（六）验证了对大样本分布偏移有三种捕获设备，最后一次不对称识别损失是在8月2日将来自图像的分块视图公式化为n20286错误率（BPCER）和平均分类错误率在CASIA-FASD中，从低到高，在SiW和MSU-MFSD中，只有一个设备，20287LAsym=1（ni=1个aam（ft 1）+L个aam20288（ft2））（7）其他数据集。细粒度的类号和其他20289数据库的统计信息显示在选项卡中。1.一、注意在20290Oulu-NPU，即使是收藏品也是由六个不同的-202913.4.自监督相似性损失从同一个面给定两个不同的面片视图，20292年龄，自监督相似性约束被应用于强制特征相似。因此，恶搞-20293相关特征可以通过补丁位置和ro来学习站不变性L（f，f）= ft−ft（8）20294ent类型的手机，质量和细节都很漂亮类似，所以我们只将补丁类型分为五个类，20295总数更多细节和示例图像可以在花絮20296绩效指标。在数据集内试验OULU-NPU和SiW，我们遵循原始协议20297和度量，即，攻击呈现分类错误率（APCER），善意陈述分类Er-20298- -数据集受试者剪辑数量#类火车测试火车测试生活恶搞OULU-NPU（O）20201800180014硅钨（S）907524422036212CASIA-FASD（C）203048072036第1001章重演攻击（一）302036024013MSU-MFSD（男）152012016026表1.人脸反欺骗数据集的统计数据（ACER）进行公平比较。在OULU-NPU，CASIA-MFSD，Replay-Attack和MSU-MFSD之间的跨数据集测试4.2. 实现细节以上所有人脸防欺骗数据集最初都以视频格式存储。我们从每个视频片段中随机选择三帧，并使用最先进的面部检测器RetinaFace [7]来裁剪面部进行训练。我们将固定的补丁裁剪大小设置为160，并设置超参数s=30。0，m l=0。4，m s=0。所有协议中的1。我们使用ResNet18 [11]作为补丁特征编码器，当使用更大容量的编码器时，我们没有看到太多的性能差异（如补充材料中所示）。模型使用SGD优化器进行训练，初始学习率为0.002。我们用最多200个epoch训练模型，而学习率每90个epoch减半。在测试过程中，我们从人脸输入图像中统一裁剪固定大小的补丁：最小的x和y坐标是size/2。0，最大x和y坐标为width（size/2. 0）和高度（大小/2。0），分别。在测试期间的所有实验中，我们在每侧均匀地采样3个贴片锚，这导致P=9个贴片用于得分平均。4.3. 数据集内检验我们在Oulu-NPU [1]和SiW [18]上进行实验，以获得数据集内测试结果。我们在下面将结果与最新的面部反欺骗方法进行比较4.3.1关于Oulu-NPUOulu-NPU [1]有四个具有挑战性的协议，分别评估模型对不可见环境、不可见欺骗介质、不可见捕获设备以及所有上述情况的鲁棒性。训练期间的类的数量如Tab.所示。2、我们简单的基于补丁的识别方法在所有协议中实现了最佳性能它清楚地验证了通过补丁识别代理任务学习的特征具有更好的泛化能力4.3.2关于SiWSiW [18]是另一种常用的具有更多身份的高质量数据集。收藏品是由两个不同的-表2. OULU-NPU协议的测试结果。Prot.方法APCER（%）BPCER（%）ACER（%）1解缠[33][19]第十九话BCN [29]CDCN [32]DualStage [26]NAS-FAS [31]PatchNet（我们的）0.070.000.550.070.000.070.000.500.000.170.170.000.170.000.280.000.360.120.000.120.002解缠[33][19]第十九话BCN [29]CDCN [32]DualStage [26]NAS-FAS [31]PatchNet（我们的）0.08±0.170.00±0.000.08±0.170.00±0.000.00±0.000.00±0.000.00±0.000.13±0.090.00±0.000.15±0.000.13±0.090.00±0.000.09±0.100.00±0.000.10±0.040.00± 0.000.11±0.080.06±0.040.00± 0.000.04±0.050.00± 0.003解缠[33][19]第十九话BCN [29]CDCN [32]DualStage [26]NAS-FAS [31]PatchNet（我们的）9.35±6.148.3±3.32.55±0.891.67±0.114.77±5.041.58±0.233.06±1.11.84±2.607.5±3.32.34±0.471.76±0.122.44±2.741.46±0.081.83±0.835.59±4.377.9±3.32.45±0.681.71±0.113.58±3.931.52± 0.132.45±0.45表3. SiW协议的测试结果。不同质量的设备：佳能EOS T6和罗技C920。与Oulu-NPU相比，它包含更多的环境变量和欺骗介质。在方案1、2、3-1和3-2中训练期间的细粒度补丁类型类的数量分别为14、8、6和10。如Tab.所示。3，我们的方法表现最好的前两个协议，并取得了竞争的结果，在协议3。4.4. 消融研究在本小节中，所有消融研究都是在OULU-NPU [1]Prot.方法APCER（%）BPCER（%）ACER（%）1解缠[33][19]第十九话BCN [29]CDCN [32]NAS-FAS [31]PatchNet（我们的）1.70.80.00.40.40.00.81.31.61.70.00.01.31.10.81.00.20.02解缠[33][19]第十九话BCN [29]CDCN [32]NAS-FAS [31]PatchNet（我们的）1.12.32.61.51.51.13.61.60.81.40.81.22.41.91.71.51.21.23解缠[33][19]第十九话BCN [29]CDCN [32]NAS-FAS [31]PatchNet（我们的）2.8±2.21.6±1.62.8±2.42.4±1.32.1±1.31.8±1.471.7±2.64.0±5.42.3±2.82.2±2.01.4±1.10.56±1.242.2±2.22.8±3.32.5±1.12.3±1.41.7±0.61.18± 1.26解缠[33][19]第十九话5.4±2.92.3±3.62.9±4.04.6±4.64.2±5.32.5±3.813.3±6.05.2±5.47.5±6.99.2±8.01.7±2.63.33±3.734.4±3.03.8±4.25.2±3.76.9±2.92.9± 2.82.9±3.020299的方案1（训练集和测试集之间的不同照明条件和位置）上进行的，以探索我们基于斑块的识别框架的细节20300输出类输入提取损失函数ACER（%）→→→→MLMsACER（%）0.00.01.460.20.20.830.20.10.410.40.40.630.40.30.20.40.20.20.40.10.00.40.00.41二进制罚款调整大小PatchCropLAsymLSim✓✓✓✓✓6.25✓3.54✓5.63✓1.88✓✓✓✓✓✓1.46✓✓0.63✓✓0.0表4.OULU-NPU方案1上PatchNet中每个组件的消融研究图3.比较表5。斑块作物大小选择的烧蚀研究。杜松子酒的选择在LAsym。每个组件的影响。选项卡. 图4显示了我们提出的框架中每个组件的烧蚀研究。第一行是初始基线（ACER：6.25%），其将面部反欺骗公式化为具有调整大小的256x256面部输入的二进制分类问题（用标准交叉熵损失训练）。令人惊讶的是，仅通过采用细粒度类和原始帧裁剪策略，我们可以将性能显著提高到1.88% ACER。这表明，朴素基线模型可能过拟合公共FAS数据集中的高水平偏倚，该数据集只包含有限的背景和身份。此外，来自原始帧的裁剪补丁中的精细细节对于区分像OULU-NPU这样的高质量数据集中的不同补丁类型是非常关键的。从表格的下部，我们可以观察到所提出的基于边缘的分类损失和自监督相似性损失的优点。很明显，这两种正则化技术都可以促进编码器学习与捕获设备的特性和呈现材料相关的更多内在特征修补程序裁剪大小的影响。图3显示了不同作物大小之间OULU-NPU方案1的ACER（%）。我们可以观察到，在训练过程中，较大的补丁大小可能容易对来自面部捕捉的偏差过拟合。通过对小块识别损失的正则化和基于小块的增强来增加训练数据的方差，当扩大小块大小时，整体性能没有太大差异。然而，当补丁大小太小时（例如，64），性能显著下降，因为捕获特性不能用非常有限的信息来学习。不对称的保证金选择。我们进行烧蚀实验，以验证我们的非对称边缘设计的有效性，在角裕度softmax损失。从Tab。5，我们可以观察到，增加角边缘可以意味着-表6. CASIA-MFSD和Replay-Attack之间的跨数据集测试结果。评估指标为HTER（%）。有效地提高了模型的泛化能力，性能此外，向具有更多样化外观的欺骗补丁类型添加非常大的余量会损害学习特征的辨别能力我们发现PatchNet在所有测试协议上都能很好地工作，保证金选择m l=0。4，m s=0。1.一、4.5. 跨数据集测试4.5.1C和I首先，在相关工作之后，使用CASIA-MFSD（C）[34]和ReplayAttack（I）[5]进行跨数据集实验，并在HTER中测量结果在训练过程中，细粒度补丁类型类的数目在CI和IC协议中分别为9和4。结果见表1。六、考虑到ReplayAttack数据集的剪辑和低质量视频数量有限，很难学习到在其他数据集上表现非常好的可推广特征，因此与C I相比，协议I C中的错误率仍然很高。我们提出的框架可以实现竞争力的性能相比，以前的作品在这两个协议。4.5.2领域泛化实验最近的一些FAS作品[12，21，24]将每个数据集视为一个域，并在FAS中推广了域泛化基准，该基准利用三个数据集进行训练，剩下的一个作为测试。由于我们的目标是以细粒度的方式区分补丁类型，因此我们提出的框架可以直接用于评估这样的基准，而无需采用进一步的泛化技术（例如，对抗训练或元学习）。通过使用更多样化的捕获设备访问更多不同的补丁类型，我们的框架能够通过补丁识别代理任务学习更多有区别的特征。该基准测试中有四个协议：O& C& I到M、M& I& O到C、M& C& O到I和M& C& I到O。在训练过程中，我们直接将来自三个训练数据集的细粒度补丁类组合在一起，分别得到18、17、22和21个类。测试结果见表1。8.建议PatchNet实现所有协议的竞争力的结果由于C数据集中捕获类型的高度变化，方法火车测试火车测试CASIA-MFSD（C）重播-第1001章攻击（一）重播-第1001章攻击（一）CASIA-MFSD（C）[第28话]31.530.9解缠[33]22.430.3BCN [29]16.636.4CDCN [32]15.532.6

下载后可阅读完整内容，剩余1页未读，立即下载