通用物体反欺骗的噪声建模、合成和分类

18 浏览量更新于2023-10-23 收藏 17.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

We deﬁne this problem as Generic Object Anti-Spooﬁng(GOAS). With the wider variety of objects, there are richerappearance variations and greater challenges in GOAS, asshown in Fig. 1, compared to individual biometric modal-ities. Successful solutions [2, 8, 23, 26, 27, 30, 31, 33] formodality-speciﬁc anti-spooﬁng are likely ineffective forGOAS. We ﬁnd that capture sensors and spooﬁng mediumsbring certain texture patterns (e.g., Moir´e pattern [32]) to allcaptured images, regardless of the content. These patternsare often low-energy and regarded as “noise”. However,they are ubiquitous and consistent, since they result fromthe physical properties of the sensors/mediums and envi-ronmental conditions, such as light reﬂection. We believea proper modeling of such noise patterns will lead to effec-tive solutions for GOAS and may contribute to modality-speciﬁc anti-spooﬁng tasks. In this work, we study the fun-damental low-level vision problem of modeling, synthesiz-ing, and classifying the noise patterns for tackling GOAS.Modeling noise patterns is a promising, yet challenging,approach for GOAS. In [9,10,39], the camera model identi-172940通用物体反欺骗的噪声建模、合成和分类0Joel Stehouwer，Amin Jourabloo，Yaojie Liu，XiaomingLiu密歇根州立大学计算机科学与工程系，东兰辛MI 48824{stehouw7，liuyaoj1，jourablo，liuxm}@msu.edu0摘要0使用打印照片和重放生物特征模态的视频，例如虹膜、指纹和人脸，是欺骗识别系统以获得真实用户访问权限的常见攻击。随着在线个人对个人购物的增长（例如Ebay和Craigslist），这些攻击也威胁到这些服务，其中在线照片可能不是从真实物品上拍摄的，而是从纸张或数字屏幕上拍摄的。因此，反欺骗的研究应该从模态特定的解决方案扩展到基于通用物体的解决方案。在这项工作中，我们首次定义并解决了通用物体反欺骗（GOAS）问题。检测这些攻击的一个重要线索是捕获传感器和欺骗媒介引入的噪声模式。不同的传感器/媒介组合可能导致不同的噪声模式。我们提出了一种基于GAN的架构，用于合成和识别来自已知和未知媒介/传感器组合的噪声模式。我们展示了合成和识别过程是相互有益的。我们进一步证明了学习到的GOAS模型可以直接为模态特定的反欺骗任务做出贡献，而无需域转换。代码和GOSet数据集可在cvlab.cse.msu.edu/project-goas.html上获得。01. 引言反欺骗（即欺骗检测）是生物识别领域的一个长期话题，它使识别系统能够检测来自欺骗媒介的样本，例如打印纸张或数字屏幕[2, 6, 8,26]。类似的问题也可能出现在在线商务网站上，例如Ebay、Craigslist，它们提供服务以实现用户之间的直接买卖。例如，在购买时，顾客可能会想知道，“这是他拥有的真实物品的照片吗？”这种情况激发了一个更广泛的反欺骗问题：0给定一个通用物体的图像，例如杯子或桌子，我们能否自动分类出它是从真实物体上拍摄的，还是通过媒介，例如数字屏幕或打印纸张拍摄的？0图1.与生物特征反欺骗类似，GOAS确定了一个物体的图像是从真实物体还是通过欺骗媒介捕获的。反欺骗算法可能对设备特定的噪声敏感。鉴于使用各种传感器/媒介捕获欺骗数据的挑战，我们在任何组合（标记为X）上合成欺骗图像，这对GOAS有益。72950为了进行数字取证，研究了反欺骗问题。通过使用数据库，如PRNU-PAR数据集[22]和德累斯顿图像数据库[20]，研究了不同捕获传感器的属性。还研究了与噪声模式去除[1]和面部模态噪声模式建模[23]等相关主题。[42]的作者表明，数据增强的简单合成方法对反欺骗任务是有益的。这些先前的工作为开始研究GOAS提供了坚实的基础。与此同时，我们仍然面临三个主要挑战：欺骗噪声模式的复杂性：GOAS中的噪声模式与传感器和媒介以及它们与环境的相互作用有关。首先，数学建模这种相互作用是困难的。其次，这些噪声在大的外观变化下“隐藏”，因此更加难以追踪。此外，每个物理设备都有一个独特的指纹，尽管这些指纹在同一设备型号中是相似的，如[19,21]所示。数据不足和缺乏强标签：与许多其他计算机视觉任务不同，反欺骗的欺骗数据无法从互联网上收集。此外，强标签，例如欺骗图像与真实图像之间的像素级对应关系，非常难以获得。新传感器和欺骗媒介的不断发展进一步复杂化了数据收集，并增加了学习对这些微小但重要变化[5]具有鲁棒性的CNN的难度。模态依赖性：当前的反欺骗方法是针对特定的模态设计的，例如面部、虹膜或指纹。这些解决方案不能应用于不同的模态。因此，希望有一个适用于多个模态或应用的单一反欺骗模型。为了解决这些挑战，我们提出了一种新颖的基于生成对抗网络（GAN）的GOAS方法，包括GOGen、GOLab和GoPad三个部分。GOGen是一个生成器网络，它学习根据目标已知或未知的传感器/媒介组合将实时图像转换为欺骗图像。GOGen允许合成具有特定组合的新图像，有助于解决训练数据中的不足和不平衡问题，如长尾问题[43]。GOLab作为一个多类分类器，用于识别传感器和媒介的类型以及实时与欺骗。GoPad是GOAS的二进制分类器。这个设计中的三个部分，包括合成过程和多类别识别，为我们GOAS的最终目标做出了贡献。为了正确训练这样一个网络，我们提出了三个新的损失函数来建模噪声模式并监督训练。此外，我们收集了第一个通用对象数据集（GOSet）来进行这项研究。GOSet包括7个摄像头传感器、7个欺骗媒介和其他图像变化。总之，这项工作的贡献包括：�我们确定并定义了GOAS的新问题。0�我们提出了一种新颖的网络架构，用于合成有益于GOAS的未见噪声模式。�收集了一个通用对象数据集（GOSet），其中包含24个对象的实时和欺骗视频。�我们展示了将GOSet训练的模型应用于面部反欺骗时的SOTA泛化性能。02. 先前工作虽然关于GOAS的先前工作没有，但我们从三个角度回顾了相关的先前工作。模态特定的反欺骗：早期的工作[6,8]通过手工特征进行纹理分析以进行反欺骗。[2]利用基于补丁的CNN和分数融合来显示可以在小图像补丁中检测到欺骗噪声。类似地，[15]使用细节来指导补丁选择以进行指纹反欺骗。与检测欺骗噪声不同，[23]试图估计并去除图像中的欺骗噪声。基于线索的方法将领域知识纳入反欺骗中，例如rPPG [25, 26]，眨眼[30]，视觉节奏[3, 16,18]，配对音频线索[12]和脉搏血氧饱和度[34]。一个重要的限制是每个模态都是特定领域的；为一个模态开发的算法不能应用于其他模态。最接近跨领域的方法是[28]，通过迁移学习在人脸模态上进行微调。我们的工作通过利用通用对象改进了这些方法，因此被迫成为内容无关的。此外，我们学习了多种欺骗媒介的欺骗噪声的深度表示，并且证明这些噪声可以与实时图像卷积以合成新的欺骗图像。噪声模式建模：由于没有规范的真实标准，对图像中的噪声进行建模或提取是具有挑战性的。因此，一些工作尝试通过对传感器的物理特性和捕获图像的软件后处理进行假设来估计噪声[38,39]。在这些假设的基础上，提出了集成分类器[9]、基于手工特征的分类器[38,39]和深度学习方法[22]来解决相机模型识别问题。在此基础上，我们假设传感器噪声与图像内容无关。然而，我们不仅对图像中的噪声进行分类，还学习了每个传感器的噪声原型，可以与任何图像卷积以修改其“噪声足迹”。我们还解决了欺骗媒介噪声建模和分类的挑战。[23]估计图像上的欺骗噪声，但仅限于人脸图像，并估计每个图像的噪声。因此，我们通过在单个CNN中结合相机模型识别和欺骗噪声估计两个任务来扩展相机模型识别和欺骗噪声估计的工作，并对传感器和媒介噪声进行了广义表示的建模。图像处理和合成：GAN在风格转换和图像合成任务中越来越受到关注。Star-GAN [14]利用来自多个领域的图像进行合成。72960图2.训练GOGen的整体框架。实时图像被输入生成器以修改传感器或欺骗噪声。生成的图像由GOLab鉴别器进行分类，以监督生成的图像。还使用额外的鉴别器来确保生成的图像保持视觉上吸引人和逼真。在图中的每个部分中，只有纯色网络在该训练步骤中进行更新。我们在训练GOGen的一步和训练GOLab和GODisc的下一步之间交替进行。输入的one-hot向量被用作掩码，以选择适当学习的噪声图，然后将其与输入图像连接。0领域和数据集准确地通过修改属性来操作图像。[44]试图通过要求生成器学习一种映射，使其能够从合成图像中重新创建原始图像来确保高保真度的操作。[29]的工作表明，通过提供额外的标签，如姿势[40]，可以有条件地影响GAN的输出。在这里，我们提出了一种基于GAN的、有针对性的、内容无关的图像合成算法（GOGen），仅改变图像的高频信息。类似地，图像超分辨率[11, 17, 36,37]用于提高图像的视觉质量和高频信息。[24]使用拉普拉斯金字塔结构将低分辨率（LR）图像转换为高分辨率（HR）图像。[35]估计HR梯度场，并将其与放大的LR图像一起使用以生成HR图像。虽然超分辨率从低频输入中产生高频信息，但我们的GOGen旨在改变输入实时图像中现有的高频信息，这在其不可预测的性质下尤为具有挑战性。03.提出的方法在本节中，我们介绍了所提出方法的细节，包括GOGen、GODisc和GOLab。如图2所示，整体框架采用了GAN架构，由一个生成器（GOGen）和两个鉴别器（GODisc和GOLab）组成。GOGen合成了任何传感器和媒介组合的额外欺骗视频，甚至是未见组合。GODisc是指导GOGen生成视觉上合理的图像的鉴别器网络。GOLab执行传感器和媒介的识别。此外，GOLab还作为模块生成最终的欺骗检测分数。我们还提出了GOPad，它是从先前的反欺骗工作中使用的传统二分类器进行调整，以与所提出的方法进行比较。0方法。为了防止过拟合并增加训练数据的数量，网络的输入是从原始图像中提取的图像块。03.1.GOGen：欺骗合成0在反欺骗中，传感器和欺骗媒介的种类增加，给数据收集和泛化带来了很大的挑战。从每个相机和欺骗媒介的组合收集额外数据变得越来越昂贵。同时，训练数据的数量、质量和多样性决定了深度学习算法的性能并影响其泛化能力。因此，我们开发了GOGen来满足对持续数据收集的需求，通过合成未见组合的图像。我们训练GOGen使用从已知组合中学到的知识来合成未见传感器/媒介组合的新图像。当引入新设备时，GOGen可以通过使用来自其他设备的所有先前收集的数据来训练，只需使用新设备的最少数据。生成器CNNGen()将实时图像转换为由指定传感器捕获的指定欺骗媒介的目标欺骗图像。具体来说，生成器的输入是实时图像I∈RH×W和两个指定输出图像的传感器ac∈Rnc和通过其捕获输出的媒介am∈Rnm的one-hot向量。输出是合成图像ˆI。GOGen的一个关键创新是对不同传感器和欺骗媒介的噪声建模。我们假设传感器和媒介的噪声是与图像无关的，因为它们归因于硬件，而图像上的噪声是与图像相关的，由传感器、媒介、图像内容和成像环境之间的相互作用引起。为了对这种相互作用进行建模，我们将所有类型传感器的图像无关潜在噪声原型集合表示为JDisctrain = −EI∈R log(CNNDisc(I))− EI∈L log(∥1 − CNNDisc(CNNGen(T))∥),(3)JDisctest = −EI∈L log(∥CNNDisc(CNNGen(T))∥).(4)72970图3. GOGen学习传感器噪声原型M c（第1行）和欺骗介质Mm（第2行）。第3行和第4行分别显示了第1行和第2行中噪声原型的2D FFT功率谱。0M c ∈ R H × W × n c ，介质 M m ∈ R H × W × n m。在训练中，使用输入的one-hot向量 a c 和 a m，通过以下公式选择特定传感器-介质组合的噪声原型 N c，N m ∈ R H × W ：0N c =0i = 1 a i c M i c ，Nm =0i = 1 a i m M i m。(1)0然后，我们将I、Nc和Nm连接为T =[I，Nc，Nm]，并将T输入生成器。通过卷积，生成器模拟了图像内容I和学习到的Nc和Nm之间的相互作用，以生成特定设备、依赖于图像的合成图像。通过一次只操作传感器或介质，我们能够独立地监督M c 或M m。通过这种方式，可以使用来自学习到的Nc和Nm的任何组合来为合成图像生成噪声，即使是来自未见过的组合。我们假设通过反向传播将噪声表示作为GOGen的一部分，我们应该能够学习到特定于设备但在该设备捕获的所有图像中通用的潜在噪声原型。这样的表示将使GOGen能够在许多（nc × nm）个传感器和介质组合下更好地合成图像。我们在图3中展示了学习到的传感器和介质噪声原型。在输入图像和噪声原型连接后，它们被送入8个卷积层以合成欺骗图像。GOGen的详细网络架构如表1所示。由于额外的欺骗噪声应该是低能量的，使用L2损失来最小化真实图像和生成器合成图像之间的差异。这个损失有助于限制噪声的幅度：0J Vis = ∥ I - CNN Gen(T) ∥ 2 2 .(2)0表1.GOGen、GOLab和GODisc的网络架构。如果需要，调整大小在连接之前完成。在GOLab和GODisc网络末尾的全连接层之前进行重塑。所有步长为1。所有卷积核大小为3×3，除了Golab和GOPad中的Conv0，其大小为5×5。辍学率为0.5。对于输出，我们显示尺寸（高度和宽度）和通道数。0方法 GOGen GOLab GODisc0层输入输出输入输出输入输出0Img - 64，3 - 64，3 - 64，3 Lab - 64，2 Conc 0 Img,Lab 64，5 Conv 0 Conc 0 64，64 Img 64，64 Img 64，32Pool 0 Conv 0 - Conv 0 - Conv 1 Conv 0 64，96 Pool 0 32，96 Pool 0 32，32 Conv 2 Conv 1 64，96 Conv 132，128 Conv 1 32，64 Conv 3 Conv 2 64，96 Conv 2 32，96 Conv 2 32，64 Pool 1 Conv 3 - Conv 3 - Conv 4Conv 3 64，96 Pool 1 16，128 Pool 1 16，64 Conc 1 Lab,Conv 0 - 4 64，450 Conv 5 Conc 1 64，160 Conv 416，156 Conv 4 16，96 Conv 6 Conv 5 64，64 Conv 5 16，128 Conv 5 16，96 Pool 2 Conv 6 - Conv 7 Pool 28，96 Conv 8 Conv 7 8，128 Conv 9 Conv 8 8，96 Conc 2 Lab,Conv 5 - 6 64，226 Conv 3, 6, 9 8，320 Conv 3,6 32，160 Conv 10 Conv 2 64，3 Conc 2 8，96 Conc 2 32，64 Conc 3 Img,Conv 10 64，3 Conv 11 Conv 108，64 Conv 10 32，32 Drop 0 Conv 11 Conv 11 -0传感器分支 Conv 12 Drop 0.8，3个全连接层 1个卷积层 12个1，512个Drop 0.1，256个全连接层 2个全连接层1个1，7个全连接层 1个1，2个Softmax全连接层 2个1，7个全连接层 2个1，2个0介质分支 Conv 13 Drop 0.8，3个全连接层 3个卷积层 13个1，512个全连接层4个全连接层 3个1，7个Softmax全连接层 4个1，7个03.2. GODisc: 鉴别器和GAN损失接下来，鉴别器GODisc确保ˆI具有视觉吸引力。GODisc网络包括10个卷积层和2个全连接层，如表1所示。它输出两个类别（真实欺骗图像 vs.合成欺骗图像）的Softmax概率。GAN的训练遵循交替训练过程。在训练CNN Disc()期间，我们固定CNNGen()的参数，并使用以下损失函数：0其中R表示真实的伪造图像，L表示真实的真实图像。在GOGen的训练过程中，我们固定CNNDisc()的参数，并使用以下损失函数：03.3. GOLab: 传感器和介质识别GOLab旨在对来自特定传感器和伪造介质的噪声进行分类。它既是指导GOGen生成准确伪造图像的鉴别器，也是为GOAS生成分数的最终模块。如表1所示，GOLab的输入是一张大小为64×64的RGB图像。输入图像可以是原始图像，也可以是GOGen合成的图像。它使用11个卷积层和3个最大池化层提取特征，然后使用两个全连接层为传感器和介质分类生成nc维和nm维的向量。每个向量来自一个独立的全连接层堆栈。我们使用交叉熵损失来监督GOLab的训练。给定输入图像I，伪造介质的真实独热标签am和softmax归一化预测ˆam，以及传感器的真实独热标签ac和ˆac，损失函数定义为：Sc = −aimlog(ˆaim),(5)JLabtrain = Sc(I) + Sm(I),(6)JLabtest = Sm,(7)JPad = ∥CNNPad(I) − G∥22,(8)We show all of the three proposed CNN networks inFig. 2. We use an alternating training scheme for updatingthe networks during the training. We train the GOGen whilethe GOLab and GODisc are ﬁxed. In the next step, we keepthe GOGen ﬁxed and train the other two networks. We al-ternate between these two steps until all networks converge.To train the GOGen and GOLab, we use batch sizes of 40.Patch sizes of 64×64 are used for the GOGen, GODisc, andGOLab. Patch sizes of 256 × 256 are used for the GOPad,following the setting of previous works. The ﬁnal loss fortraining the generator of GOGen can be summarized as:72980图4. GOSet数据集中所有24个物体和7个背景的实例真实图像示例。0i a i c log (ˆ a i c ) , S m = − �0其中i是传感器和伪造介质的类索引。然后，用于监督GOLab的最终损失为：0GOLab网络通过传感器和伪造介质损失函数的反向传播为生成器提供监督并引导其更新。具体来说，我们为更新生成器网络定义了一个归一化损失：01 + S m ( I ) + S c ( CNN Gen ( T ))0训练过程中，该映射允许CNN模型在像素级别进行真实/伪造标记。当收敛时，0-1映射应该是均匀的0或1，表示对真实与伪造的自信分类。形式上，损失函数定义为：03.4. GOPad: 二分类为了展示所提出方法的优势，我们遵循基线算法[26]，具体来说是伪深度图分支，实现了GOAS的二分类，称为GOPad。为了后面展示强大的泛化能力，我们通过将每一层中的卷积核数量大幅减少到基线算法的三分之一左右，限制了GOPad算法的大小。GOPad网络以RGB图像作为输入，在最后一层生成一个0-1的映射CNN Pad ( I ) ∈ R H ×W，其中0表示真实，1表示伪造。网络在检测到伪造噪声时激活。在0其中G是真实的0-1映射。03.5. 实现细节0J = J Disc test + λ0 J Vis + λ1 J Lab test，(9)0其中λ0和λ1是加权因子。训练GODisc和GOLab的最终损失可以表示为：0J = J Disc train + λ1 J Lab train，(10)0λ0和λ1对于所有实验都设置为0.5和0.1。04. 通用物体反欺骗数据集为了研究GOAS，我们考虑了总共24个物体，7个背景，7个常用的相机传感器和7个欺骗媒介（包括空白媒介）来收集通用物体数据集（GOSet）。如果完全枚举，这将需要收集8232个视频。由于限制，我们选择性地收集了2849个视频，以涵盖大多数背景，相机传感器和欺骗媒介的组合。我们收集的物体包括：挤压器，鼠标，多功能笔，太阳镜，水瓶，键盘，铅笔，计算器，订书机，闪存驱动器，电源线，硬盘盘片，钥匙，鞋（红色），鞋（白色），鞋（黑色），Airpods，遥控器，PS4（彩色）72990表2.模态特定的反欺骗算法和GOLab的比较。所有方法都在GOSet上进行训练和测试。0算法 HTER EER AUC0Chingovska LBP [13] 16.6 16.9 91.6Boulkenafet Texture [7] 18.2 19.5 89.1Boulkenafet SURF [8] 34.0 35.1 67.6 Atoum etal. [2] 13.4 13.5 91.2GOPad（我们的方法）20.6 22.9 87.6GOLab（我们的方法）6.3 6.7 97.50PS4（黑色），Kleenex，喷灯，打火机和能量棒，如图4所示。通用物体更容易获得用于数据收集，并且不受隐私或安全问题的限制，与人体生物特征相反。这些物体放置在7个背景前面，包括桌子木材，地毯斑点，地毯花纹，地板木材，床单（白色），毯子（蓝色）和桌子（黑色）。欺骗媒介包括3个常见的计算机屏幕（Acer台式机，戴尔台式机和Acer笔记本电脑）和3个移动设备屏幕（iPadPro，三星Tab和GooglePixel），它们的尺寸和显示质量各不相同。视频是使用7个商用设备收集的（Moto X，三星S8，iPad Pro，iPodTouch，Google Pixel，Logitech网络摄像头和佳能EOSRebel）。除了分辨率为720P的iPodTouch的视频外，所有视频均以1080P的分辨率拍摄，平均长度为12.5秒。我们首先在变化的距离和视角下捕获所有物体的实时视频，然后通过直接查看欺骗媒介并在其上显示实时视频来收集欺骗视频。在收集欺骗视频时，我们注意防止不必要的欺骗伪迹（光反射，屏幕边框），以及数据偏差（距离，亮度和方向的差异）。为了利用GOSet，我们将其分为训练集和测试集。训练集由前13个物体组成，对应于前2个背景。测试集由其余的物体和背景组成。此分割防止重叠并呈现真实世界的测试场景。05.实验在所有实验中，我们使用上述的训练/测试分区来训练和评估所提出的方法。对于评估指标，我们报告曲线下面积（AUC），一半总错误率（HTER）[4]和等错误率（EER）[41]。性能是基于视频的，通过补丁分数的多数投票来计算。对于每个视频，我们使用所有帧；对于每个帧，我们随机选择20个补丁。05.1. 通用物体反欺骗0基准性能：为了证明我们提出的方法的优越性，我们将我们的方法与我们的方法进行比较。0表3.相机传感器和欺骗媒介识别的混淆矩阵。使用每个视频帧中的20个补丁进行多数投票，报告每个传感器/媒介和平均值的识别准确性。0传感器 (1) (2) (3) (4) (5) (6) (7) 准确率0(1) Moto X 16 0 7 5 18 0 0 34 . 8 (2) Logitech 2 320 0 0 0 0 3 98 . 5 (3)Samsung S8 1 2 353 1 0 7 17 92 . 7 (4) iPad Pro 6 0 42 220 0 3 0 81 .2 (5) Canon EOS 55 0 7 32 68 0 3 41 . 2 (6) iPod Touch 0 0 0 0 0 2700 100 . 0 (7) Google Pixel 1 1 0 0 0 1 259 98 . 9 总体 87 . 60(a)0介质 (1) (2) (3) (4) (5) (6) (7) 准确率0(1) 真实 97 7 0 0 0 1 0 92 . 4 (2) Acer 台式机 50 116 67 36 9 45 3 35 .6 (3) Dell 台式机 31 52 83 59 20 77 8 25 . 2 (4) Acer 笔记本 58 53 4141 7 3 5 52 . 0 (5) iPad Pro 43 30 31 29 107 30 0 39 . 6 (6) Samsung平板 4 0 0 79 5 115 0 56 . 7 (7) Google Pixel 7 54 5 12 34 20 84 38 . 9总体 43 . 20(b)0在GOSet测试集上对最近方法[2, 7, 8,13]的实现。这些最近的方法是基于颜色和纹理信息进行反欺骗的模态特定算法。从表2中可以看出，GOLab在GOAS任务中的性能优于其他反欺骗方法。GOLab的优势：表3(a)和(b)显示了GOLab在传感器和欺骗介质分类上的混淆矩阵。传感器的分类性能明显优于介质，总体准确率为87.6%对比43.2%。尽管图3表明介质之间的噪声具有明显的模式，但值得注意的是，介质噪声可以被传感器噪声“隐藏”在图像中，这导致了较低的准确率。对于检测真实视频的准确率为92.4%，展示了其在反欺骗任务中的有希望的能力。我们计算了GoLab在GOSet测试数据上的ROC曲线。图5(a)和(b)分别显示了不同对象和不同背景的ROC曲线。我们可以看到不同对象的AUC相似。但是不同背景的AUC变化较大，这表明GOLab对纹理丰富的表面更敏感，例如(b)中的花纹地毯。通过比较图5(c)中不同传感器的ROC曲线，我们观察到“Google Pixel”和“iPodTouch”是最难检测的传感器，因为它们分别是最高和最低质量的传感器。这导致iPod的图像更像欺骗图像，而Pixel的图像则不太像，而它们各自的噪声模式在表3中最容易区分。类似地，图5(d)显示了“Acer笔记本”是最具挑战性的欺骗介质。1/4, 1/679.726.827.779.727.227.61/4, 1/385.124.025.786.522.322.81/2, 1/681.924.726.786.022.222.81/2, 1/387.619.621.092.514.916.273000(a) (b) (c) (d) 图5. GOLab算法在GOSet测试集上的反欺骗性能的ROC曲线。(a) 按对象的性能，(b) 按背景的性能，(c) 按传感器的性能，(d)按欺骗介质的性能。0表4.GOLab在不同数量的真实、真实欺骗和合成欺骗数据上训练的性能。真实数据是随机选择的。对于每个真实视频，随机选择1个或2个（共6个可能的）欺骗视频。我们从生成的数据中随机选择以增加10%的训练数据。0数据 GOLab GOLab + GOGen0真实，欺骗 AUC HTER EER AUC HTER EER0GOGen的优势：GOGen生成合成的欺骗图像并进行数据增强，以改善GOLab的训练。它可以合成在训练数据中可能存在不足或缺失的欺骗图像。为了展示GOGen的优势，我们使用不同组合的训练数据来训练GOLab。数据组合和相应的结果显示在表4中。通过比较相对性能，我们可以看到更多的欺骗数据比更多的真实数据更重要，因为额外的欺骗数据包含传感器和介质噪声，而真实数据只有传感器噪声。将没有GOGen的GOLab的性能与具有GOGen的GOLab的性能进行比较，训练过程中包含合成数据对GOLab的反欺骗性能有显著的好处。随着引入更多的传感器/介质，GOGen可以通过适当地为新的传感器/介质组合生成图像来降低未来数据收集的成本。05.2. 人脸反欺骗性能0我们还评估了所提方法在人脸反欺骗任务上的泛化性能。我们在两个人脸反欺骗数据库 SiW 和 OULU-NPU之间进行了跨数据库测试。在 OULU-NPU 上的测试遵循Protocol 1，而在 SiW上的测试则在所有测试数据上执行。评估和比较包括两个部分：首先，我们在 OULU-NPU 或 SiW上训练之前的方法，并在另一个数据库上进行测试；其次，我们在 GOSet上训练之前的方法和我们的方法，并在这两个人脸数据库上进行测试。结果如表 5 所示。0表 5. GOPad 和 GOLab 算法以及 SOTA人脸反欺骗算法在人脸反欺骗数据集上的性能。在人脸数据上训练的算法在 OULU 和 MSU-SiW 之间进行了交叉测试。其余算法在GOSet 上进行了训练。[关键字：最佳，次佳]0OULU P1 MSU SiW0算法训练 HTER EER HTER EER0Chingovska LBP [13] Face 38.5 44.2 30.5 31.7 Boulkenafet Texture[7] Face 40.8 43.3 28.6 29.9 Boulkenafet SURF [8] Face 38.2 40.836.0 36.7 Atoum et al. [2] Face 11.8 13.3 11.0 11.20Chingovska LBP [13] GOSet 44.1 46.1 42.2 42.4 BoulkenafetTexture [7] GOSet 34.6 36.7 44.1 44.9 Boulkenafet SURF [8] GOSet45.3 45.8 47.7 48.6 Atoum et al. [2] GOSet 32.9 35.0 8.2 8.8 GOPad(Ours) GOSet 33.4 34.2 9.5 10.2 GOLab (Ours) GOSet 41.2 42.5 15.616.00GOPad 在结构上与 Atoum等人的算法[2]非常相似，然而，[2]使用的网络参数数量超过了 10 倍。这两种方法之间的相似性表明，尽管 GOPad的规模较小，但它仍能学习到强大的区分能力。Atoum等人和 GOPad 在使用 GOSet 训练后在 SiW上的最佳性能证明了从通用对象到人脸数据的泛化能力。然而，当在 OULU上进行测试时，这种性能的缺乏表明当前方法对未知传感器/媒介的泛化能力较差，这为 GOGen合成代表这些设备的数据提供了未来的动力。0我们使用 MSU SiW 人脸数据集训练 Atoum 等人[2]，并在GOSet 数据集上进行测试，结果为 AUC 62.3，HTER37.0，EER 41.4。与表 4 相比，Atoum等人[2]的性能最低，甚至比使用最少数据训练的 GOLab还差。这表明仅在人脸上训练的模型是特定领域的，无法对伪造图像中的真实噪声进行建模或检测。05.3. 割舍研究0噪声表示：图 3 显示了传感器和媒介的学习噪声原型。在图3 的最后一行中，可以明显看到独特的高频信息。73010表 6. GOPad 和 GOLab 在 GOSet数据集上使用不同数量的训练数据的反欺骗性能。0数据 Golab GoPad0（真人，假脸）AUC HTER EER AUC HTER EER0(1/4, 1/6) 79.7 26.8 27.7 84.4 23.8 24.8 (1/4, 4/6) 86.0 21.623.8 86.2 22.4 22.9 (All, 4/6) 94.6 12.5 13.9 86.3 22.4 23.8 (All,All) 97.5 6.3 6.7 87.6 20.6 22.90图 6. 基于 GOLab 的反欺骗方法示意图，左侧为 2个成功案例（上行为真人，下行为真假脸），右侧为 2个失败案例（上行为真人，下行为真假脸），每张图像使用 20个补丁。颜色条显示网络的输出范围：1 表示假脸，0表示真人。左上角的分数是所有补丁的平均值。0伪造媒介原型的 FFT。相比之下，传感器原型的 FFT类似。为了评估建模噪声原型的优势，我们通过构造 T = [I,M'c, M'm] 来训练没有噪声原型的 GOGen 网络。M'c 和M'm 的大小与 M c 和 M m相同，除了所选伪造和媒介的原型全为1，其余元素全为零。相关 GOLab在合成数据上的传感器和伪造媒介识别的 Rank-1准确率分别为 11.0% 和19.7%。然而，通过学习噪声原型，如图 2所示，准确率分别为 56.0% 和 26.3%。0二元或多元分类：我们在GOSet数据集上训练了GOPad，发现当只使用少量数据进行训练时，GOPad的性能优于GOLab。然而，当使用较大的训练集时，GOLab优于GOPad。要使用的训练数据是通过随机采样GOSet训练集来选择的。我们将这一改进归因于GOLab学习到的辅助信息（多个传感器和媒介之间的分类），用于传感器和欺骗媒介的识别。详细的比较结果如表6所示。0GOLab损失函数：为了证明GOLab算法中传感器和媒介分类的好处，我们分别使用它们进行实验。仅使用公式6中的Sc(I)，我们获得了84.7%的Rank-1准确率。类似地，仅使用Sm(I)，我们获得了42.0%的准确率，反欺骗性能的AUC为85.9，HTER为22.1，EER为22.8。通过融合任务，我们将传感器和媒介的准确率提高到87.6%和43.2%。这也提高了反欺骗性能，AUC为97.5，HTER为6.3，EER为6.7。0图7.真实图像（第一行），合成欺骗图像（第二行）和真实欺骗图像（第三行）的视觉比较。列分别为整个图像、图像补丁和图像补丁的FFT功率谱。每个合成图像都是从真实图像生成的。相应的真实欺骗图像（第三行）是使用目标传感器/欺骗媒介组合收集的。05.4. 可视化和定性分析0图6显示了GOLab模型在GOSet数据集上的成功和失败案例。这表明，光滑、反射的背景被不成比例地分类为真实图像，而有纹理的地毯/布背景则被反向分类为欺骗图像。因此，GOAS和生物特征反欺骗必须能够在整个图像上进行，因为图像中没有一个单独的补丁可以为整个图像提供准确和自

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

通用物体反欺骗的噪声建模、合成和分类

jianchuanzaoshengxinhao.rar_ship noise_噪声建模_舰船_舰船信号 建模_舰船噪声仿真

低噪声频率合成普通下载.pdf

图像噪声的合成与去除小程序python

噪声在数据建模中表示什么

有源噪声控制在线建模

帮我解释一下语音合成技术sovits和vits区别，为什么两者模型无法通用

数学建模一般怎么对数据进行分析处理分类

多元线性回归和随机森林算法建模

主动噪声控制的simulink建模

MEMS惯性器件误差建模和补偿方法综述

高斯背景建模分离背景实验

opencvsharp 运动物体检测

共振峰合成与LPC合成法的原理是什么？这合成语音的质量有何不同？

小数锁相环 matlab建模

matlab 3d粗糙表面进行建模

matlab中值背景建模

这样的建模和实际模型相比所存在的主要误差是什么

基于激光点云数据的三维建模应用实践pdf

PLC信道建模matlab实现

最新资源

jianchuanzaoshengxinhao.rar_ship noise_噪声建模_舰船_舰船信号建模_舰船噪声仿真