没有合适的资源?快使用搜索试试~ 我知道了~
15108ID-Reveal:身份感知的DeepFake视频检测Da videCozzolino1AndreasRo¨ssler2JustusThies2,3MatthiasNießner2LuisaVerdoliva11那不勒斯费德里科二世大学2慕尼黑工业大学3德国图宾根马克斯·普朗克智能系统研究所摘要DeepFake伪造检测的一个主要挑战是,最先进的算法大多经过训练来检测特定的伪造方法。结果,这些方法在不同类型的面部操纵中显示出较差的泛化,例如,从换脸到面部重现为此,我们引入了ID-Reveal,这是一种新的方法,通过度量学习结合对抗性训练策略来学习时间面部特征,具体了解一个人在说话时的移动方式。优点是我们不需要任何假视频的训练数据,而只需要在真实视频上训练此外,我们利用高层次的语义特征,这使得鲁棒性广泛和disruptive形式的后处理。我们对几个公开的基准进行了彻底与现有技术相比,我们的方法改进了生成,并且对通常在社交网络上传播的低质量视频更鲁棒。特别是,我们获得了超过15%的精度方面的平均改善面部重现高压缩视频。1. 介绍合成媒体生成的最新进展允许我们以高水平的真实感自动操纵图像和视频。为了抵消这些图像合成和操作方法的滥用,数字媒体取证领域得到了很多关注[41,40]。例如,在过去的两年中,对DeepFake检测进行了深入的研究,通过引入具有操纵面部的大型视频数据集[35,33,15,31,25,28,19],这受到了强烈的刺激。然而,尽管有出色的检测性能,主要的挑战是如何推广到以前看不见的方法。例如,在面部交换上训练的检测器在面部重现方法上进行测试时,性能会急剧下降不幸的是,这限制了实用性,因为我们看到新类型的伪造品几乎每天都会出现图1:ID-Reveal是一种身份感知的DeepFake视频检测。基于人的参考视频,我们估计时间嵌入,其被用作距离度量来检测假视频。基础结果,需要特定伪造方法的大量训练数据的监督检测不能立即检测新看到的伪造类型。这种不匹配和泛化问题已经在文献中使用不同的策略解决,从应用域自适应[12,5]或主动学习[17]到在训练期间强烈增加增强[43,15]或通过集成程序[15,7]。一种不同的研究方法是在训练时仅依赖于原始视频,并检测关于伪造视频的可能异常[24,11,13]。这可以帮助增加关于新的未知操纵的泛化能力,但是没有解决以不同的数字历史为特征的视频的问题。每当视频在社交网络上传播并由不同用户多次发布时,这是非常常见的事实上,大多数平台经常降低质量和/或视频分辨率。还要注意的是,目前的文献主要集中在面部交换,一种用另一个对象替换面部识别的操作,然而,一种非常有效的修改是面部再现[39],其中只有一个人的表情或嘴唇运动被修改(图10)。2)的情况。最近,MIT Center for Advanced Virtual-15109图2:自动面部操作可以分为两个主要类别:面部重现和换脸第一个改变面部表情以保持身份。第二个修改保留面部表情的人的身份这是一个DeepFake的视频,内容是理查德·尼克松总统。合成视频显示尼克松发表了一个他从未打算发表的演讲,只修改了嘴唇的运动和旧原始视频的演讲。最后的结果是令人印象深刻的,并显示了重要性,开发伪造检测方法,可以概括不同类型的面部操作。为了更好地突出这个问题,我们进行了一个实验,考虑到最近由Facebook在Kag- gle平台上组织的Deep-Fake Detection Challenge的获胜解决方案。表演者可以使用一个庞大的视频数据集(大约10万个假视频和2万个具有数百个不同身份的原始视频图3、给出了实验结果该模型首先在真实和deepfake视频的数据集上进行测试,包括类似的面部交换操作,然后我们考虑了看不见的面部交换操作,最后使用面部重现操作视频可以清楚地观察到在最后一种情况下性能的显著下降。此外,对低质量压缩视频的测试示出了额外的损失,并且准确度的最终值只不过是随机猜测。还值得注意的是,目前的方法通常被用作黑箱模型,并且很难预测结果,因为在现实情况下,不可能有关于所发生的操纵类型的线索。当前监督式深度学习方法缺乏可靠性,这促使我们采取完全不同的视角,避免回答二元问题(真的还是假的?)而不是集中在想被测试的脸是否保留了所涉及的主体的所有生物特征。按照这个方向,我们提出的方法原来是能够推广到不同的操作方法,也显示出鲁棒性w.r.t.低质量数据。它可以通过突出不一致性来揭示主题的身份1https://moondisaster.org图3:在DFDC数据集[15]上训练并在不同数据集上测试的Deepfake检测挑战赛[36]获胜者的准确性结果(二进制分类任务):预览DFDC[16](见面部交换)和FaceForensics++ [35]都在面部交换和面部重现上。结果呈现在高质量(HQ)和低质量(LQ)视频上。面部特征,如时间一致运动。底层CNN架构包括三个主要组件:面部特征提取器、检测生物特征异常的时间网络(时间ID网络)和试图基于不同主体的表情预测个人特定运动的生成对抗网络。网络仅在包含许多不同主题的真实视频上进行训练[9]。在测试时间期间,除了测试视频之外,我们假设具有目标人的一组原始视频。基于这些原始示例,我们使用时间ID网络的嵌入来计算到测试视频的距离度量(图1B)。①的人。总体而言,我们的主要贡献如下:我们提出了一种基于实例的伪造检测方法,该方法根据主体的身份,特别是特定于人的面部运动来检测面部操作的视频。广泛的评估表明,即使在低质量视频上,也可以对不同类型的操作进行一般化,具有超过15%w.r.t.的显著平均最先进的技术。2. 相关工作数字媒体取证,特别是在DeepFakes的背景下,是一个非常活跃的研究领域。 这些方法的主要部分依赖于原始视频和假视频的大规模数据集的可用性,以用于监督学习。一些方法将操纵检测为关于r.t.的异常。仅在原始视频上学习的功能。这些方法中的一些验证视频中的人的行为是否与此人的给定的一组示例视频一致我们的方法ID-Reveal就是这样一种基于实例的伪造检测方法。在下文中,我们讨论最相关的检测方法。··15110Afchar et al.[1]提出了基于监督学习的DeepFake视频检测的第一种方法之一。 它侧重于介观特征,通过使用具有低层数的网络来分析视频帧。 R?ssler等[35]研究了几种用于DeepFake视频检测的CNN架构的性能,并表明非常深的网络对这项任务更有效,特别是在低质量视频上。为了训练网络,作者还发布了一个大规模的数据集。逐帧应用性能最佳的架构XceptionNet [8],并通过后续工作进一步改进。在[14]中,包括了注意力机制,其也可以用于定位操纵区域,而在Kumar等人中。[27]已经应用了三重丢失来改进高度压缩视频的性能。正交地,通过利用沿时间方向出现的伪影,可以进一步提高性能。为此,Guera et al.[20]提出使用卷积长短期记忆(LSTM)网络。Masi等人。[32]提出通过双分支网络提取特征,然后将其输入LSTM:一个分支获取原始信息,而另一个分支处理残差图像。不同的是,在[46]中,提出了3D CNN结构以及特征图的不同抽象级别的注意力机制。当训练集包括相同类型的面部操纵时,这些方法中的大多数实现非常好的性能,但是性能在不可见的篡改方法上显著地受损。事实上,泛化是媒体取证的阿喀琉斯之踵。增强可以有利于推广到不同的操作,如[43]所示。特别是,在DeepFake检测挑战期间,增强已被最佳性能方法广泛使用[15]。除了经典的增强操作之外,其中一些操作特别有用,例如,通过在面部的一些特定部分包括基于截断的策略。除了增强之外,还使用了不同CNN的集成来提高该挑战期间的性能[7,17]。另一种可能的方法是只在原始视频上学习,并将操纵解释为异常。这可以改善对各种类型的面部操纵的检测结果,即使网络在训练中从未见过这种伪造在[11]中,作者提取了从多个帧中收集的相机指纹信息,并将其用于检测。其他方法专注于当前DeepFake技术中使用的例如在[28]其目的是检测混合操作,该混合操作表征用于大多数当前合成面部生成方法的面部边界。在[12,5]中提出了改进泛化的不同观点,其中应用了少量学习策略因此,这些方法依赖于少数人标记新方法的示例并指导训练过程,使得新嵌入可以在短的再训练过程中与先前看到的操作方法和基于生理信号的特征其他方法查看与生理信号相关的所生成的视频的特定伪影。在[29]中,提出了一种检测眨眼的方法,其特征在于真人视频中的特定频率和持续时间。类似地,还可以使用头部姿势[45]或面部扭曲伪影[30]的不一致性作为篡改内容的标识符。最近的工作还使用心跳[18,34]和其他生物信号[10]来发现空间和时间方向上的不一致性。基于身份的特征基于身份的方法的思想是通过提取一些特定的生物特征来表征每个个体,这些生物特征很难被生成器再现[4,3,2]。Agarwal et al.[4]是第一种利用个人面部和头部运动的独特模式来检测虚假视频的方法。在[3]中,利用了口型动态和口语音素之间的不一致。在[2]中提出了另一个相关的该技术使用基于面部识别的静态生物特征和基于面部表情和头部运动的时间生物特征该方法包括来自人脸识别的标准技术相比之下,我们提出的方法提取面部特征的基础上的3D变形模型,并专注于通过对抗性学习策略的时间行为。这有助于改进面部再现操纵的检测,同时仍然能够始终发现面部交换操纵。3. 该方法ID-Reveal是一种用于DeepFake检测的方法,其使用所描绘的身份的先前生物特征来检测人的视频内容中的面部操纵。基于面部替换的任何操纵的视频内容虽然面部重现保留了视觉身份,但运动等生物特征仍然是错误的。使用目标身份的原始视频材料,我们可以提取这些生物统计特征,并将它们与在可能被操纵的测试视频上计算的特征进行比较。为了能够推广到各种操作方法,我们避免了对特定操作方法的训练,相反,我们只对未篡改的视频进行训练。而且这个15111×个NN不Σ图4:ID-Reveal基于两个神经网络,Temporal ID Network和3DMM Generative Network,它们以对抗的方式相互作用。使用三维变形模型(3DMM),我们处理不同身份的视频,并训练Temporal ID Network来嵌入提取的特征,以便它们可以根据其包含的身份在生成的嵌入空间中分离为了激励该网络专注于时间方面而不是视觉线索,我们联合训练3DMM生成网络来转换提取的特征,以欺骗其有区别的对应方。允许我们利用与面部操作数据集相比大得多的训练语料库[35,15]。我们提出的方法包括三个主要组成部分(见图1)。4). 给定视频作为输入,我们使用3D可变形模型(3DMM)[6]提取每个帧的紧凑表示。这些提取的特征被输入到计算嵌入向量的时间ID网络。在测试时间期间,嵌入空间中的度量用于将测试视频与先前记录的特定人的生物特征进行比较然而,为了确保时间ID网络也基于行为而不仅仅是视觉信息,我们利用了第二个网络,称为3DMM生成网络,它是包含用于形状的40个系数、用于表达式的10个系数以及用于面部的刚性姿态的另外12个参数(表示为3 × 4矩阵)。在下文中,我们将在帧t处的个体c的视频i的所提取的3DMM特征表示为Xc,i(t)∈R62。时间ID网络T通过沿着时间方向工作的卷积层来处理3DMM特征的时间序列,以便提取嵌入向量y c,i(t)=T[x c,i(t)]。为了评估嵌入向量之间的距离,我们采用平方欧几里德距离,计算以下相似性:以对抗方式联合训练(使用Tempo- ral ID网络作为鉴别器)。在下文中,我们将详细介绍具体的组件和培训程序。1Sc,i,k,j(t)=−τminyc,i(t)−yk,j(t′)(一)特征提取我们采用的网络是基于每帧提取的面部特征。具体来说,我们利用基于3D变形模型的面部的低维表示[6]。可变形模型表示作为度量学习损失,类似于基于距离的损失。gistic损失[42],我们在适当定义的概率上采用对数损失[13]。具体地,对于每个嵌入向量y,c,i(t),我们通过softmax处理将概率构建为:通过主分量的线性组合的3D面ΣjieSc,i,c,j(t)(二)形状、表情和外观。 这些组件通过对齐的主成分分析来计算pc,i(t)=JieSc,i,c,j(t)+ΣkcΣj eSc,i,k,j(t),人脸的3D扫描通过提供形状、表情和外观的相应系数,可以由该可变形模型表示新的面部。为了从视频帧中重新获得这些参数,可以使用基于优化的合成分析方法[39]或学习回归。在我们的方法中,我们依赖于郭等人的回归框架[21]其预测每一帧的62个系数的向量注意,62个参数,因此,我们在我们的概率定义pc,i(t)中考虑关于枢轴向量yc,i(t)的所有相似性。注意,为了获得高概率值,仅需要与同一个体的至少一个相似性比与其他个体的相似性大实际上,与当前文献相比,这里提出的损失是限制性较小的损失,其中目的是实现所有相干对的高相似性[22,23,44]。已通过215112ΣL1Σ。ΣNNN×个NLLLΣ。Σc,i,k,jτt'不c我k、j周期我我然后通过对数损失函数从概率获得度量学习损失:Lrec=−log(p c,i(t))。(三)c,i,t为了在训练过程中调整超参数,我们还测量了正确识别受试者的准确性。它是通过计算与同一个体的至少一个相似性大于与其他个体的所有相似性的次数来计算的首先使用先前描述的损失单独训练时间ID网络,然后将其与我们在以下段落中描述的3DMM生成网络一起微调对抗性损失adv基于时间ID网络,即,它试图通过生成与特定身份一致的特征来欺骗时间身份网络。由于生成器是逐帧工作的,因此它可以通过仅改变个体的外观而不是时间模式来欺骗时间ID网络。广告词-sarial lossLadv计算为:Ladv=−logp*c,i(t),(7)c,i,t其中概率p*c,i(t)使用等式2计算,但考虑到生成的特征和真实特征之间的相似性评估:S*(t)=−min¨NΣx*(t)Σ − y(t′)¨2。(八)网络G被训练以生成类似于我们可以从操纵的视频提取的特征的3DMM特征。具体地,生成网络的目标是输出与个体的身份一致但具有另一主体的表达的特征。生成网络G逐帧工作,并且通过组合两个输入特征向量来生成3DMM特征向量。设X。和Xk分别是个体c和k的3DMM特征向量,则G[Xk,X。]是具有个体c的外观和个体k的表达的生成的特征向量。在训练期间,我们使用包含N个不同个体的N M个视频的批次,每个具有M个视频。在我们的实验中,我们选择M=N=8。 为了训练生成网络G,我们将其应用于这N个身份的视频对。具体地,对于每个恒等式c,我们计算平均的3DMM特征向量xc。基于该平均输入特征xc和人i的视频的帧特征xi(t)(其服务于作为表达式调节),我们使用生成器生成合成3DMM特征:x*c,i(t)=NG[xi(t),xc].(四)3DMM生成网络基于以下损失进行训练:LNG=Ladv+λcycleLcycle⑸其中,循环是为了保持表达式而使用的循环一致性。具体地,3DMM生成网络被应用两次,首先将个体i的3DMM特征向量变换为身份c,然后将生成的3DMM特征向量再次变换为身份i,我们应该获得原始3DMM特征向量。的L循环定义为:实际上,生成器旨在增加给定个体的生成特征与该个体的真实特征在训练期间,训练Tempo- ral ID网络以通过如下获得的损失LNT =Lrec+ λinv(九)其 中, 与 abv相 反, 损 失 inv 用 于最 小 化 概 率 p*c , i(t)。因此,它被定义为:Linv=−log1−p*c,i(t)。(十)c,i,t总的来说,对抗游戏的最终目标是提高Temporal ID网络区分真实身份和虚假身份的能力识别给定描绘单个身份的测试序列以及同一个人的原始序列的参考集,我们应用以下过程:我们首先使用时间ID网络管道嵌入测试视频和参考视频然后,我们计算每个参考视频和我们的测试序列的最小最小成对欧几里德距离。最后,我们将该距离与固定阈值τid进行比较,以决定我们的测试序列的行为特性是否我们的提案的源代码和经过训练的网络是公开的2。4. 结果为了分析我们所提出的方法的性能,我们进行了一系列的实验。具体来说,我们讨论我们的设计选择w.r.t.我们使用的损失函数和L=Σ¨x(t)−NΣx* (t),x Σ¨2. (六)3DMM生成网络3DMM Generativec,i,tc我G2https://github.com/grip-unina/id-reveal15113√W.对抗性 W.O. 对抗性源目标DFD FS DFD FR图5:DFD FS(面部交换)以及新创建的DFD FR(面部重现)数据集的对齐示例图像从左到右:源视频,目标序列,DeepFakes和使用神经纹理创建的操作[38]。基于消融研究的对抗性训练策略应用于一组不同的操作类型和不同的视频质量。与最先进的深度假视频检测方法相比,我们表明我们的方法在泛化性和鲁棒性方面超过了这些方法。4.1. 实验装置我们的方法使用VoxCeleb2开发数据集[9]进行训练,该数据集由多个身份的多个视频剪辑组成。具体而言,我们使用5120名受试者的训练集和512名受试者的验证集。在训练期间,每个批次包含96帧的64个序列。64个序列由每个个体的M=8个序列形成,从训练集中随机提取总共N=8个不同的个体。使用ADAM优化器[26]进行训练,其中学习时间ID网络和3DMM生成网络的速率分别为10- 4和10-5 的参数我们的损失公式的λ cycle、λ inv和τ被设置为1。0,0的情况。001和0。08分别我们首先训练Temporal ID网络300个epoch(epoch大小为2500次迭代),并根据验证准确度使用这个经过训练的网络,我们启用3DMM生成网络,并继续训练固定的100个epoch。有关我们架构的详细信息,请参阅补充文档。对于所有实验,我们使用τ id=1的固定阈值。1来确定测试视频的行为属性是否与我们的参考视频的行为属性一致。该阈值是基于使用真实视频和操纵视频的平均平方欧氏距离对来自原始DFD [33]的4个真实视频和4个加速度(%)/AUC MSL三重峰DFD FR HQ73.8/0.8373.6/0.8573.8/0.86LQ 66.6/0.77 73.3/0.81外勤部总部LQ 74.0/0.9277.0/0.93DFD FR HQ 68.9/0.81 71.6/0.8575.6/0.89LQ 69.1/0.77 73.9/0.8181.8/0.90外勤部总部LQ 78.0/0.92 78.9/0.91表1:我们的方法的变体的准确度和AUC 我们比较三种不同的损失:多重相似性损失(MSL)、三重损失和我们提出的损失(等式10)。(3)第三章。此外,我们还展示了使用和不使用对抗性学习策略对使用面部重现(FR)和面部交换(FS)操作的高质量(HQ)和低质量(LQ)视频进行处理的结果4.2. 消融研究在本节中,我们展示了所提出的损失和对抗性训练策略的有效性。对于我们的方法的性能评估,我们需要知道所涉及的身份(面部交换操纵的源身份和面部再现的目标身份)。基于该知识,我们可以设置用于计算最终距离度量的原始参考视频。为此,我们选择了包括相同身份的若干视频的受控数据集,即,Google AI实验室最近创建的数据集,称为DeepFakeDataset(DFD)[33]。视频包含28个付费演员在16个不同的背景下,此外,对于每个主题都有原始的视频提供(从9到16不等)。总共有363个真实视频和3068个DeepFakes视频。由于数据集只包含面部交换操作,我们生成了320个额外的视频,其中包括160个Face2Face[39]和160个神经纹理[38]视频。图中示出了一些示例。五、使用用于参考数据集的留一策略在视频级评估性能。详细地,对于每个测试中的视频,参考数据集仅包含具有与测试中的视频不同的上下文的原始视频。使用H. 264对高质量(HQ)压缩视频(恒定速率量化参数等于23)和低质量(LQ)压缩视频(量化参数等于40)进行评估这个场景帮助我们考虑一个现实的情况,其中视频被上传到网络,但也模拟攻击者进一步压缩视频以隐藏操纵痕迹。我们将提出的损失与三重损失[23]和多相似性损失(MSL)[44]进行比较。对于这两个损失,我们采用余弦距离,而不是由作者提出的欧氏距离。此外,超参数被选择为最大化准确度以正确地识别一个或多个特征。15114验 证 集 中 的主 题 。 在 HQ 和 LQ 视 频 的 曲 线下 面 积(AUC)和准确度方面的面部再现(FR)和面部交换(FS)的结果示于选项卡中。1.一、可以观察到,我们提出的损失给出了超过多相似性损失的一致改进(5.5%)和三重态损失(2。平均8%)。此外,再加上对抗性训练策略的性能,它在FR视频的最具挑战性的场景中变得更好,AUC进一步提高了约3%,准确性提高了6%(平均)4.3. 与最新技术我们将我们的方法与几种最先进的DeepFake视频检测方法进行了比较。所有的技术进行比较,使用在视频级的准确性。因此,如果方法逐帧工作,则我们对从视频中均匀提取的32帧获得的概率进行平均,如在[7,1]中所做的那样。用于我们比较的方法是基于帧的方法:MesoNet [1]、Xcep- tion [8]、FFD(面部伪造检测)[14]、Efficient-B7 [37];集成方法:ISPL(图像和声音处理实验室)[7] , Seferbekov [36]; 基 于 时 间 的 方 法 : Eff.B1 +LSTM,ResNet + LSTM [20]和基于身份的方法:A&B(外观和行为)[2]。这些方法的详细描述可参见补充文件。为了确保公平的比较,所有监督方法(基于帧的方法、集成方法和基于时间的方法)都是在真实视频和假视频的相同数据集上训练的,而基于身份的方法(A、B和我们的提议)则是在VoxCeleb2 [9]上训练的。泛化和鲁棒性分析为了分析泛化到不同操作方法的能力,训练和测试来自不同的数据集。请注意,我们将特别关注从面部交换到面部再现的概括在第一个实验中,我们在DFD Google数据集上测试了所有方法,该数据集包含面部交换和面部再现操作,如第2.1节四点二。在这种情况下,所有的监督方法都是在DFDC [15]上训练的,大约有10万个假视频和2万个真实视频。这是公开可用的最大的DeepFake数据集,包括五种不同类型的操作3。压缩因子为23的(HQ)视频上的实验和因子为40的低质量(LQ)视频上的实验在精确度和AUC方面呈现在表1中。二、当从面部交换到面部再现时,大多数方法都会遭受巨大的性能下降,其准确性3https://www.kaggle.com/c/Deepfake-detection-challenge高质量(HQ)低质量(LQ)累积(%)/AUC DFD FR DFD FS DFD FR DFD FS表2:与现有技术方法相比,我们的方法的视频级检测准确度和AUC在HQ视频和LQ视频的DFD数据集上获得结果,在面部再现(FR)和面部交换(FS)操作中分割。监督方法的训练在DFDC上进行,而基于身份的方法在VoxCeleb2上进行。通常接近50%,相当于抛硬币。可能的原因是DFDC训练集主要包括面部交换视频,并且具有不足的泛化能力的方法无法处理不同的操纵。这不适用于ID-Reveal和AB,它们仅在真实数据上训练,因此,对于两种类型的伪造具有几乎相同的性能。对于fa-cial重演视频,这代表着相对于所有竞争对手的巨大改进。在这种情况下,它在存在强压缩(LQ视频)的情况下,可以观察到大多数方法的急剧性能下降。这一点在换脸时尤其明显,其中一些方法在HQ视频上非常可靠,但在LQ视频上几乎无用。相反,ID- Reveal在LQ视频上只遭受非常小的准确性损失,并且以很大的幅度优于所有竞争对手,包括A B。在另一个实验中,我们使用FaceForensics++ [35](HQ)来训练监督方法,而基于身份的方法总是在VoxCeleb2数据集[9]上训练。为了测试,我们使用预览DFDC Face-book数据集[16]和CelebDF [31]。预览DFDC数据集[16]仅由68个个体的面部交换操作组成。对于每个主题,有3到39个原始视频,每个上下文有3个视频。我们考虑了44个人,他们至少有12个视频(4个上下文);共获得920个真实视频和2925个假视频。CelebDF [31]包含890个真实视频和5639个面部交换操纵视频。这些视频与59个人有关,除了300个真实视频没有任何关于个人的信息,因此,它们不能包括在我们的分析中。准确度和MesoNet57.0/0.6554.0/0.5758.1/0.6152.7/0.53Xception51.9/0.7478.5/0.9349.8/0.4858.5/0.63高效-B753.1/0.7588.2/0.9750.2/0.4858.5/0.64FFD53.6/0.5775.3/0.8351.3/0.5363.9/0.69ISPL61.4/0.7185.2/0.9353.9/0.5564.9/0.72谢费尔别科夫55.8/0.7791.8/0.9849.4/0.4761.9/0.67ResNet + LSTM52.2/0.5660.0/0.6556.1/0.6258.7/0.64Eff.B1 + LSTM53.6/0.7286.6/0.9550.9/0.5761.6/0.76A B74.1/0.7875.6/0.7759.5/0.6063.2/0.61ID-显示75.6/0.8784.8/0.9681.8/0.9078.1/0.9415115高质量(HQ)低质量(LQ)累积(%)/AUCDFDCpCelebDFDFDCp CelebDFMesoNet53.6/0.7450.1/0.7551.9/ 0.6750.1/0.67Xception72.0/0.7977.2/0.8859.9/ 0.6155.0/0.58高效-B771.8/0.7871.4/0.8057.3/ 0.6251.3/0.56FFD63.1/0.6969.2/0.7651.6/ 0.5556.4/0.59ISPL69.6/0.7871.2/0.8352.0/ 0.7150.8/0.61谢费尔别科夫72.0/0.8575.3/0.8654.0/ 0.6354.8/0.62ResNet + LSTM61.2/0.6758.2/0.7256.3/ 0.5957.0/0.60Eff.B1 + LSTM67.2/0.7575.3/0.8451.0/ 0.5455.3/0.58A B65.2/0.6054.0/0.5661.7/ 0.5952.6/0.55ID-显示80.4/0.9171.6/0.8473.9/0.8664.4 /0.80表3:与现有技术方法相比,我们的方法的视频级检测准确度和AUC在HQ视频和LQ视频上的DFDCp和CelebDF监督方法的训练在FF++上进行,而基于身份的方法在VoxCeleb2上进行。视频级的AUC见表1。3 .第三章。可以观察到,在这种情况下,我们的方法对于所有数据集都实现了非常好的结果,相对于LQ视频上约16%的最佳监督方法的平均改进即使相对于基于身份的方法A B [2]的改进也是显著的,在HQ视频上约为14%,在LQ视频上约为13%。同样,在低质量视频的不可见条件下,超监督方法的性能会恶化,而我们的方法保留了其良好的性能。为了更好地了解泛化和鲁棒性,我们希望强调当我们在训练中改变假视频时,监督方法的非常不同的行为具体地,对于HQ视频,如果操纵(在这种情况下,神经纹理和face2face)被包括在训练和测试中,则所有方法的性能都非常高,但是如果我们从训练中排除这些操纵,则它们突然下降,参见图11。六、LQ视频的情况更糟基于身份的方法不修改它们的性能,因为它们根本不依赖于训练中包括哪些操作。5. 结论我们已经引入了ID-Reveal,这是一种身份感知检测方法,利用目标人的一组参考视频并以对抗方式进行我们的方法的一个关键方面是使用低维3DMM表示来分析人的运动。虽然面部的这种压缩表示包含比原始2D图像更少的信息,但是所获得的鲁棒性类型是非常重要的特征,其使得我们的方法在不同的伪造方法中推广。具体地,3DMM表示不受不同环境的影响。图6:与最先进的方法相比,我们的方法的二进制检测准确度。在HQ和LQ视频上的面部再现DFD数据集 我们考虑两种不同的训练场景,用于在训练中需要伪造视频的所有方法:训练中的操纵(蓝色条),其中训练集包括测试集中存在的相同类型的操纵(神经纹理和用于面部再现的face2face),以及训练外的操纵(橙色条),其中我们采用仅包括面部交换的DFDC。并且对于后处理的破坏性形式是鲁棒的,例如,压缩我们对我们的方法进行了全面的分析,与最先进的方法相比,我们能够显著提高检测同时,我们的方法通过采用仅关注非操作内容的训练策略来确认我们衷心感谢TUM-IAS Hans Fischer高级奖学金、TUM-IASRudolfMoßbauerFell奖学金和GoogleFaculty研究奖对本研究的支持。此外,本材料基于美国国防高级 研 究 计 划 局 ( DARPA ) 和 空 军 研 究 实 验 室(AFRL)根据协议编号FA 8750 -20-2- 1004赞助的研究。美国政府被授权为政府目的复制和分发重印本,但不承担任何版权注释。本文中包含的观点和结论是作者的观点和结论,不应被解释为必然代表DARPA和AFRL或美国国防部的官方政策或认可,无论是明示还是暗示。政府的这项工作也得到了PREMIER项目的支持,该项目由意大利教育、大学和研究部在PRIN 2017计划中资助15116引用[1] Darius Afchar 、 Vincent Nozick 、 Junichi Yamagishi 和Isao Echizen。Mesonet:一个紧凑的面部视频伪造检测网络。在IEEE信息取证和安全国际研讨会上,第1-7页,2018年。三、七[2] Shruti Agarwal,Hany Farid,Tarek El-Gaaly,and Ser-Nam Lim.从外观和行为检测深度伪造视频。在IEEE信息取证和安全国际研讨会(WIFS),第1-6页,2020年。三、七、八[3] Shruti Agarwal,Hany Farid,Ohad Fried,and ManeeshAgrawala.从音素-视位不匹配检测深度伪造视频。在IEEE CVPR研讨会,2020年。三个[4] Shruti Agarwal , Hany Farid , Yuming Gu ,MingmingHe,Koki Nagano,and Hao Li.保护世界领导人免受深度造假。在IEEE CVPR研讨会上,2019年6月。三个[5] Shivangi Aneja和Matthias Nießner。用于人脸伪造检测的广义零arXiv预印本arXiv:2006.11863,2020。第1、3条[6] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模 型 。 在 ACM Transactions on Graphics ( Proc. 的SIGGRAPH),第187-194页,1999。四个[7] Nicolo `Bonettini 、 EdoardoDanieleCannas 、 SaraMan-delli、Luca Bondi、Paolo Bestagini和Stefano Tubaro。通过CNN集成的视频人脸操纵检测。IEEEInternationalConference on Pattern Recognition ( ICPR ) , 2020 。https://github.com/polimi-ispl/icpr2020dfdc。一、三、七[8] 弗朗索瓦·肖莱。Xception:使用深度可分离卷积的深度学习在IEEE计算机视觉和模式识别会议(CVPR)中,第1251-1258页,2017年。三、七[9] Joon Son Chung , Arsha Nagrani , Andrew Zisserman.Voxceleb2:深度说话人识别。InInterspeech,2018.二六七[10] Umur Aybars Ciftci,Ilke Demir,and Lijun Yin.骗子:使用生物信号检测合成肖像视频。IEEE Transactions onPattern Analysis and Machine Intelligence , 2020 年 出版。三个[11] Davide Cozzolino,Giovanni Poggi,and Luisa Verdoliva.提取基于摄像头的指纹用于视频取证。在IEEE CVPR研讨会,第130-137页,2019年。第1、3条[12] Da videCozzolino , JustusThies , AndreasR¨ ssler ,ChristianRiess,Matthias Nießner,and Luisa Verdoliva.法医-转移:用于伪造检测的弱监督域自适应。arXiv预印本arXiv:1812.02510,2018. 第1、3条[13] Davide Cozzolino和Luisa VerdolivaNoiseprint:A CNN-Based Camera Model Fingerprint.IEEE Transactions onInformation Forensics and Security , 15 : 144-159 ,2020。1、4[14] Hao Dang,Feng Liu,Joel Stehouwer,Xiaoming Liu,and Anil K Jain.数字人脸篡改的检测。在IEEE计算机视觉 和 模 式 识 别 会 议 上 , 第 5781-5790 页http://cvlab.cse 的 网 站 。 msu.edu/project-ffd.html的网站。三、七[15] Brian Dolhansky , Joanna Bitton , Ben Pflaum , JikuoLu,Russ Howes,Menglin Wang,and Cristian CantonFerrer. Deepfake检测挑战数据集。arXiv预印本arXiv:2006.07397,2020。一二三四七15117[16] Brian Dolhansky , Russ Howes , Ben Pflaum , NicoleBaram 和 Cristian Canton Ferrer 。 Deepfake DetectionChallenge(DFDC)预览数据集。arXiv预印本arXiv:1910.08854,2019。二、七[17] Mengnan Du,Shiva K.潘蒂亚拉、李月宁、夏虎。使用局部感知自动编码器进行可推广的深度伪造检测。ACM信息和知识管理国际会议,第325-334页,2020年。第1、3条[18] Steven Fernandes 、 Sunny Raj 、 Eddy Ortiz 、 IustinaVintila 、 Margaret Salter 、 Gordana Urosevic 和 SumitJha。使用神经ODE预测Deepfake视频的心率变化在ICCV研讨会,2019年。三个[19] Gereon Fox , Wentao Liu , Hyeongwoo Kim , Hans-Peter Sei- del , Mohamed Elgharib , and ChristianTheobalt.视频:检测高质量的操纵面部视频。在IEEE多媒体和博览会国际会议(ICME),第1-6页,2021年。一个[2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功