没有合适的资源?快使用搜索试试~ 我知道了~
Baoping Liu1, Bo Liu1, Ming Ding2, Tianqing Zhu1, Xin Yu11University of Technology Sydney, NSW, Australia2 Data61, CSIRO, Sydney, NSW, Australiabaoping.liu@student.uts.edu.au, ming.ding@data61.csiro.au{Bo.liu, Tianqing.Zhu, Xin.Yu}@uts.edu.au46910TI 2 Net: 时态身份不一致网络用于Deepfake检测0摘要0在本文中,我们提出了一种名为T I 2Net的时态身份不一致网络(Temporal IdentityInconsistencyNetwork),它专注于时态身份不一致性的Deepfake检测。具体而言,T I 2Net通过捕捉同一身份的视频帧之间的人脸差异来识别伪造视频。因此,T I 2Net是一种无参考检测器,可以用于未知数据集。对于给定身份的视频剪辑,所有帧中的身份信息首先被编码为身份向量。T I 2Net通过身份向量的时态差异来学习时态身份嵌入。时态嵌入表示视频剪辑中的身份不一致性,最终用于确定视频剪辑的真实性。在训练过程中,T I 2Net采用三元损失来学习更具辨别力的时态嵌入。我们进行了全面的实验来评估所提出的T I 2Net的性能。实验结果表明,T I 2Net对未知操作和具有未知身份的数据集具有很好的泛化能力。此外,T I 2Net还对压缩和添加噪声表现出稳健的性能。01. 引言0近年来,深度神经网络(DNNs),尤其是生成神经网络(GANs)的发展,使得Deepfake能够生成逼真的图像和视频并迷惑公众。因此,Deepfake检测已成为一项紧迫的任务,以保护人们免受Deepfake造成的误导。现有的Deepfake检测器可以分为图像级(帧级)检测器和视频级检测器。图像级检测器依赖于空间特征,如纹理不一致性[26],[5]和颜色失真[12],[11]。一些检测器还将空间信息转换到频域,并捕捉频域中的痕迹[8],[9],[14]。此外,借助强大的DNNs,许多检测器分析潜在特征中的痕迹。0图1:真实视频帧(下三角)和伪造视频帧(上三角)之间的成对身份相似性。下三角中的每个值表示行左侧的面孔与列底部的面孔之间的相似性(在绿色框中)。上三角中的每个值表示行右侧的面孔与列顶部的面孔之间的相似性(在红色框中)。对角线表示自相似性,留空。0用于识别伪造图像的空间特征[23],[25],[24]。尤其是,由于人脸交换操作会混合不同身份的面孔,最近发现身份不一致的痕迹对于伪造检测是一个有效的线索。例如,Dong等人 [5][6]检测到内部面部区域和外部面部区域之间的空间身份不一致。尽管这种基于身份的检测器可以用于逐帧检测视频,但它们在伪造视频上表现不佳,因为它们没有考虑到更直观和重要的时态不一致性,这是检测Deepfake视频的重要痕迹。为了检测伪造视频,一些检测器利用了时态痕迹,如帧间变化 [7],时态频率痕迹 [15]和一般不一致性。46920帧之间的不一致性[27],[22]。特别是,[2]和[3]中的研究研究了伪造视频中身份的时态不一致性,并提出了区分伪造视频和真实视频的检测器。然而,所提出的模型仅适用于封闭场景,这意味着它们需要参考身份集来提供候选身份。因此,它们的方法泛化能力差,在开放场景中表现不佳,其中检测器用于发现未知身份的Deepfake。在本文中,我们提出了一种名为时态身份不一致网络(T I 2Net)的新型Deepfake检测框架。关键思想是检测可疑视频中的时态身份不一致性,即从具有给定身份的同一视频中捕获的身份特征的低相似性。因此,直观的解决方案是测量包含相同身份的帧中身份特征之间的相似性。图1是通过同一视频帧中身份特征的相似性来测量的时态身份不一致性的示例。具体而言,我们随机从FaceForensics++(FF++)数据集[18]中选择一个真实视频和一个伪造视频,并随机从每个视频中抽取五个帧。对于选定的帧,我们通过arcface[4]提取面部的身份向量。然后,我们计算每个视频中帧之间的身份向量的成对相似性。结果显示在图1的矩阵中。可以观察到,虽然伪造帧在视觉上看起来逼真,但帧间相似性值明显低于真实帧的相似性值,这表明时态不一致性可以用来揭示Deepfake。与基于空间不一致性的检测器需要在生成过程中为内部面部身份和外部面部身份提供身份标签不同,时态身份不一致性基于同一视频帧中相同身份的差异性,不需要关于身份的外部信息。此外,基于时态身份不一致性的检测器不需要参考集来提供候选身份。基于上述讨论,我们提出的T I 2Net捕捉时态身份不一致性来检测伪造视频。在预处理过程中,从视频集中首先生成真实和伪造序列。然后通过身份编码器提取身份向量。T I 2Net捕捉帧之间的身份不一致性而不是身份本身。因此,我们计算连续帧之间的差异以生成身份向量的时态差异。然后采用RNN来学习时态差异的时态嵌入,并通过时态嵌入表示身份不一致性的信息。该嵌入用于构建三元损失以优化时态建模。此外,时态嵌入还被馈送到分类头进行二分类。我们的工作的贡献如下:0• 我们提出了Temporal Identity InconsistencyNetwork(TI2Net),这是一种基于时间身份不一致性的新型Deepfake视频检测框架。TI2Net通过计算时间差异来捕捉帧之间的不一致性,避免对身份过度拟合。因此,TI2Net不需要候选身份的参考集,可以在开放场景中工作。0•TI2Net采用RNN来学习时间身份不一致性的嵌入,并结合三元损失来优化时间嵌入的提取。0•我们进行了全面的实验来评估所提出框架的性能。结果表明,我们的框架在跨操作泛化、跨数据集泛化和抗图像退化方面有所改进。02. 相关工作02.1. Deepfake生成0Deepfake生成任务分为两个主要类别:面部交换和面部再现。面部交换[28][17]旨在用另一个身份的面部替换图像中源身份的面部。面部交换通常包括两个面部的组合、颜色和纹理的转移以及组合边缘的处理。然而,不完美的生成往往会留下明显的边缘或源面部和目标面部之间颜色和纹理模式的不一致。而面部再现和面部属性操作[21][20]则对面部部分进行改变,以定制人脸。与破坏源身份特征的面部交换不同,面部再现只对面部属性进行操作,因此身份特征可以得到保留,确保在操作前后可以识别为同一人。02.2. 基于身份的Deepfake检测0[2]的工作基于相同身份的生物测量措施(如外貌和行为模式)应该是一致的这一思想。因此,他们提出了一个双分支框架,其中一个分支提取外貌特征,另一个分支捕捉行为特征。然后将两个分支特征的余弦相似度与参考集进行比较,以选择最佳匹配的参考视频。如果两个最佳匹配视频的身份一致,则认为该视频是真实的。Is = {is,1, is,2, ..., is,l}.(1)Ds = {ds,1, ds,2, ..., ds,l−1}= {is,2 − is,1, is,3 − is,2, ..., is,l − is,(l−1)},(2)46930LRNet[19]使用面部标志表示身份,并将这些身份特征应用于检测Deepfake。具体而言,LRNet挖掘视频的时间身份特征,以区分Deepfake视频和真实视频。为了提取更准确和精确的特征,LRNet采用校准模块来微调提取的标志点,然后将微调后的标志点输入到一个双分支RNN中,分析身份标志点的时间模式。尽管LRNet提供了可靠的预处理并取得了有希望的检测性能,但其泛化能力较差。ID-reveal[3]通过采用3DMM模型捕捉时间身份特征。然后,一个时间身份网络分析3DMM模型的时间模式。该模型通过对一组参考视频进行对抗训练来进行训练。Identity InconsistencyTransformer(ICT)[5]基于面部交换图像中内部面部区域和外部面部区域的不一致性。特别地,ICT采用强大的Transformer来从图像的补丁序列中捕捉不一致信息,最后一个块的内部令牌和外部令牌的输出被视为身份信息。ICT专为面部交换图像设计,并在评估过程中需要一个参考视频集。03. 时间身份不一致性网络0我们提出了Temporal Identity Inconsistency NetworkTI2Net(如图2所示),通过捕捉视频中相同身份的时间不一致性来检测Deepfake视频。给定一个输入视频剪辑或一系列具有相同身份的帧,TI2Net首先使用身份编码器从所有帧中提取身份向量。然后通过差分操作生成身份向量的时间差异,将身份特征转化为视频帧之间的时间不一致性。然后采用RNN来提取身份不一致性的时间嵌入。最后将嵌入输入到分类头中,以预测正确的类别序列。在训练过程中,采用三元损失来有利于时间建模。首先,从真实视频中采样锚定序列和正序列,从伪造视频中采样负序列。这三个序列都经过上述处理,然后得到锚定嵌入、正嵌入和负嵌入。锚定嵌入和正嵌入之间的距离(锚定-正距离)表示相同类别序列之间的相似度,而锚定嵌入和负嵌入之间的距离(锚定-负距离)表示不同类别序列之间的相似度。因此,三元损失可以通过最小化锚定-正距离和最大化锚定-负距离来优化时间建模。03.1. 预处理和差分0预处理:预处理包括帧提取、人脸裁剪和身份编码。首先从视频中生成相同长度的序列l。根据原始视频的标签,将所有序列分为真实集和伪造集。为了构建三元组损失,锚点样本和正样本从真实集中采样,负样本从伪造集中采样。样本序列中的身份特征可以通过身份编码器进行编码。因此,锚点样本、正样本和负样本分别转换为锚点身份向量I a,正样本身份向量I p 和负样本身份向量I n。身份编码器是预先训练的,在联合训练过程中不进行更新,因此整个框架将专注于时间信息提取。差分:为了使我们的模型关注帧之间的身份不一致性而不是身份本身,我们首先对身份向量应用差分,得到身份向量的时间差异。差分旨在通过计算连续帧之间的差异来更好地探索身份向量中的时间模式。对于身份向量I s :0其中 i sk ∈ R D 是第k个身份向量,k ∈ [1 , l ],l是身份向量的序列长度。相应的时间差异 D s 为:0与表示帧内身份信息的身份向量不同,时间差异强调视频帧之间的特征,尤其是帧之间的身份不一致性。因此,锚点样本、正样本和负样本的时间差异序列分别为D a ,D p 和Dn 。03.2. 时间身份不一致性学习0时间差异包含丰富的帧间不一致性信息,尤其是时间身份不一致性。然后我们采用RNN来学习从时间差异中学习身份不一致性的时间嵌入。对于给定的时间差异D s,在我们的框架中,RNN(即门控循环单元GRU)按顺序处理D s 。如图3所示,在时间步t,RNN处理组件d s,t,即D s的第t个组件。GRU的记忆由重置门和更新门控制。两个门都基于上一时间步的隐藏状态h t − 1 和当前输入d s,t :zt = σ(Wz · [ht−1, ds,t] + bz),(3)rt = σ(Wr · [ht−1, ds,t] + br),(4)ˆht−1 = tanh(Wh · [rt ⊙ ht−1, xt] + bn),(5)46940图2:提出的时间一致性不一致网络(T I 2Net)的框架。原始视频帧序列通过身份编码器转换为身份向量。然后采用差分操作生成时间差异,更好地捕捉身份的时间不一致性。从时间差异中,RNN学习时间嵌入,表示时间身份不一致性。锚点、正样本和负样本的时间嵌入用于构建三元组损失,以促进时间嵌入学习和二分类。0其中z t 和r t 分别是更新门和重置门。W z 和W r是更新门和重置门的权重矩阵,b z 和b r 是相应的偏置。σ是Sigmoid激活函数。然后r t 更新h t − 1 :0其中tanh是tanh激活函数,⊙是逐元素乘法操作。然后隐藏状态更新为:0h t = (1 - z t) ⊙ h t-1 + z t ⊙ ˆ h t-1. (6)0时间嵌入Ts是最后一个时间步的输出。因此,对于时间差Da、Dp和Dn,RNN学习表示锚、正样本和负样本的时间身份不一致性的嵌入Ta、Tp和Tn。三元组损失:为了使RNN学习到更具辨别力的时间嵌入,我们采用三元组损失来衡量时间嵌入之间的距离。由于正样本和负样本之间的距离都增加的情况可能导致三元组损失难以收敛,我们还采用锚-正样本距离作为正则化项:0正样本来自与锚样本相同的集合(真实序列集),负样本来自伪造序列集,Ta和Tp应该比Ta和Tn更相似。因此,我们采用三元组损失Ltri(T(a), T(p),T(n))来最小化锚-正样本距离并最大化锚-负样本距离。具体而言,采用L2范数来衡量嵌入之间的距离。时间表示的三元组损失如下:0图3:使用RNN进行时间嵌入学习。(7)− 1NN46950表示Ta、Tp和Tn的三元组损失为:0Ltri(T(a), T(p), T(n)) = max(||T(a) - T(p)||20− ||T(a) - T(n)||2 + α, 0),0其中||∙||2是L2范数,α1是三元组损失的边界。为了避免锚-正样本距离和锚-负样本距离都增加的情况,有助于三元组损失的收敛,我们还采用锚-正样本距离作为正则化项:0Lap = ||T(a) - T(p)||2. (8)03.3. 伪造视频分类0时间嵌入Ta、Tp和Tn也被送入分类头以预测二进制标签。二分类损失如下:0Lclf(yi, p(yi)) = CE(yi, p(yi))0i=1 (yi ∙ log(p(yi))) + (1 - yi) ∙ log(1 - p(yi)),0(9)其中CE(,)是交叉熵损失,yi是样本i的标签,p(yi)是样本i被分类为正类的可能性。T I 2 Net的总损失为:0L = Lclf + λ1Ltri + λ2Lap, (10)0其中Lclf是二分类损失,Ltri是三元组损失,Lap是正则化项。此外,λ1和λ2是控制损失项重要性的超参数。04. 实验04.1. 实验设置0数据集:在我们的实验中,我们使用FaceForensics++(FF++)数据集[18]对模型进行训练,该数据集包含1000个真实视频和4000个伪造视频。特别地,伪造数据集包括4个子集,对应四种Deepfake操作,其中两个(Deepfakes和FaceSwap)用于人脸交换任务,另外两个(Face2Face和NeuralTextures)用于人脸再现任务。我们还使用基准数据集来测试所提出方法的性能:(1) DeepFakeDetection(DFD)[16]:由Google发布的数据集,包含一些付费演员的数百个真实视频和数千个使用真实视频身份生成的伪造视频。(2)DeeperForensics-1.0(Deeper)[10]:一个大规模的伪造检测数据集。采用更近一代的生成方法使得视频质量更高。0(3) Celeb-DeepFake v1 (CDF1) [13]:一个包含408个真实视频和795个Deepfake视频的Deepfake检测数据集。(4) Celeb-DFv2 (CDF2) [13]:CelebDF1的扩展版本,包含590个真实视频和5639个伪造视频。实现细节:通过从原始视频中随机采样64帧(序列长度l=64)来生成真实和伪造序列。我们从每个视频中生成20个不同的序列,形成伪造序列集和真实序列集。身份编码器是使用ResNet-18预训练的arcface[4],没有使用se。在使用arcface对身份进行编码时,我们采用翻转和连接操作来提高编码性能。每个序列样本被转换为维度为D=1024的身份向量。训练实现的更多细节可以参见补充材料。基线:我们将我们的T I 2Net与以下开放集基线进行比较:(1) MesoNet[1]:基于图像的微观特性的Deepfake检测器。(2)Xception[18]:具有Xception的Deepfake检测器。根据用于训练的不同数据集,我们将我们的方法与在FF++原始集上训练的Xception-c0和在FF++-c23集上训练的Xception-c23进行比较。(3) LRNet[19]:使用RNN处理地标序列的Deepfake检测器。此外,我们还将我们的方法与两个闭集基线进行比较:(4) A&B[2]:集成身份的行为和外观的Deepfake检测器。(5) ICT[5]:基于空间身份不一致性的Deepfake检测器。评估指标:我们使用分类准确率(ACC)和接收器操作特性曲线下面积(AUC)进行评估。04.2. 与最先进的作品比较0为了比较T I 2Net与其他基线的预测性能和泛化能力,我们进行了封闭集评估(在FF++上训练和测试)和交叉集评估(在FF++上训练,在其他数据集上测试)。我们在FF++数据集上训练模型,并在其他数据集上测试训练好的模型。为了公平比较,基线MesoNet、Xception-c0、Xception-c23和LRNet也以相同的方式进行训练和测试,即在FF++上训练,在FF++上进行封闭集评估,在其他数据集上进行交叉集评估。结果如表1所示。我们标记了每个数据集上的最佳结果。至于封闭集基线A&B和ICT,它们使用参考集检测伪造视频,这使得检测更容易。因此,很难与T I 2 Net进行公平比较。MesoNet [1]99.9156.5552.3654.6953.9754.39Xception-c0 [18]99.9461.2360.0358.8258.2359.58Xception-c23 [18]99.9263.3362.5860.0362.1662.0LRNet [19]99.8952.2956.7752.8453.253.78FSFRdffsffntFSdf100.089.450.700385.82fs95.02100.074.2381.27FRff90.7390.64100.095.47nt98.5693.0798.4599.9946960表1:以视频级AUC(%)为指标,比较T I 2Net与最先进的作品。封闭集评估指的是在FF++上训练和测试模型。交叉集评估指的是在FF++上训练模型,并在未见过的数据集上进行测试。0方法 封闭集 交叉集0FF++ DFD Deeper CDF1 CDF2 平均0T I 2 Net(我们的方法) 99.95 72.03 76.08 66.65 68.22 70.750表2:以序列级AUC(%)为指标的跨篡改评估结果。模型在FaceForensics++的一个子集上进行训练,并在数据集的其他三个子集上进行测试。灰色数值表示在相同篡改上训练和测试的AUC。粗体数值是最佳的跨篡改指标。0训练集0测试集0�注意:缩写FS表示包括Deepfakes(df)和FaceSwap(fs)在内的人脸交换类别。FR表示包括Face2Face(ff)和NeuralTextures(nt)在内的人脸重现类别。0与封闭集基线进行比较。因此,结果是粗略比较的,可以在我们的补充材料中找到。与开放集基线相比,我们的T I 2Net在所有测试数据集上都实现了最佳的分类性能。在Deeper数据集上,我们的方法达到了76.08%的AUC,比其他数据集更高,因为Deeper数据集是基于训练集FF++构建的,训练集中的一些身份信息也在Deeper数据集中。在大多数数据集上,我们的方法的AUC超过70%,除了CDF1和CDF2,这两个数据集通常被认为是具有挑战性的。我们的框架在CDF1和CDF2上实现了接近的性能,因为CDF2是CDF1数据集的扩展。04.3. 跨篡改评估0为了测试我们的模型在未见过的篡改上的性能,我们在FF++数据集上进行模型的训练和测试。具体来说,我们在四个子集(df代表Deepfakes,fs代表FaceSwap,ff代表Face2Face,nt代表NeuralTextures)中训练模型,并在其他三个子集上测试模型。结果如表2所示。我们的模型在检测时几乎达到了完美的AUC。0即使在跨篡改设置下,当在df子集上训练并在ff子集上测试时,最小的检测AUC也超过0.7。当在nt子集上训练时,我们的模型在df和ff子集上分别达到了0.9856和0.9845的AUC。在FS和FR类别方面,可以观察到当在FR类别的数据上训练时,模型在FS类别的子集上的AUC超过0.9,这显著高于在FS上训练但在FR上测试。因为FR类别的子集包含了保留源视频身份的模块,所以对于基于身份的检测器来说,FR类别的子集更具挑战性。当在更具挑战性的数据集上训练时,模型更有可能泛化到包含明显身份相关瑕疵的子集中。04.4. 消融研究0差分操作:首先通过比较输入RNN时使用身份向量和时间差异的性能来评估差分操作的效果。结果如表3所示。与直接输入I s 的RNN相比,输入T s稍微降低了对已知数据集的预测性能,但显著提高了泛化性能。将I s输入RNN使得RNN学习到了身份向量的时间信息,因此整个框架更容易过拟合于身份,从而损害了对未知数据集的泛化能力。而时间差异T s包含了视频帧之间的身份不一致性更多的信息,这在不同数据集中更具有普适性。0表3:差分操作消融研究的AUC(%)。当序列类型为I s时,将身份向量直接输入RNN。0序列 FF++ DFD Deeper CDF1 CDF20I s 99.99 52.98 69.32 59.45 53.40T s 99.95 72.03 76.08 66.65 68.2246970表4:损失项消融研究的AUC(%)。完整损失是指包含Lclf、L tri和L ap的损失函数。0损失 FF++ DFD Deeper CDF1 CDF20L clf 99.20 60.09 63.62 52.01 42.350L clf,L tri 99.82 68.54 74.96 65.65 64.670完整 99.95 72.03 76.08 66.65 68.220有/无三元损失:为了评估框架中损失函数中各项的影响,我们使用不同的损失设置训练模型,结果见表4。将L clf设置和L clf + L tri 的结果进行比较,可以看出L tri显著提高了模型对未知数据集的泛化能力,因为L tri将真实序列的时间表示拉近,将不同类别的两个序列的时间表示推远,具有更具有区分性的时间嵌入。此外,L ap提高了模型在已知和未知数据集上的性能,这是因为L ap对锚-正样本距离的收敛起到了贡献。我们对训练时的锚-正样本距离、负样本距离和三元损失进行了归一化,并在图4中进行了可视化,以说明L ap的贡献。从图4(a)可以观察到,没有Lap,尽管三元损失减小直到收敛为0,但锚-正样本距离和锚-负样本距离在三元损失收敛后仍然持续增加,直到它们在三元损失收敛后不再更新,这意味着在三元损失收敛后,锚-正样本距离和锚-负样本距离将不再优化。而在图4(b)中,尽管三元损失收敛并且锚-负样本距离在此后不再优化,锚-正样本距离持续减小,直到达到锚-正样本边界,这使得真实和伪造的时间嵌入更具有区分性,从而提高了预测性能。序列长度:我们还测试了不同序列长度的模型性能。长度候选值从16到128,步长为16。结果如表5所示。可以观察到,当序列长度不超过64时,AUC和准确率随序列长度的增加而增加,这表明短序列可能包含不足以供RNN学习的时间模式信息。然后,当序列长度超过64时,性能逐渐下降,因为长序列导致学习复杂的模式,并且给模型训练的收敛带来困难。因此,谨慎选择序列长度对于确保模型的性能至关重要。0图4:训练时的锚-正样本距离、锚-负样本距离和三元损失。0所提出方法的有效性。采样策略:在从视频生成序列的过程中,我们评估了两种策略并比较了它们的性能。第一种策略是随机采样,即按照时间顺序随机选择帧来生成序列。第二种策略是滑动窗口采样,即应用一个滑动窗口来生成序列,并从视频中采样一个短剪辑。两种采样策略的性能见表6。虽然随机采样能够捕捉视频中的全局身份不一致性,但滑动窗口采样更专注于局部身份不一致性。表6表明,与滑动窗口采样相比,随机采样明显优于滑动窗口采样。这是因为我们的模型在将序列输入RNN之前进行了差分处理。视频的连贯性使得连续的视频帧非常相似,导致大部分时间差异张量为零,并消除了许多关于时间模式的信息。04.5. 鲁棒性分析0Table 5: Evaluation of models with different sequence lengths in terms of prediction Acc (%) and AUC (%).Acc83.0285.5189.8898.3394.8593.5.90.0188.00AUC89.9798.3598.5399.7799.6598.9997.5997.15Table 6:Evaluation of models with different samplingstrategies to generate sequences in terms of AUC (%).FF++DFDDeeperCDF1CDF2Random99.9572.0376.0866.6568.22pressed samples and 20 groups of samples with noise ac-cording to the intensity (degree) of compression and noiserespectively. For both compression and noise, a lower de-gree indicates lower degradation intensity. More details andsamples can be found in supplementary materials. The re-sults of degradation evaluation can be seen in Fig. 5.As can be seen from Fig. 5(a) and Fig. 5(b), our modelsignificantly outperforms the other two methods. In termsof both metrics, Xception suffers a large performance dropeven when images are slightly compressed, and then it ex-hibits a stable performance until a high compression degreekicks in, causing the second quick decline of performance.LRNet, as a landmarks-based method, shows a similar per-formance trend as Xception, but its prediction performanceis significantly higher than that of Xception at the relativelystable stage. Different from baselines, our TI2Net showshigh robustness against slight compression, i.e., the AUChovers over 0.99 until the compression degree reaches 16.After the compression degree hits 17, the performance ofTI2Net in terms of both AUC and ACC starts to drop sig-nificantly. Nevertheless, it still remains better than the base-lines.In Fig. 5(c) and Fig. 5(d), we can see that the per-formance of Xception keeps decreasing as the noise de-gree grows. The classifier reaches a random-guessing stage46980图5:压缩鲁棒性评估的准确性(a)和AUC(b);以及加性噪声鲁棒性评估的准确性(c)和AUC(d)。0长度 16 32 48 64 80 96 112 1280滑动 96.91 67.05 65.22 51.05 50.910当噪声程度超过10时,LRNet和T I 2Net都显示出良好的噪声鲁棒性,特别是在AUC方面,即使噪声程度超过15,它们的值仍然高于0.8。但在ACC方面,TI 2Net的表现优于LRNet,特别是在低噪声和中等噪声程度下。05. 结论0在这项工作中,我们提出了T I 2Net,这是一种基于时间身份不一致性的无参考Deepfake检测器。我们通过差分将身份向量转换为时间差异,并利用RNN学习身份不一致性的时间嵌入。我们进行了大量实验证明了我们框架的有效性。我们的框架展现了对未见数据集的良好泛化能力,尤其是对未见篡改的泛化能力。我们的框架对图像压缩和加性噪声也非常鲁棒。我们还注意到,尽管我们采用了差分来避免对身份的过拟合,但我们的模型在已见身份上表现更好,例如在交叉篡改评估中具有较高的预测性能,并且在基于我们的训练数据集构建的Deeper数据集上具有更好的跨数据集性能。因此,我们希望我们的工作能够激发更多关于时间身份不一致性的未来工作以取得改进。0致谢。本研究部分资金来自ARC-Linkage基金(LP180101150至TZ和BL),ARC-Discovery基金(DP220100800至XY)和ARC-DECRA基金(DE230100477至XY)。我们感谢所有匿名审稿人和AC们提供的建设性建议。46990参考文献0[1] Darius Afchar,Vincent Nozick,Junichi Yamagishi和IsaoEchizen。Mesonet:一种紧凑的面部视频伪造检测网络。在2018年IEEE国际信息取证和安全研讨会(WIFS)上,页码1-7。IEEE,2018年。0[2] Shruti Agarwal,Hany Farid,Tarek El-Gaaly和Ser-NamLim。从外观和行为中检测深度伪造视频。在2020年IEEE国际信息取证和安全研讨会(WIFS)上,页码1-6。IEEE,2020年。0[3] Davide Cozzolino,Andreas R¨ossler,JustusThies,Matthias Nießner和LuisaVerdoliva。Id-reveal:面向身份的深度伪造视频检测。在计算机视觉和模式识别的IEEE/CVF国际会议论文集中,页码15108-15117,2021年。0[4] Jiankang Deng,Jia Guo,Niannan Xue和StefanosZafeiriou。Arcface:用于深度人脸识别的加性角度边界损失。在计算机视觉和模式识别的IEEE/CVF会议论文集中,页码4690-4699,2019年。0[5] Xiaoyi Dong,Jianmin Bao,Dongdong Chen,TingZhang,Weiming Zhang,Nenghai Yu,Dong Chen,FangWen和BainingGuo。用身份一致性变换器保护名人免受深度伪造的影响。在计算机视觉和模式识别的IEEE/CVF会议论文集中,页码9468-9478,2022年。0[6] Xiaoyi Dong,Jianmin Bao,Dongdong Chen,WeimingZhang,Nenghai Yu,Dong Chen,Fang Wen和BainingGuo。基于身份的深度伪造检测。arXiv预印本arXiv:2012.03930,2020年。0[7] Ziheng Hu,Hongtao Xie,Yuxin Wang,JiahongLi,Zhongyuan Wang和YongdongZhang。动态不一致感知的深度伪造视频检测。在IJCAI中,2021年。0[8] Yonghyun Jeong,Doyeon Kim,Seungjai Min,SeonghoJoe,Youngjune Gwon和JongwonChoi。Bihpf:用于鲁棒的深度伪造检测的双边高通滤波器。在应用计算机视觉的IEEE/CVF冬季会议论文集中,页码48-57,2022年。0[9] Gengyun Jia,Meisong Zheng,Chuanrui Hu,XinMa,Yuting Xu,Luoqi Liu,Yafeng Deng和RanHe。不一致感知小波双分支网络用于人脸伪造检测。IEEE生物特征、行为和身份科学交易,3(3):308-319,2021年。0[10] Liming Jiang,Ren Li,Wayne Wu,Chen Qian和ChenChangeLoy。Deeperforensics-1.0:用于现实世界人脸伪造检测的大规模数据集。在计算机视觉和模式识别的IEEE/CVF会议论文集中,页码2889-2898,2020年。0[11]金东坤和金光洙。具有边缘区域特征提取的广义面部操纵检测。在应用计算机视觉的IEEE/CVF冬季会议论文集中,页码2828-2838,2022年。0[12] Prabhat Kumar, Mayank Vatsa和RichaSingh。在应用计算机视觉的IEEE/CVF冬季会议论文集中检测面对面的面部再现,页码2589-2597,2020年。0[13] Yuezun Li,Xin Yang,Pu Sun,Honggang Qi和SiweiLyu。Celeb-df:用于深度伪造取证的大规模挑战数据集。在计算机视觉和模式识别的IEEE/CVF会议论文集中,页码3207-3216,2020年。0[14]刘洪谷,李晓丹,周文波,陈跃峰,何源,薛辉,张伟明和于能海。空间相位浅层学习:重新思考频域中的人脸伪造检测。在计算机视觉和模式识别的IEEE/CVF会议论文集中,页码772-781,2021年。0[15] Iacopo Masi,Aditya Killekar,Royston MarianMascarenhas,Shenoy Pratik Gurudatt和WaelAbdAlmageed。用于隔离视频中的深度伪造的双分支循环网络。在计算机视觉的欧洲会议上,页码667-684。Springer,2020年。0[16] Google Research Nick Dufour和Jigsaw AndrewGully。为深度伪造检测研究提供数据。https://ai.googleblog.com/2019/09/contributing-data-to-deepfake-detection.html。0[17] Yuval Nirkin,Yosi Keller和TalHassner。Fsgan:主体不可知的人脸交换和再现。在计算机视觉的IEEE/CVF国际会议论文集中,页码7184-7193,2019年。0[18] Andreas Rossler,Davide Cozzolino,LuisaVerdoliva,Christian Riess,Justus Thies和MatthiasNießner。Faceforensics++:学习检测操纵的面部图像。在计算机视觉的IEEE/CVF国际会议论文集中,页码1-11,2019年。0[19] Zekun Sun,Yujie Han,Zeyu Hua,Na Ruan和WeijiaJia。通过精确的几何特征提高深度伪造检测的效率和鲁棒性。在计算机
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功