没有合适的资源?快使用搜索试试~ 我知道了~
4710看看这些话:基于文字条件化面部运动的视频篡改检测Shruti Agarwal*1,Liwen Hu2,Evonne Ng1,Trevor Darrell1,Hao Li2,and AnnaRohrbach11加州大学伯克利分校2Pinscreen,Inc.摘要在当今这种伪造的范围从廉价伪造(例如,外观相似者或音频配音)到深度伪造者(例如,SophisticatedAI媒体合成方法),这些方法在感知上变得与真实视频无法区分。为了应对这一挑战,我们提出了一种多模态语义取证方法,以发现超越检测视觉质量差异的线索,从而处理更简单的Cheapfake和视觉上有说服力的Deepfake。在这项工作中,我们的目标是通过检测与所说的话相对应的异常面部运动来验证视频中看到的所谓的人确实是他们自己。我们利用归因的概念来学习特定于个人的生物计量学模式,从而将特定的说话者与其他人区分开来。我们使用可解释的动作单元(AU)来捕捉人我们进一步证明了我们的方法在1. 介绍人类倾向于相信他们所看到的,尤其是在视频方面。从历史上看,视频一直是事件确实发生的最佳证据。然而,在当今数字时代迅速发展的错误信息环境中,这可能不会长久。视频操纵技术比以往任何时候都更容易获得,而互联网和社交媒体的覆盖范围使虚假内容得以迅速传播。最近的头条新闻,例如* 网址shrutia@mit.edu奥巴马说“嗨”的视频“Hi”头部沿X轴图1.我们在寻找他们所说的和他们的行动之间的矛盾。解决这个问题的一种方法是通过音频或声音(音素),然而这可能会错过一些重要的语义线索。考虑一个奥巴马说“嗨”的例子(就像“嗨,大家好”)。我们注意到,每次他说这句话时,他的头都会沿着X轴旋转。如果我们绘制每次出现单词“Hi”时“头部沿X轴旋转”的量同时,构成单词“Hi”的两个音素[h]和[aI]与头部旋转没有任何相关性。这是直观的,因为这些音素也出现在许多其他的话,奥巴马不移动他的头。这促使我们专注于口语单词,以发现生物识别单词的特定模式。危机”[43],“荷兰国会议员在视频会议中与纳瓦尔尼的参谋长的deepfake模仿”[44]1,“当虚拟变成假的:丹麦政客'满足'白俄罗斯反对派人物”[39]是deepfake和廉价假货(例如,长相相似者)构成真正的威胁,并造成严重后果,特别是如果针对当权者。保护公众免受潜在的虚假信息[1]后来的一份报告解释说,实际上这是一个冒名顶替者[45]。4711活动中,新的deepfake检测方法正在引入,以打击新的和更先进的deepfake技术[41,32,25,34,19,35,36,42]。不仅检测越来越具有挑战性,而且大多数方法对通过传统技术伪造的廉价假货无效(例如,加速或减慢视频),或者根本没有视频操纵(外观相似,音频配音)。在这项工作中,我们的目标是检测视频伪造相关的一个人的身份。具体来说,我们的目标是检测在视频中“看到”的所谓的人是否确实是他们自己。这与deepfake检测问题不同,deepfake检测问题的目标是区分原始(未操纵)和生成/更改的视频。对于这种方法,模仿者的视频将被错误地识别为“真实的类似地,带有配音或编辑语音的非操纵视频也会被许多deepfake检测器认为是相比之下,我们的问题陈述更一般,因为它包括deepfake和伪造的原始视频。此外,随着deepfake质量的提高,检测视觉缺陷也将变得越来越困难。我们的主要见解是使用语义,个人特定的线索作为替代,和可推广的解决方案来检测视频伪造。最近引入了基于生物识别的技术[5]来识别伪造的视频,这些视频要么没有被操纵,要么非常逼真。[5]通过将人物现有镜头中的头部和面部动作相关联来分析人物的真实性尽管需要几个小时的培训视频,但它们非常适合经常成为目标的名人和世界领导人等公众人物然而,这些个人特定的方法对尖端的音频到嘴唇合成技术是无效的,例如[41,36]或由Synthesia2或CannyAI3开发的商业视频对话替换解决方案,它们只操纵嘴。为此,我们提出了一种语义,多模态检测方法,将语音转录到个人特定的手势分析。我们利用可解释的动作单元(AU)[6]来模拟人的面部和头部运动。我们的方法是分析用AU捕获的单词条件化的面部运动,以学习用于分类真实和虚假视频的每个单词我们的直觉是,每个人在他们的言语、面部表情和手势如何共同出现时,都可能有识别的、独特的模式。这与使用原始音频或声音不同,如图1所单个音素缺乏语义,因此可能无法捕获与特定单词相关联的面部姿势的高级特质规则。我们的单词级模型使用与特定单词相关的面部模式来区分真实和伪造的在2https://www.synthesia.io/3https://www.cannyai.com/测试时,我们计算视频剪辑中每个单词的分类分数,并将它们汇总为最终分数。我们使用世界领导人和电视脱口秀主持人的真实/虚假视频进行实验,在那里我们考虑了全方位的尖端视频处理技术[36,35,41],以及在野外发现的假货。我们比较我们的ap-proach几个突出的先前的作品,我们表明,我们在整个范围内的假货达到最佳性能。我们考虑的其他方法都没有表现出这样的一般能力,因为它们往往会受到音频配音或野生假唱的影响。我们还比较了我们的模型设计中使用的音素而不是单词,并看到虽然它在视听不一致的情况下表现良好,但它很难识别需要生物特征的假货。我们进行消融研究,以确认我们的方法的关键优势确实是词条件分析。最后,我们方法的另一个好处是可解释性:我们能够捕捉人类可理解的、预测视频是真实的还是伪造的人特定的词移动模式(例如,常见的真实视频,但在假的缺席)。我们的贡献如下。(a)我们提出一个新的、一般性的问题陈述:给定一段视频,预测一个人是否真实,不管伪造是深度伪造还是廉价伪造。(b)我们提出了第一个语义的人特定的方法来解决这个问题,利用词条件的面部运动。(c)我们对多种伪造类型进行了比较研究,从deepfakes到模仿者和音频配音。与以前的工作不同,我们的方法在所有类型的假货中表现出很强的泛化能力。也就是说,我们的方法具有两个关键的能力:识别语音视频不一致,同时也捕捉生物特征。(d)我们的方法还提供了可解释性,使我们能够暴露特定于人的预测性单词手势模式。2. 相关工作我们确定了两种类型的检测技术:(1)个人通用方法分析操纵是否发生,而不管个人的身份;(2)个人特定的方法验证所见个体的特征是否与真实的人匹配。个人通用方法通常在具有真实和虚假视频的大型数据集上进行训练,并且依赖于低级特征或高级语义。另一方面,针对个人的方法通常需要额外的基于生物特征的数据进行识别。低级别的基于数据库的取证。这些方法(10个CNN分类器)通常是个人通用的,并且专注于从图像或视频中隐式学习的视觉伪影或统计异常[1,21,33,51,30,40,52,53,33、38、46]。虽然许多技术都在努力推广到新的视频处理技术或看不见的深度处理技术,4712i=1−--i= s-t假视频[16],一些关注的文物,也出现了看不见的假货。[29]检测扭曲伪影,[27]识别合成过程中的混合痕迹,[47]平衡图像和元数据之间的不一致性。虽然已经显示出有前途的检测能力,但这些方法通常容易受到压缩、分辨率降低或对抗性扰动和攻击等劣化的影响[8,24]。高级语义取证。基于人的通用和高级语义的技术专注于人的特征的这些方法通常可以更好地推广到看不见的深度伪造,并且对洗钱更具弹性。然而,在不受约束的设置和短视频剪辑中通常难以实现高级特征的最近的几种方法专注于面部表现中的时间不一致性[22,9,31,4],但依赖于鲁棒的3D面部跟踪。与我们提出的工作类似,多模态技术[9,31,54]利用音频和视觉信号来检测deepfake。虽然音频信号可以提供情感和一个人如何说话等线索,但我们的工作重点是口语,它提供了关于正在说什么的更直接的信息。例如,在许多文化中,与词语相关的不同的头部符号传达同意、不同意或问候。我们相信我们的方法是对基于音频的方法的补充,因为它捕获了原始音频无法访问的特定于单词的模式在[4]中,作者利用了当音素'P','B'或'M'被发音时嘴唇的形状而在[22]中,作者仅使用视觉信号来检测嘴唇运动是否尽管这些技术可以检测到嘴唇被修改的深度伪造,但由于它们不是特定于人的,因此它们将难以识别使用模仿者的视频伪造。基于生物特征的取证基于生物特征的检测方法[11,48,5,12,3,49,26]是个人特定的,因为它们试图使用已知的身份先验来验证一个人的真实性。这些作品与我们的技术最相关,其中许多作品随着时间的推移利用特定于人的面部运动来检测深度伪造。在[26,49]中,作者使用嘴唇的视觉外观和运动来执行说话人验证并检测特定于人的深度伪造。在这些以前的作品中,作者只分析了一小部分单词,这将限制他们对那些正在说的假词的研究。相比之下,我们包含了整个面部的面部运动,并使用了更大的词汇量,使我们的方法能够处理真实的deepfakes。[5]的方法为公众人物引入了一种生物计量方法,其中个人特定将视频中的面部运动与原始视频中的面部运动进行比较。尽管需要已知人的数小时训练数据,但是当不使用视频操纵时,该方法抵抗真实的深度伪造,或者甚至抵抗看起来更先进的技术,包括使用光流[3]或基于3DMM的面部跟踪[12]的基于CNN的行为分类,已经显示出对deepfake检测的改进性能。然而,最近在语音到嘴唇合成方面的进展[41,36]表明,在不改变全局面部特征的情况下,可以产生高度令人信服的语音操纵。在这项工作中,我们介绍了一种多模态的语义方法,利用这一事实,口语的话可能与不同的人特定的面部运动。特别地,这些运动涉及人的整个面部/头部而不仅仅是嘴唇区域,并且即使对于熟练的模仿者也难以伪装。3. 词条件面部分析给定一个人的输入视频,我们的目标是将其分类为真实或虚假。我们利用了关键的洞察力,即个人经常使用识别与特定交互(如问候、不同意等)相关的手势。在我们的方法中,我们代表这些会话单位的话,并分析与他们相关的面部表情。在单词的粒度上考虑会话单元,可以在数量每个独特的单元和语音语义的出现。使用N-grams或独特的句子会导致更少的出现,而音素会导致更少的有意义的语音语义。我们在5.2节中对我们的方法与音素条件对应方法进行了实证比较。如图2所示,我们首先转录音频,然后提取由AU表示的扬声器的相应每帧面部运动[17]。我们将说话者运动编码为在单词出现的窗口内发生的AU的变化量。最后,训练单词级分类器来检测视觉运动是否与口语单词匹配。词对齐的面部特征提取。我们将F1:T=fT表示为来自长度为T的视频的帧f的集合。 给定一个视频,我们转录视频的音频,以获得每个单词的发声时间w,表示为开始f s和结束f n帧,其中d=n s是发声的持续时间。 为了将个人的面部表情和头部运动与相应的单词相关联,我们提取窗口Fs:n的AU。与3D或2D面部标志相反,这些AU表示语义上的平均值-有趣的微表情,如脸颊或下巴运动的强度(例如,“下巴抬高器”)。对于帧范围Fs:n内的给定单词spo- ken,我们提取25-D面部在每个时间tep处特征gi,以获得Gs−t:n+t={g}n+t.4713∈∈Y∈∈|1+e我−g∈∈大家好,星期四…………模特星期四X模型X模型每个人X型号HiX真(1)/假(0)真(1)/假(0)真(1)/假(0)真(1)/假(0)真的(1)/假的(0)图2.给定一个输入视频,我们首先转录音频并获得单词的每帧对齐对于每个词,从对应的帧F中提取基于AU的特征向量,然后由词特定的分类器θf进行评估。使用所有分数的几何平均值来计算视频的“真实”的可能性的最终分数添加t=3帧的填充以解决字与帧之间的小的未对准。然而,我们假设在视频和音频信号之间没有大的未对准。每个25-D面部特征由4个分量组成:(1)17个AU的强度(2)三维头部旋转和沿X、Y、Z轴的三维头部平移,(3)嘴角之间的三维水平距离(唇-角),以及(4)上下唇之间的三维垂直距离(唇-角)。而不是使用变量-长度特征Gs−t:n+tRd×25,我们使用在以下期间提取的最大值和最小值之间的增量:打开单词发音窗口。每个单词出现的面部特征然后被表示为:面部动作(与错误视频匹配的语音记录)。除此之外,我们还使用最近的唇形同步生成方法Wav2Lip [36]创建了合成假声。和以前一样,单词是故意与随机的面部动作相匹配的,但现在嘴唇是合成的。通过使用这些合成的假货,我们确保我们的分类器不依赖于唇读错误,以便检测假货。使用这些真实和虚假的数据,我们训练了特定于人的特定于词的逻辑回归分类器。设x为wR25×1是对应于wordw. 让你[0,1]是x w的地面真值标签,其中如果xw来自真实视频序列,则y w = 1。我们学习线性分类器的模型参数θwR25×1,该线性分类器最大化以下目标函数Lθw:MLθw=P(yi|(a)第(2)段;i=1其中P (yixi)是yig iv enxi的概率,M是训练数据中w的总出现次数。P(yi|σ(θ_w·σ_i)=[σ(θ_w·σ_i)]y_i。[1−σ(θ<$w·<$xi)]1−yi(3)其中σ(x)=1−x是sigmoid函数。试验. 在 评估过程中,给出了一个纯-移植的个人,我们提取的功能,如上所述。在训练集中没有看到的转录单词被丢弃。对于每个剩余的词w,使用给定个体的目标词分类器θw来检查对应的特征fxw在0(fak e)和1(real)的范围内的分数sw计算为:sw=σ(θ_w·θ_xw)。(4)对于给定视频,使用地理位置来计算最终分数。xw=maxgi∈Gs−t:n+t(微克)分我Gs−t:n+t(a)(1)视频中所有训练词的分数的度量平均值其中,R25×1用于建立一个特定的模型。直觉上,这些特征捕捉了说出一个词时发生的最大移动范围(说“嗨”时头部向上移动了多少例如,在一个示例中,在奥巴马的真实视频中,单词通过使用运动的范围作为特征,我们因此避免了跨同一单词的不同话语的时间可变性。特定于词的分类器。我们训练线性的每词分类器来判断给定的手势特征是否属于给定的词。我们没有使用更复杂的基于学习的方法来处理高维特征,而是使用线性分类器来突出简单模型中可给定真实的视频,其中特定于单词的面部动作是正确的,我们创建模拟的假视频,其中单词被故意与随机匹配4. 数据集为了验证我们提出的关于一般问题陈述的方法,包括deepfakes和非操纵的fakes,我们编译了以下数据集。 我们考虑了四位美国政治家(巴拉克·奥巴马、唐纳德·特朗普、乔·拜登、卡马拉·哈里斯)和两位电视脱口秀主持人(约翰·奥利弗、柯南·奥布莱恩)。此外,我们还提供了我们使用的数据类型的详细信息。真实:政治家的真实视频来自世界领导人数据集(WLDR)[3],脱口秀主持人的视频来自[20]。表1(第1列)和图3(第1列)显示了总小时数和示例帧。配音:使用每个人的真实视频,我们通过不匹配视频4714和音频来模拟配音场景。对于每一个真实视频,一个新的配音视频4715真正的Wav2Lip 模拟器换脸图3.我们工作中使用的数据示例,涵盖不同类型的伪造视频,从deepfakes到非操纵视频的伪造。奥巴马特朗普拜登图4.在我们的工作中使用的数据的例子,特别是,在野生假唱的例子,为三个人。通过将其与相同长度的随机音频进行匹配来创建。我们为配音视频制作的小时数与我们制作真实视频的小时数相同,表1。Wav2Lip:使用真实的视频,我们创建了嘴唇同步深度伪造,其中视频中的嘴唇区域被修改为匹配随机音频。我们使用现成的Wav2Lip实现 [36]来创建这些假的。示例框架如图3(第2列)所示。冒充者:这些特定于个人的模仿者视频来自YouTube上的《周六夜现场》。奥巴马、拜登和特朗普的模仿视频来自WLDR,哈里斯、奥利弗和表1(第4列)和图3(第3列)显示了总小时数和示例帧。FaceSwap:FaceSwap deepfakes是使用模仿者视频创建的,方法是将模仿者的脸替换为房配音Wav2Lip模仿者FaceSwapITW奥巴马12.512.512.50.160.110.99特朗普6.16.16.10.190.190.08拜登5.15.15.10.040.140.12哈里斯2.52.52.50.050.05-奥14.514.514.50.080.08-奥利弗17.817.817.80.040.04-表1.六个人中每个人在不同类型的视频伪造场景下的视频小时数。培训测试期间的唯一单词数量Number口水Number模型实际/配音/Wav2Lip模仿者FaceSwapITW奥巴马4,925918812248211543特朗普3,66481754329628281拜登3,985816523133145121哈里斯2,270844346125124-奥6,306657548196187-奥利弗10,33073967011898-表2.第2-3列:训练数据统计,包括唯一单词的总数和我们训练的特定于单词的模型的数量。第4-7列:每个子任务中测试的独特单词模型的数量目标人物的脸。奥巴马、拜登和特朗普的视频来自WLDR,哈里斯、奥利弗和奥布莱恩的视频表1(第5列)和图3(第4列)显示了总在野外(ITW):奥巴马,特朗普和拜登的野生对口型视频收集自[2,5,41]。表1(第6列)和图4显示了总小时数和示例帧。5. 实验我们在五种伪造场景中评估了我们的方法,并将其与最先进的deepfake检测方法和基于音素的基线进行了比较。我们还提供了一些消融和分析研究。最后,我们展示了我们的方法5.1. 实现细节数据预处理:每个视频首先进行预处理,以便只保留感兴趣的人。给定输入视频的一帧,我们首先使用单级人脸检测器[14]来定位所有人脸。然后使用人脸识别网络ArcFace [15]来检查每个人脸是否是目标人物,并屏蔽离群值。(For模仿者视频,使用模仿者的脸而不是目标人。对于转录,我们使用了DeepSpeech的开源实现[23]。对于AU提取,我们使用面部行为分析工具包Open-Face 2 [6,7]。培训详情:在我们的实验中,我们使用逻辑回归来解决真/假视频的二进制分类问题。为了训练我们的个人词汇分类,特朗奥布莱奥利拜登哈里奥巴in-the-wild4716配音Wav2Lip模仿者FaceSwapITW奥巴马1.001.000.950.900.98特朗普0.950.990.890.920.98拜登0.840.930.980.730.95哈里斯0.900.890.820.93-奥0.910.880.900.84-奥利弗0.940.930.860.87-Avg0.920.940.900.870.97表3.六个人和五个视频伪造场景的10秒视频剪辑的AUC准确性最后一行给出了个体间的事实上,我们使用90%的真实视频为音素4而不是单词,用于确定视觉获胜和训练分类器。由于音素对应于说话过程中发出的声音,因此这可以作为视听方法的代理。5.2. 结果表3显示了我们的方法在每个单独测试情况下的AUC方面的性能。所有个体的平均AUC显示在底行中。我们的方法对奥巴马的效果最好,在所有类型的伪造场景中的平均AUC为0.97,对奥布莱恩的效果最差“假”的阶级。 存在的唯一字的数量表2(第2栏)中给出了每个人的语音。针对训练数据集中平均出现频率为每小时一次的词训练特定于词的模型。例如,Harris/Oliver的视频总时长为7.5/53.4小时。因此,在Harris/Oliver的情况下,如果单词频率分别大于等于7/53,则训练单词分类器表2(第3列)显示了为每个个体训练的单词模型的总数。平均而言,训练了799个单词模型,其中O 'Brien/Obama训练的模型数量最少/最多测试详情:我们在剩下的10%的真实音频配音和Wav2Lip对口型视频上测试我们的方法。此外,我们对所有视频进行了测试,其中包括Impersonators,FaceSwap和在训练期间未看到的野生唇同步Deepfakes(如第4节所介绍的)。每个测试视频被分成重叠的10秒视频剪辑(30 fps),具有两秒的移位窗口。表2(第4-7列)显示了在每个测试数据集中评估的唯一单词的总数,基于在测试时间内训练单词集中出现的单词评价指标:我们报告10秒测试视频的曲线下面积(AUC)分数。对于之前在小于10秒的时间窗口上执行分析的方法,我们对10秒内的预测进行平均。方法:由于我们的方法不分析我们的检测模型的音频信号,只使用个人特定的视觉特征的条件下的话,我们比较我们的方法与其他基于视觉特征的法医技术。此外,虽然之前有关于视听深度伪造检测的工作,但我们无法找到任何公开可用的代码库。因此,我们选择以下具有可用代码库的先前方法:XceptionNet [40]中的低级基于特征的方法; LipForensics [22]中的高级基于语义的方法;保护世界领导人(PWL)[5]和ID- Reveal[12]中基于生物识别的技术。与此同时,我们感兴趣的是实证评估使用单词是否比在音频中使用声音提供了一些额外的好处。为了解决这个问题,我们构造了一个方法的版本,这是预料之中的,因为奥巴马的视频在每周例行讲话中有更高的质量和更好的面部动作一致性。奥布莱恩的视频视觉质量较低,在非正式采访、独白和脱口秀中的观众互动中有更广泛的面部动作。这使得我们的词条件模型从O'Brien视频中学习一致的面部运动模式变得更加困难与最新技术水平的比较:表4显示了每种方法和视频伪造场景下所有个体的平均AUC。我们的方法在所有视频伪造场景中表现最好,除了在Wav2Lip的情况下,LipForensics获得了0.98的最佳性能。所有先前的方法都不能检测配音视频篡改场景,因为在这种情况下没有执行视频操纵。非生物识别技术无法检测到模仿者的视频。尽管相关的基于生物特征的方法能够检测FaceSwap和模仿者,但它们在对口型视频上表现不佳。这是因为这些技术仅使用个人身份的视觉线索,其中大部分被保存在对口型视频中。这显示了我们的方法的优点,即。结合视觉提示使用文字。当比较单词与音素条件反射时,我们发现音素具有很强的检测视 听 不 一 致 的 能 力 , 但 无 法 捕 捉 Impersonator 和FaceSwap假动作所需的特定于个人的特征这是直观的,因为音素对应于在短时间内发出的声音,并在许多单词中共享,因此错过了一些可以通过单词条件反射来利用的语义和特质线索。综上所述,词条件反射使我们能够同时捕捉视听不一致和生物特征。使用文字的效果:我们通过训练两个不同版本的方法进一步分析了训练特定于单词的分类器的效果。在第一个版本(固定窗口)中,我们不使用单词信息,并使用所有非[4]我们使用CMU发音词典(https://github.com/cmusphinx/cmudict),它将视频记录中的单词分解为音素,其中有70个音素。4717≈配音Wav2Lip模仿者FaceSwapITWXceptionNet [40]0.500.780.570.540.49[22]第二十二话0.500.980.430.810.95PWL [5]0.500.630.860.850.60[第12话]0.500.660.850.780.61Ours w/Phonemes0.950.960.610.580.98Ours w/Words0.920.940.900.870.97表4.在10秒视频剪辑的AUC方面的性能。对于每种方法和视频伪造场景,上图显示的是所有六个人的平均AUC。配音Wav2Lip模仿者FaceSwapITW固定窗Word窗口0.500.790.910.880.810.720.680.680.870.94Ours w/Words0.920.940.900.870.97表5.我们的方法的两次消融的所有个体的平均AUC性能,详见正文。具体的功能,从其在模拟器和FaceSwap伪造视频上的高性能可以看出。为了进一步分析“个人特异性”的程度,我们进行了一个模型“转移”实验。也就是说,我们使用为五个人训练的模型,并在第六个人身上测试它们直觉上,我们预计这些模型在区分真实与真实方面做得不好。Wav2Lip是那个人的赝品。平均AUC评分见表6。首先,将分数与表3进行比较,我们看到总体当在奥巴马身上测试时,为奥巴马训练的模型达到AUC 1.0,而“转移”模型仅给出AUC 0.68。第二,音素条件反射始终获得较高的“trans-fer”分数,表明虽然它是个人特定的,但它捕获了更多的个人不可知特征,例如,一般的声音到嘴唇对齐。训练数据大小的影响我们分析了1.00.90.80.70.60.50.1 0.6 1.1 1.62.1视频长度(小时)1.00.90.80.70.60.5电话:+86-10 - 8888888传真:+86-10-88888888视频长度(小时)用于训练特定于个人的单词模型的真实视频的小时数。评估培训规模的影响:1)Wav2Lip假声,平均与训练数据集有72%的词汇重叠,2)野生假声,平均与训练数据集只有28%的词汇重叠。图5所示为个体AUC与训练量的函数关系,范围为0.1至2.1/5.0小时图5.培训视频小时数的影响。左边的图是在Wav2Lip fakes上评估的,右边的图是在野生fakes上评估的。Wav2Lip奥巴马特朗普拜登哈里斯奥布莱恩奥利弗Ours w/Phonemes0.730.660.630.670.690.81Ours w/Words0.680.650.620.640.560.72表6.在AUC方面的“转移”性能,用于在五个人上训练并在第六个人上测试的模型(初级与初级)。Wav2Lip),每个测试人员报告,平均。重叠30帧的固定窗口选择此窗口使用相应的手势特征,我们训练一个线性分类器来预测Real与假的在第二个版本(Word Window)中,与我们的方法一样,使用单词间隔提取手势特征,但我们训练单个线性分类器,而不是特定于单词的分类器。表5显示了两次消融和我们的方法的所有个体的平均AUC。虽然单词间隔已经在固定窗口情况下得到改善,但特定于单词的训练有助于提高每种类型的视频伪造的性能。这清楚地表明,我们的方法的关键优势确实是利用词条件的面部姿态分析。模型转换和个人特定功能:基于之前的实验,我们已经可以假设我们的词条件化方法捕获了一些人-真实的训练视频对于每个真实的训练大小,我们使用来自音频配音和Wav2Lip训练数据集的相等小时数的假视频。左/右图中的评估是在Wav 2Lip/野生假声上执行的黑色曲线显示的是所有个体的平均AUC作为训练规模的函数。在这些评估方案中的每一个中,性能随着培训小时数的增加而提高。在Wav2Lip的情况下,平均性能从0.62提高到0.88(42%)从0.1到1.3小时,然后从0.88提高到0.90(2.0%),训练时间大于1.3小时。同样,对于野生假声,平均性能为0.91,训练视频为1.3小时,之后只有轻微的改善。这表明,虽然我们每个人使用了几个小时的视频,但相对较小的训练数据集(1.5小时)可以提供类似的性能。定性结果和可解释性:在这里,我们提出了定性结果,显示与单词相关的面部运动的规律性。图6显示了两个人基于单词的面部运动。对于每一个,我们从前5名的表现单词中选择一个单词。(The基于词的分类器的性能在我们的训练数据上以词级AUC进行评估。对于每个选定的单词和个体,显示两个事件,来自真实(顶行)和Wav2Lip假(底行)视频。最后一列显示的是真实和虚假训练数据中一个手势特征(AU)我们看到奥巴马拜登奥布莱恩平均特朗普哈里斯奥利弗AUC奥巴马特朗普拜登平均AUC4718≈在“tremendous”这个词的时候,下巴抬高(AU 17)和嘴唇变圆(lip-hor)dimpler(AU 14)和lip-corner-pull(AU 12)在单词“billion”期间图6.面部运动的定性例子,用于预测真实与真实的特定单词。假的对于每个单词和个人,我们展示了来自真实和假(Wav2Lip)视频的两个面部运动示例。在最后一列中,我们展示了个人真实和虚假训练数据集中手势特征的分布。例如,在一个示例中,对于特朗普来说,在“巨大”这个词中,嘴唇变圆和下巴抬起的动作在假货中消失了。这得到了AU 17和lip-hor AU分布的支持:这些动作的平均强度在特朗普的假视频中低于真实视频。特朗普在说“巨大”这个词的时候,他的嘴唇圆圆的,然后把嘴唇压在一起,最后才把嘴唇分开。这种嘴唇的圆化动作在假的例子中是不存在的,即使嘴唇在序列中闭合过一次。真、假话语的这种差异也可以从抬下巴(AU17)和“唇裂”AUs的变化分布中看出。对于奥利弗来说,“十亿”这个词与脸颊上酒窝的产生有关,这在这里显示的假框架中被违反了。因此,除了显示良好的泛化,一系列的视频伪造,我们的方法提供了可解释性,提供了洞察什么话/手势可能是负责分类视频作为一个假的。这是使用此工具的分析师的重要能力。6. 讨论和限制我们提出了一种新的多模态,基于语义的方法来检测伪造的视频。 我们利用学习说话者的面部表情和口语之间的个人特定关联的想法我们的实验表明,不一致的头部运动和面部表情可以识别可靠时,模仿者用于伪造。此外,我们证明了我们的方法在广泛的深度和廉价假货上的有效性和由于我们不试图检测视频操纵伪影,因此我们的方法仍然适用于未来更先进的deepfake。虽然其他多模态检测技术已经表明,音频是揭示伪造的重要线索我们使用词语的语义方法可以是一个重要的补充,特别是在使用具有不同含义的发音相似的词语的情况下。我们的实验与文字vs.音素条件反射支持这一点。我们目前的方法依赖于通过AU提取的3-D面部跟踪的准确性。虽然这对于我们的数据集是可行的,其中扬声器通常是面向前方的,但对于不受约束的视频,基于深度学习的特征可能更可靠。虽然我们的方法似乎表现得相当有效(图5),但它是针对个人的,因此需要足够的(1小时)训练数据才能有效。对于最容易受到深度伪造攻击的名人和世界领导人来说,此外,虽然AU允许我们获得可解释的结果,但更密集的3D面部特征可以允许检测更微妙的异常。最后,我们只验证了我们的方法对英语语音。在未来,我们希望探索我们的词条件技术如何与其他语言一起工作。虚假媒体是对社会的威胁,因此我们设想我们的工作会产生积极的影响。与此同时,几乎任何用于假货检测的方法都可以适用于创建更鲁棒的假货。随着假货的视觉质量不断提高,建立这样的生物识别模型来减轻deepfakes的危害将变得越来越重要鸣谢。这项工作得到了国防部的部分支持,包括DARPA我们感谢Sarthak Kamat在项目期间提供的宝贵反馈。房假房假4719引用[1] Darius Afchar 、 Vincent Nozick 、 Junichi Yamagishi 和Isao Echizen。MesoNet:一个紧凑的面部视频伪造检测网 络 。 IEEEInternational Workshop on InformationForensics and Security,2018。[2] Shruti Agarwal和Hany Farid从听觉和口腔动力学中检测深层伪声。在IEEE计算机视觉和模式识别研讨会上,2021年。[3] Shruti Agarwal,Hany Farid,Tarek El-Gaaly,and Ser-Nam Lim. 从 外 观 和 行 为 检 测 深 度 伪 造 视 频 。IEEEInternational Workshop on Information Forensics andSecurity,2020。[4] Shruti Agarwal,Hany Farid,Ohad Fried,and ManeeshAgrawala.从音素-视位不匹配检测深度伪造视频。在IEEE计算机视觉和模式识别研讨会上,2020年。[5] Shruti Agarwal , Hany Farid , Yuming Gu ,MingmingHe,Koki Nagano,and Hao Li.保护世界领导人免受深度造假。在IEEE计算机视觉和模式识别研讨会上,2019年。[6] 塔达斯·巴尔特鲁斯·艾提斯、马尔瓦·马哈茂德和彼得·罗宾逊。用于自动动作单元检测的跨数据集学习和特定于个人的标准化IEEEInternational Conference onAutomatic Face and Gesture Recognition,2015年。[7] Tadas Baltrusaitis 、 Amir Zadeh 、 Yao Chong Lim 和Louis- Philippe Morency。OpenFace 2.0:面部行为分析工 具 包 。 IEEEInternational Conference on AutomaticFace and Gesture Recognition,2018。[8] 尼古拉斯·卡利尼和哈尼·法里德。通过白盒和黑盒攻击躲避深度伪造图像检测器在IEEE计算机视觉和模式识别会议上,2020年。[9] Komal Chugh ,Parul Gupta , Abhinav Dhall ,and Ra-manathan Subramanian.不为对方-视听失调为基础的deepfake检测和定位。2020年ACM国际多媒体会议[10] Umur Aybars Ciftci,Ilke Demir,and Lijun Yin.假-捕手 : 使 用 生 物 信 号 检 测 合 成 人 像 视 频 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,2020。[11] J.F. Cohn,K.施密特河Gross和P.艾克曼面部表情的个体差异:随时间的稳定性、与自我报告的情绪的关系以及告知人识别的能力。 在诉讼中。第四届IEEE多模式接口国际会议,第491-496页,2002年。[12] 参 见 Cozzolino 、 AndreasR ?ssler 、 JustusThies 、MatthiasNießner和Luisa Verdoliva。Id-reveal:身份感知的deepfake视频检测在IEEE/CVF计算机视觉国际会议(ICCV)的会议中,第15108-15117页[13] 查尔斯·达尔文。人和动物的情感表达。芝加哥大学出版社,2015年。[14] Jia Guo , Evangelos Ververas , Irene Kot- sia , andStefanos Zafeiriou. Retinaface:在野外进行单次拍摄的多层次面部定位。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。[15] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,2019年6月。[16] Brian Dolhansky , Russ Howes , Ben Pflaum , NicoleBaram 和 Cristian Canton Ferrer 。 Deepfake DetectionChallenge(DFDC)预览数据集。arXiv预印本arXiv:1910.08854,2019。[17] Paul Ekman和Wallace V Friesen。测量面部运动。环境心理学和非语言行为,1976年。[18] Steven Fernandes 、 Sunny Raj 、 Eddy Ortiz 、 IustinaVintila 、 Margaret Salter 、 Gordana Urosevic 和 SumitJha。使用神经模型预测深度伪造视频的心率变化在IEEE计算机视觉工作室国际会议上,2019年。[19] OhadFried , AyushTewari , MichaelZollhoüfer ,AdamFink el-stein ,Eli Shechtman ,Dan B Goldman,Kyle Genova , Zeyu Jin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功