联合视听深度伪造检测方法及其泛化能力的研究

71 浏览量更新于2023-10-13 收藏 973KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14800一刻而且我也被利用了（）何wOften联合视听深度伪造检测Yipin Zhou Ser-Nam LimFacebook AI{yipinzhou，sernamlim} @ fb.com摘要Deepfakes（“深度学习”+“假”）是用AI算法合成生成的视频。虽然它们可以娱乐，但它们也可能被滥用于伪造演讲和传播错误信息。创建深度伪造的过程对检测视觉深度伪造的探索已经产生了许多检测方法以及数据集，而音频深度伪造（例如，音频深度伪造）已经被广泛应用。来自文本到语音或语音转换系统的合成语音）以及视频和音频模态之间的关系相对被忽略。在这项工作中，我们提出了一种新的视觉/听觉deepfake联合检测任务，并表明利用视觉和听觉模态之间的内在同步可以有利于deepfake检测。实验表明，所提出的联合检测框架优于独立训练的模型，同时，对未知类型的deepfakes产生卓越的泛化能力。1. 介绍一个令人信服的deepfake故意设计用于提供虚假信息和假新闻，例如。政治家发表演讲或发表声明1通常需要对视频和音频通道进行细致的操作。在给定的示例中，视频内容已经用称为唇同步的技术进行随着文本到语音（TTS）和语音转换（VC）算法的最新进展[58，41，22，37，10]，合成人类语音将变得更加容易，为音频在深度伪造检测中发挥与视频同等重要的作用铺平了道路。我们在本文中的工作解决了这两种模态之间的相互作用，这对于检测听觉深度伪造可能是至关重要的最近的工作主要集中在从各种生成框架中识别视觉伪像和1youtu.be/30NvDC1zcL8（）（）图1：显示修改的视频或音频可能违反同步模式的示例。（a）第一行视频帧未被修改，而第二行已经被换脸，并且下面的单词由两个视频说出(b)和（a）一样，只是最下面一行是对口型的.伪造视频中的嘴唇运动与发音单词之间存在很大差异。（c）顶行是真实的视频帧，说出单词“时刻”。相应的梅尔频谱图在第二行，TTS生成的包括第一行和第三行的视听对打破了由第一行和第二行的对维持的同步模式，这是我们希望在这项工作中捕获的。由面部交换引起[30，31]。工作的另一个分支利用生物计量信号，诸如检测特定个体中固有的特定面部运动模式[5，3]，但是这种ID特定的方法受到其生成新身份的能力的限制。为了实现更普遍的方法，我们观察到当人类说话时，嘴唇运动（视位）和发音音节（音素）之间存在很强的相关性当任何一个模态是假的时，同步在一些不显眼的时刻中断，因此例如，在图1B中。1，由于面部交换或唇同步引入的伪像，嘴唇运动与音节不太匹配。此外，当从TTS系统创建音素时，它们通常不清楚地发音以匹配嘴部形状，这是用于检测视听深度伪造的良好信号。14801FF--基于这种直觉，我们提出了一个二加一流模型，以联合区分视频/音频深度伪造。现有的多模态框架从不同的模态（例如，多模态）获取成对的输入。视频帧和光流;或者用于动作识别任务的视频和声音），并且在融合表示上使用共享标签，这可以基于两个流的后期融合[42，18，25]或横向连接[17]。对于deepfake，音频和视频流的标签可能不一定相同，因为可能是模态中的任一个被修改。因此，学习这样的共享潜在表示可能是次优的。出于这个原因，我们建议用它们自己的标签分别对视频和音频流进行建模我们称之为同步流，它本身被赋予一个单独的标签，反映是否有任何一个模态被操纵。通过如我们所提出的联合训练，网络不仅学习“外观”或纹理伪影，而且还受益于同步流，该同步流将真实视听对的同步模式与假对的同步模式区分开。然而，一个限制因素是缺乏具有视觉和听觉操作的适当数据集为了克服这一点，我们利用包含未修改的音频通道的现有视频deepfake数据集通过在TTS和VC任务中常用的不同声码器[38，52，23，33，19，28，60]运行这些频谱图来模拟合成语音，我们最终策划了一个大小与现有视频deepfake数据集相似的数据集，但具有操纵的音频通道。我们的贡献可归纳如下：1. 我们提出了一个联合的视听deepfake检测任务，该任务处理视觉或听觉模态中的一个（或两个）被操纵的情况。2. 此外，我们提出了一个同步流，模型的同步模式的两种方式。我们表明，有了这个额外的信号，我们的模型可以很好地推广到看不见的deepfakes。3. 最后，我们建立了一个包含视觉和听觉操作的deepfake数据集，我们希望借此鼓励在联合视听deepfake检测领域的进一步研究。2. 相关工作视频deepfake检测：[61，56]证明存在不同GAN框架的“指纹”，可以用于检测生成的图像。[39]提出了通过四种现有方法操纵的视频数据的取证数据集和用于检测deepfakes的XceptionNet [13]基线。[30，31]提出了更一般的人脸伪造检测方法，利用模型之间的不连续性，真实和真实的地区。在[11]中，提出了一种基于补丁的检测框架来进行局部预测，然后进行聚集。[5，3]学习个性化的面部动作模式，并利用该生物识别信号来检测面部交换。[20，4]中的方法与本文最相关;两者都解决了嘴唇运动，同时检测deepfakes。[20]使用预先训练的唇读网络来微调模型，以学习对嘴部移动更敏感的嵌入。然而，与我们的提议不同，没有音频参与。[4]从视频和音频对中明确地提取音素和视位以检测不匹配。我们的框架工作还利用同步模式的autentic对（与修改的对），通过学习，通过一个独立的视频和音频流与同步流。音频deepfake检测：[49]发布了一个大规模的欺骗音频数据集，包括用最先进的神经声学和波形生成模型生成的合成语音以及重放的攻击语音。许多现有的欺骗语音检测框架[45，12，6，8，29，16]依赖于从原始波形信号中提取声学表示，如MFCC [34]，STFT和CQCC [48]，并应用分类器，如SVM，高斯混合模型（GMM）或CNN进行预测。[59]提出了一种端到端的类似ResNet的框架来识别欺骗音频。视频和音频交叉建模：视觉和声音模态经常交织在一起，[36，62，9，27]利用并发属性在训练没有注释的网络时提供监督。视频和音频还可以通过从不同的角度提供语义来相互补充。为此，[62，7，35，21]都使用两种模态联合训练他们的模型，以学习更丰富的表示。在本文中，我们同样利用真实的视频（嘴部动作）和人类语音之间的并发属性，并试图检测何时一个或两个模态被修改，导致并发被打破。此外，与音频和视频共享相同标签/潜在空间的现有工作不同，我们的框架遵循具有单独的视频和音频流的多任务设置，视频和音频流被赋予它们自己的标签并通过同步流链接3. 方法问题表述：我们将包含人类谈话的输入视频表示为x=a，v，其中a，v是相应的音频和视频信道，并且是采样波形数字和视频帧的序列。进行预测的网络表示为（x），它包括两个部分：特征提取器θ将输入视频或音频映射到R T × d中的特征表示，其中T和d分别是序列长度和特征维度;分类层F将特征表示映射到标签。14802一一[k，k，1]CNT保险丝att真实-真实×v vvΣCGθG我我i=1茨布夫1，如果v≥0.5或��a≥0.50，如果v0.5且

下载后可阅读完整内容，剩余1页未读，立即下载