深度伪造的多层感知器-卷积神经网络模型根据面部属性检测并区分真实和深度伪造视频

80 浏览量更新于2024-01-02 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 2（2022）100054使用深度多层感知器-卷积神经网络模型制作深度伪造Santosh Kolagati，Thenuga Priyadharshini，V. Mary Anita Rajam印度金奈安娜大学Guindy工程学院计算机科学与工程系aRT i cL e i nf o保留字：CNN多层感知器Deepfake检测混合数据分类a b sTR a cT由于硬件和计算的进步，创建深度伪造已经迅速变得更容易和更容易。deepfakes的有害性质敦促立即采取行动，以提高对此类篡改视频的检测。在这项工作中，我们建立了一个深度混合神经网络模型来检测deepfake视频。使用面部标志检测，我们从视频中提取有关各种面部属性的数据。这些数据被传递到一个多层感知器，以学习真实和deepfake视频中的差异。同时，我们使用卷积神经网络来提取特征并对视频进行训练。我们将这两个模型结合起来构建一个多输入deepfake检测器。Deepfake检测挑战数据集的子集以及Dessa数据集用于训练模型。该模型提供了良好的分类结果，准确率为84%，AuC得分为0.87.1. 介绍Deepfake是合成的图像和视频，采用了无数强大的人工智能和深度学习技术。电子邮件图像和视频足以通过将它们组合或叠加到源图像和视频上来创建令人信服的，高度欺骗性的深度伪造例如，深度伪造被用来改变知名政客的外表和说话模式，以负面的眼光描绘他们2随着社交媒体作为传播新闻手段的重要性日益增加，近年来，网上虚假信息活动受到了虽然社交媒体使假新闻的传播变得更容易，但计算机视觉工具通过使生成假图像变得更容易而促成了这一虽然前几年的图像处理器需要渲染和/或图像处理软件的丰富经验，但现代数据驱动方法让我们更容易从零开始生成人工图像。因此，deepfake视频或图像可能会在政治环境以及许多人的个人生活中造成前所未有的损害。例如，deepfakes已被用于在视频门户网站或聊天室中歪曲知名政治家美国前总统唐纳德·特朗普经常传播他的对手，现任美国总统乔·拜登（Frum，2020）的恶意制作的深度假视频。这些视频经过编辑和恶搞，试图嘲笑拜登，但随着更多特朗普的支持者甚至在2020年美国大选前的关键日子里观看和分享视频，这些视频在宣传拜登的形象方面具有适度的效果，至少对一些人来说是这样如果不加以控制，deepfakes可能会造成混乱。然而，Deepfakes也可以产生积极的影响，因为它们可以用来创建声音和基于AI的个性，以帮助盲人。也可以在不重新拍摄的情况下重新创建和更新电影中的场景，这在保留遗产方面特别有用缩写：CNN，卷积神经网络。*通讯作者：印度钦奈安娜大学计算机科学与工程系CEG电子邮件地址：ksantosh1399@gmail.com（S. Kolagati），thenugapriya@gmail.com（T. Priyadharshini），anitav@annauniv.edu（V. Mary Anita Rajam）。1DFDC数据集。检索自https://www.kaggle.com/c/deepfake- detection-challenge/data。2MLP-CNN0.84 0.83 0.87 0.877CNN-only0.84 0.72 0.74 0.669DFDC数据集。摘自https://www.kaggle.com/c/deepfake-detection-challenge/data。https://doi.org/10.1016/j.jjimei.2021.100054接收日期：2021年6月7日;接收日期：2021年12月12日;接受日期：2021年2667-0968/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据杂志见解期刊主页：www.elsevier.com/locate/jjimeiS. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）1000542Fig. 1. 所提出的系统检测deepfakes的步骤。电影中的演员可能不活着（Westerlund，2019）。但deepfakes的积极应用不足以超过负面应用。微软于2020年9月推出了可用于检测deepfake的最高规格技术，正好赶上美国大选。它被称为视频验证器（Burt Horvitz，2020）工具，它使用FaceForensics++数据集和DeepFake检测挑战数据集，与我们用来训练和测试deepfake检测器的数据集相同。它使用混合发生的深度假的边界，并检测肉眼无法检测到的褪色或灰度元素。然而，deepfake检测仍然是一个很大程度上模糊的兴趣，因为正在进行的大多数研究仍在发展，以便跟上deepfake检测和生成之间的追逐的短暂性质这项工作提出了一种使用多层感知器（MLP）和卷积神经网络（CNN）来检测虚假视频的深度学习方法。图1示出了所提出的系统中涉及的步骤。最初，提供视频作为输入，从视频中提取图像帧。使用面部标志检测器，提取眼睛、鼻子和嘴唇的坐标。使用这些数据，眨眼的次数，眼睛的形状，眼睛、鼻子和嘴唇也被提取。该信息被馈送到MLP模型。同时，预处理阶段将图像转换为数字形式。这被馈送到CNN模型，CNN模型执行特征提取并对提取的特征进行训练。分类阶段，结合MLP和CNN模型的结果可以预测给定视频是否是深度伪造。deepfakes的易用性和可访问性开辟了一个新的社会工程攻击领域，目前的网络安全系统可能无法为之做好准备。由于一切都发生在社交媒体和电子邮件等常规信息渠道上，因此不需要具备特殊的黑客技能来部署基于和围绕Deepfakes的网络安全攻击。攻击者可以创建极具破坏性的视频和音频片段，并勒索金钱，数据或两者兼而有之。Deepfake勒索软件是最近最令人恐惧的网络攻击媒介之虽然打击深度伪造技术具有挑战性，但保持数据安全是可能的。结合网络安全措施和检测方法，阻止Deepfake传播的解决方案完全在传统深度学习和计算机视觉的能力范围内。本文的其余部分组织如下。第二详细介绍了相关的工作.第3详细介绍了拟议的S. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）1000543系统数据集、参数调整、用于评估的指标、进行的实验和获得的结果见第节4.最后，在第5节中给出了结论。2. 相关工作虽然面部交换技术的基础已经存在了相当长的一段时间，但正是人工智能的出现及其可访问性的易用性使deepfake的严重性激增。直到最近才有检测deepfakes的概念，我们详细讨论了一些本节详细介绍了deepfake技术的起源以及在创建和检测deepfake视频领域的现有工作。2.1. 生成deepfakes创建具有良好最终结果的deepfake非常容易，因为无需太多技能即可创建高质量的deepfake。有许多应用程序既可供新手使用，也可供专业人士使用。生成deepfake的应用程序基于深度学习技术，因为它们能够表示降维和图像压缩所需的复杂和高维数据自动编码器和生成对抗网络（GAN）是两种广泛用于创建deepfake的技术一些作品，如FakeApp（FakeApp 2.2.0，2021），DeepFaceLab（DeepFaceLab，2021），DFaker （ DFaker ， 2021 ）和 DeepFake-tf （基于张量卷积的deepfakes）（DeepFake-tf，2021）都使用了自动编码器。虽然生成对抗网络（GAN）（Goodfellow et al.，2014年）和变分自动编码器（VAE）（Kingma&Welling，2013年）被广泛用于各种应用，如生成图像（Aggarwal，Mittal& Battineni，2021年），所生成的图像模糊且易于识别。 Karras 等人（ Karras ， Aila ， Laine&Lehtinen，2021）提出了ProGAN，它生成的图像高达1024× 1024像素。基于流的生成模型（ Dinh ， Krueger& Bengio ， 2014 ，2017;Kingma& Dhariwal，2018）也用于生成此类图像。Isola等人提出的通用解决方案（Isola，Zhu，Zhou Efros，2017）生成的图像分辨率相对较低。Wang等人（T.- C. Wang等人，2018）通过使用多尺度发生器和鉴别器来生成，erate图像的分辨率高达2048× 1024像素。该方法被进一步扩展到视频到视频的翻译问题，以及（T.C. Wang等人， 2018年）。2.2. EX射线检测方法Deepfake的质量一直在提高，这给开发随之提高的检测方法带来了更大的浅层分类器使用特征的不一致性来区分虚假和真实的图像或视频。例如，眼睛可能具有缺失的反射和其他细节。牙齿区域也可能具有同样被利用的类似不一致性。面部周围的纹理和颜色，以及从面部区域提取的其他特征（Matern，Riess Stamminger，2021）也用于深度伪造检测。另一方面，深度分类器依赖于这样一个事实，即缩放、旋转或剪切等面部变形技术被用来创建深度假视频，通常分辨率有限。最后，还可以通过CNN模型（诸如VGG16（Simonyan&Zisserman，2021），ResNet50 ， ResNet101 和 ResNet152 （ He ， Zhang ， Ren& Sun ，2016）。Y. Li等人开发了一种深度学习方法来检测基于这些模型的deepfakes （ Li& Lyu ， 2019 ）。 Darius 等人（ Afchar ， Nozick ，Yamagishi Echizen，2021）也使用深度学习和SVM分类器。Nguyen等人（Nguyen，Nguyen，Nguyen，NguyenNahavandi，2019）讨论了深度学习如何用于创建和检测deepfake。&眨眼也用于检测深度伪造（Li，Chang Lyu，2021）。Deepfake算法通常使用在线提供的面部图像进行训练，这些图像通常让人睁着眼睛。由于以下解决方案解决了特征提取和与之相关的约束，因为这是大多数检测deepfake方法的重要步骤。Lewis等人描述了一种深度学习方法，该方法使用多模态网络来组合空间、频谱和时间不一致性（Lewis等人，2020年）。他们还使用离散余弦变换来改进deepfake检测。Wodajo和Atnafu（Wodajo& Atnafu，2021）提出了一种方法，该方法使用卷积神经网络来提取可学习的特征，然后将其作为输入提供给视觉Transformer ，视觉 transformer将它们排序为像素以进行检测。在Burroughs等人的解决方案中（Burroughs，Gokaraju，Roy Khoa，2020），用于帧提取的离散小波变换（DWT）结合卷积神经网络用于检测深度伪造。Jafar，Ababneh，Al-Zoube和Elhas- san（2020）提出了一种使用MoviePy从输入视频中排除无关图像的解决方案，以便仅关注具有特定特征的图像，在这种情况下是嘴部区域。一些解决方案还采用偏离基于深度学习的方法的方法。Haya和Khaled（Hasan Salah，2019）提出了一种使用区块链和智能合约来打击deepfake视频的方法。在Asnani，Yin，Hassner和Liu（2021）中，Facebook AI揭示了一种通过从deepfake图像中逆向工程生成模型来检测deepfake的方法。它通过拾取生成模型留下的图像指纹来工作，这些指纹是唯一的，并且能够识别生成模型。Fernandes等人阐述了一种基于属性的置信度矩阵，该矩阵使用特征上的属性来决定输入视频是否是假的（Fernandes等人，2020年）。在Sethi，Dave，Bhag-wani andBiwalkar（2020）中，探索了一种更跨学科的方法，其中使用AES加密算法加密的半脆弱二进制水印被放置在面部的一般区域周围，使用Haar特征提取滤波器检测。然后在检查真实性时提取并解密该水印。3. 材料和方法在我们的解决方案中，我们使用了两个神经网络，多层感知器（MLP）和卷积神经网络（CNN）。如图1所示，使用面部特征点检测从视频的图像帧中提取的结构化数据作为MLP的输入视频的图像帧直接输入CNN进行自动特征提取。MLP和CNN的输出被组合在一起，并链接到一个完全连接的神经层和一个激活层，这给出了最终输出。本节详细介绍了所提出的用于将视频分类为假视频或真视频的混合系统。3.1. 帧提取和人脸标志点检测输入视频首先被分割成图像帧。对于每个图像，识别面部区域。从人脸区域中提取了68个面部标志点的位置（X，y我们使用dlib3库中包含的预训练面部标志检测器。该地标检测器使用回归树的集合从图像的像素强度估计面部&方法来检测视频中的面部篡改。Yang等人（Yang，Li Lyu，2019）提出了一种使用不一致的头部姿势来发现深度伪造的方法。他们使用3D头部姿势估计3Dessa数据集。取自https://github.com/dessa-oss/ DeepFake-Detection。S. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）1000544||||21−��43.2. 眼睛眨动检测Deepfake需要更高的复杂度才能不影响眨眼，因为大多数业余Deepfake要么没有眨眼，要么快速不自然地眨眼。该步骤检测帧中的人的眨眼序列从面部特征点中，提取眼睛坐标（所提取的面部特征点的列表中的点37 眨眼检测器是基于计算Soukupová和Čech（Soukupová Čech，2016）引入的眼睛纵横比（Em）&。眼睛由6个（X，y）坐标表示，从眼睛的左角（p1）开始，然后标绘点（p2，p3，p4，p5，p6）从p1顺时针方向。使用公式1中给出的这些点计算Δ kReLu对于所有正值都是线性的，对于所有负值都是零。这使得计算成本低廉，训练时间更短它也收敛得很快我们使用一个热编码将“假”和“真”的分类表示MLP的输出层使用功能Keras API的级联层与CNN模块的输出层级联。MLP架构如图所示。二、3.5. 卷积神经网络在第一步中从视频中提取的图像帧被转换为数值数据（NumPy数组）。每幅图像都进一步重塑为224× 224× 3的大小，以便进行更简单的处理以及标准化目的。与图像帧有关的数据被馈送到卷积神经网络。一个进步的元组-�� 为||��2 − ��6|| 3 − 5||��3 −��5||（一）更大的滤波器（16，32和64）作为参数输入，使得网络可以在每一步中学习更多的区分特征CNN的当眼睛睁开时，θ的值保持恒定，但当眨眼发生时，θ的值下降到零。如果平均值为如果在固定数量的连续帧（ EYE_AR_CONSEC_FRAMES ）中两只眼睛的眨眼次数小于阈值（EYE_AR_THRESH），则眨眼次数递增1。在本工作中，我们分别为EYE_AR_THRESH和EYE_AR_CONSEC_FRAMES使用了0.3和3的值。3.3. 形状特征从面部标志检测器提取诸如眼睛、嘴唇和鼻子坐标的特征从眼睛中提取特征的动机是记录在大多数deepfake视频中发现的面部交换技术所引入的广泛变化的眼睛形状。我们发现，在真实视频中，主体的眼睛形状基本保持一致。当视频以多种方式被篡改以使其伪造时，情况并非如此。类似地，大多数面部不一致发生在嘴部区域周围，包括面部扭曲。不同的嘴唇形状也是由deepfake操作造成的。因此，我们的目标是利用帧间面部特征形状的不一致性来训练我们的分类器。从面部界标提取的眼睛坐标（点37-46）作为眼睛形状检测器的输入给出。左眼端点之间的欧几里德距离（d1）和右眼端点之间的欧几里德距离（d2）由眼睛形状检测器计算。从面部标志提取的嘴唇坐标（点49找到内唇坐标之间的欧几里得距离，以获得内唇的长度（d3）。类似地，找到外唇坐标之间的欧几里德距离以获得外唇的长度（d4）。从面部标志提取鼻子数据（点28通过计算鼻底边缘之间的欧氏距离（d5），得到鼻底宽度。类似地，找到鼻子顶部的边缘之间的欧几里得距离（d6）以获得鼻子的顶部宽度因此，提取的形状特征是双眼的宽度（d1，d2）、外唇坐标和内唇坐标之间的距离（d3，d4）以及鼻子的顶部宽度和底部宽度（d5，d6）。3.4. 多层感知器眨眼的次数和在前面步骤中提取的形状特征首先被归一化，然后作为MLP的输入。因此，总共七个特征被馈送到MLP。MLP是一个简单的，分层的神经网络与激活功能。在这项工作中，MLP由两层组成（图1）。（ 2）：由CONV=> BNU=> BN=> POOL铺设的多次迭代组成。除了密集连接的层之外，还包括多个层。我们重新添加下一层，并添加一个完全连接的层以及适当的Batch Normalization和Dropout函数。这样做是为了提高训练过程的效率，并使模型能够更好地泛化。最后，添加一个全连接层来匹配来自多层感知器的节点。3.6. 级联层CNN模块的输出与MLP模块的输出连接在一起。像MLP一样，CNN也是完全连接的。MLP和CNN的输出一起合并到两层的最终集合。第一个是具有ReLu激活函数的全连接层，然后是具有sigmoid激活函数的另一个密集层。所提出的工作的不同层如图所示。二、4. 实验结果4.1. 数据集描述我们使用了从Deepfake Detection Challenge获得的数据集中的249个视频，其中199个视频是假视频，53个视频是真实视频。每个视频都是10秒长。为了平衡真实和虚假视频的数量，我们还使用了来自Dessa的YouTube数据集中的66个视频。因此，我们总共使用了318个视频，其中199个是假的，119个是真的。4.2. 参数设置cv24库和dlib库共同用于从视频中提取帧和面部标志检测。从视频中大约有3114帧，包括2189个假视频帧和925个真实视频帧。我们将帧分成60/20/20的分割，分别用于优化器设置为Adam，学习率为1 e-3，衰减为1 e-3/50。4.3. 业绩评价指标通过计算准确度和分析ROC曲线，在测试集上评估了所提出的架构的分类性能正类被指定为真阳性（TP）是指被分类器正确标记为假的假视频帧的总数。真阴性（TN）1 带有ReLu（激活）的全连接（密集）输入层。2 一个完全连接（隐藏）的层，也有ReLu（激活）。4Dlib C ++库。检索自http://dlib.net/S. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）1000545图2. 建议的架构图显示了CNN和MLP模型的级联。是指被分类器正确标记为真实的真实视频帧的总数。假阳性（FP）是指被分类器错误地标记为假的真实视频帧的总数。假阴性（FN）是指被分类器错误地使用这些值，准确度（正确预测的分数）计算如下：=++++受试者工作特征（ROC）曲线是假阳性率（X轴）与真阳性率（y轴）的曲线图它在我们的案例中很有用，因为考虑模型以什么速率运行很重要。将假视频识别为真视频，将真视频识别为假视频，因为两者都不利于模型的可信度。4.4. 绩效评价该模型使用Adam学习率调度器训练了40个epoch。据观察，如果模型运行更多的时期，它就会开始过度拟合。该分类器使用随机下载的真实S. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）1000546表1两种模型的性能评价CNN-only0.84 0.72 0.74 0.669图三. 模型精度（MLP-CNN）。见图4。模型损失（MLP-CNN）。和YouTube上的Deepfake视频。分类器在大多数情况下预测正确，尽管在某些情况下它失败了。这将在限制部分进一步讨论。图3显示了模型准确度，图4显示了模型损失，其中橙色线表示训练准确度和损失，蓝色线表示验证准确度和损失。ROC曲线如图所示。五、根据ROC，确定另一由于使用的数据集是不平衡的，AUC是一个很好的指标。该模型的AUC得分为0.87，这意味着该模型有87%的机会正确标记假视频。出于比较的目的，我们构建了另一个deepfake模型，该模型只具有CNN架构，不考虑输入到MLP中的面部特征数据。结果发现，这种信息的缺乏大大恶化了模型的性能。图6显示了模型的准确性和图。 7显示了仅CNN模型的模型损失，橙色和蓝色线分别表示训练和验证。该仅CNN模型的ROC曲线如下图8所示。AUC得分为0.669，我们可以量化模型在没有输入到MLP网络的提取面部特征的情况下表现出较差的性能图五、受试者工作特征（ROC）曲线（MLP-CNN）。见图6。模型精度（仅CNN）。在表1中，我们列出了两种模型的准确性及其AUC评分。需要注意的一点是，在仅CNN架构的情况下，模型过拟合要早得多，并且性能很差这就是为什么该模型的训练准确率为84%，但在测试过程中准确率下降到74%的原因。因此，AUC分数是模型性能的更好指标我们还想提到训练模型所花费的时间。对于1992个图像帧的训练样本大小（相当于199个视频，每个视频的持续时间约为10秒），我们的混合模型需要280秒（4.6分钟）在Google Colab提供的Tesla K80 GPU上进行训练。因此，我们的模型以相对较快的训练速率提供了高性能，尽管其训练样本有限。模型训练准确度（%）验证准确度（%）测试准确度（%）AUC分数MLP-CNN0.840.830.870.877S. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）10005470.750.650.550.450.350 5 10 15 20 25 30 35见图7。模型损失（仅CNN）。为了提高我们模型的准确性，我们需要进一步改进。首先，我们发现，当我们的模型面对深色面孔时，它会变得更加笨拙。我们希望这将鼓励对其他计算机视觉技术的探索，以改善对黑暗面孔和在黑暗环境中丢失的面孔的检测，并有助于关于使用智能机器所涉及的偏见和道德问题的整体公众讨论（Akter等人，2021; Coombs等人，2021年）。其次，有更多模糊的方法来检测深度伪造，例如颜色分割，以改善视频本身中的面部扭曲和噪声模式干扰。将这些技术与当前模型相结合，以构建更全面的deepfake检测器，这将是有趣和有帮助的5.2. 对实践的影响Deepfakes只会加剧当前的社会和政治问题，甚至会破坏社会的基础。因此，迫切需要打击deepfake的兴起，特别是那些将以恶意方式使用的deepfake。随着政府和企业逐渐采用面部识别技术作为身份识别手段，像我们这样的deepfake检测模型可以用作额外的验证层，以防止欺诈和身份盗窃。这项研究也将是非常宝贵的执法机构，因为它可以用来验证视觉证据的真实性。值得注意的是，deepfakes的问题在假阳性和假阴性都是有害的意义上是独特的。到目前为止，我们已经考虑过将假视频标记为真实视频，但在信息视频或新闻质量视频的情况下，将真实视频标记为假视频也同样具有破坏性。因此，由于deepfake可以被用来诽谤，欺骗或欺骗人们的方式繁多，deepfake检测工具将非常有用在打击这些不同的情况。这种情况的一个例子可能是工作场所的压迫，这可能是由于使用deepfakes而引起的，如Young，Majchrzak和Kane（2021）所述。在工作场所环境中使用deepfake检测工具可能有助于加快验证证据的过程，从而有助于更快地解决员工纠纷。因此，我们的研究至关重要，因为它为利益相关者提供了一种针对deepfake采取积极措施的手段5.3. 限制所提出的系统支持一些限制。由于本项目图8. 受试者工作特征（ROC）曲线（仅CNN）。5. 讨论deepfake材料的产生和扩散只会在未来变得更具竞争力，并且更有害。在一个快速适应技术进步，但社会和结构变化缓慢的世界里，Deepfake的影响有可能是灾难性的。即使在我们开发解决方案来打击deepfake的兴起和传播的同时，同样感兴趣和有能力的各方也在开发方法来生成越来越逼真的，有时甚至完全令人信服的StyleGAN生成的“假人类”图像（Karras等人，2020; Karras，Laine& Aila，2019）。在本文中，我们提出了一种这样的方法来暴露人工智能生成的深度伪造视频，希望它能帮助其他安全验证过程阻止深度伪造材料造成不可挽回的损害。5.1. 理论意义本文介绍了一种独特的方法，直接利用人脸数据，而不是特征提取。这可以在未来的模型中考虑，因为我们已经在短时间内对非常小的样本实现了良好的准确性。还有各种其他方向，本文可以由于对计算资源的访问有限，我们无法利用整个DFDC数据集。虽然本文的目标是提供一种新方法，而不是击败现有的深度伪造检测系统的性能标准，但未来的工作可以将所提出的系统扩展到更大的数据集以确保完整性。所提出的系统在低光条件或黑暗环境中检测人脸时也表现不佳此外，该系统没有考虑帧中有多个人的视频，尽管这在未来可以6. 结论和今后的工作在这项工作中，我们提出了一种新的方法来暴露AI生成的deepfake视频，结合结构化和非结构化数据。我们的方法是基于这样的观察，即这种深度伪造是通过将合成的面部区域拼接到原始图像中来创建的，并且在这样做的过程中，引入了在真实视频中通常不会发现的错误，例如不正确的眼睛，嘴唇和鼻子位置虽然现有的方法专注于使用深度神经网络直接从视频帧中提取面部特征，但它们并没有直接调查跨帧的差异在本文中，我们提出了一种将这些信息的知识（输入到MLP）与CNN的强大特征提取相结合的方法。所提出的方法表现出84%的准确性和AUC得分为0.87，尽管训练的一个小的数据子集虽然S. Kolagati，T. Priyadharshini和V. Mary Anita RajamInternational Journal of Information Management Data Insights 2（2022）1000548isn’t a comprehensive detection tool, we believe that the proposed hy-这项工作的未来范围可以是找到扩大模型可以准确检测的人的范围的方法，颜色，以确保公平和减少偏见。同样值得考虑的是，以可接受的混合方式灌输更多的空间和时间面部数据。此外，有必要在更广泛，更平衡的数据集上测试改进的模型。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。引用Afchar，D.，Nozick，V.，Yamagishi，J.，越前岛（2021年）。MesoNet：一个紧凑的面部视频伪造检测网络。 2018 IEEE 信息取证与安全国际研讨会 doi ：10.1109/WIFS.2018.8630761。Aggarwal，A.，Mittal，M.，&巴蒂内尼湾（2021年）。生成对抗网络：理论与应用概述。International Journal of Information Management Data Insights ， 1 （ 1 ）， Article100004. 10.1016/j.jjimei.2020.100004。Akter，S.，McCarthy，G.，Sajib，S.，Michael，K.，Dwivedi，Y.K.，等人（2021年）。人工智能时代数据驱动创新的学术偏见。国际信息管理杂志，60，文章102387。10.1016/j.ij3infomgt.2021.102387。Asnani，V.，Yin，X.，Hassner，T.，Liu，X.（2021）.逆向工程的生成模型：从生成的图像中推断模型超参数， ArXiv ： 2106.07873 [Cs] ，http://arxiv.org/abs/2106.07873（2021年8月23日访问）。伯恩斯，K。（2020年）。乔·拜登的欺骗性编辑视频说明了2020年的一个大问题，Vox，1月2日，可在：https://www.voX.com/policy-and- politics/2020/1/2/21046605/joe-biden-viral-video-deceptive-edit（访问日期：2021年8月16日Burroughs，S.J.，戈卡拉朱湾，Roy，K.，科阿湖（2020年）。视频中的DeepFakes检测在深度学习卷积神经网络框架中使用特征工程技术。在2020年IEEE应用图像模式识别研讨会（AIPR）（pp。1 IEEE。10.1109/AIPR50011.2020.9425347。伯特，T.， &Horvitz，E. （2020年）。打击虚假信息的新举措。微软在这些问题上。9月1日可在https://blogs.microsoft.com/on-the-issues/2020/09/01/disinformation-deepfakes-newsguard-video-video 上查看。生效日期：2021年8月16日。库姆斯，C.，Stacey，P.，Kawalek，P.，Simeonova，B.，Becker，J.，Bergener，K.，等人（2021年）。人类有什么是我们不能交给智能机器的从欧元区的角度来看。国际信息管理杂志，58，文章102311。10.1016/j.ijinfomgt.2021.102311。DeepFaceLab.（2021年）。检索自https://github.com/iperov/DeepFaceLab。DeepFake-tf：基于张量流的Deepfake。（2021年）。摘自https://github.com/StromWine/DeepFaketf。DFaker。（2021年）。检索自https://github.com/dfaker/df。丁湖， Krueger ， D. ， &Bengio ， Y. （ 2014 年）。 NICE ： Nonlinear IndependentComponents Estimation非线性独立成分估计。2015年国际学习表征会议arXiv预印本arXiv：1410.8516v6。丁湖，Sohl-Dickstein，J.，&Bengio，S.（2017年）。使用Real NVP进行密度估计。2017年学习表征国际会议arXiv预印本arXiv：1605.08803。FakeApp 2.2.0.（2021年）。检索自https://www.malavida.com/en/soft/fakeapp/。Fernandes， S. ， Raj ，S. ，埃韦茨河Pannu ， J. 美国，Kumar Jha ， S.， Ortiz ， E.，Salter，M.（2020年）。使用基于属性的置信度度量检测deepfake视频。在2020年IEEE/CVF 计算机视觉和模式识别研讨会（ CVPRW ）上， 1250-1259 ）。 IEEE 。1 0 . 1 1 0 9 /CVPRW50498.2020.00162。Frum，D.（2020）.特朗普的深度假的非常真实的威胁deepfake/610750/访问日期：2021年8月古德费洛岛J. 供稿：Pouget-Abadie，J. ，Mirza，M. ，Xu，B. ，Warde-Farley，D. ，Ozair，S. ，&Bengio，Y.（2014年）。生成对抗网。在第24届神经信息处理系统国际会议论文集：2（pp。2672-2680）。Hasan，H. R.，&Salah，K.（2019年）。使用区块链和智能合约打击Deepfake视频。IEEE访问：实用创新，开放解决方案，7，41596-41606。10.1109/ACCESS.2019.2905689.他，K.，张，X.，Ren，S.，&Sun，J.（2016）.深度残差学习用于图像识别。在2016年IEEE计算机视觉和模式识别会议上，770-778）。Isola，P.，Zhu，J.-是的，Zhou，T.，Efros，A.A. （2017年）。图像到图像的翻译与con-course 对抗网络。在 2017 年 IEEE 计算机视觉和模式识别会议上， 5967-5976）。10.1109/CVPR.2017.632。Jafar，M. T.，Ababneh，M.，Al-Zoube，M.，&Elhassan，A.（2020年）。Deepfake视频的取证和分析。第11届信息与通信系统国际会议（ICICS）053-058）。IEEE。10.1109/ICICS49469.2020.239493。Karras，T.，Aila，T.，Laine，S.，&Lehtinen，J.（2021）. GAN的逐步增长，以提高质量，稳定性和变化。2018年国际学习代表大会。Karras，T.，Laine，S.，Aila，T.（2019年）。一种基于样式的生成器架构，用于生成对抗网络。在2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）上，4396-4405）。10.1109 /CVPR.2019.00453。Karras，T.，Laine，S.，Aittala，M.，Hellsten，J.，Lehtinen，J.，&Aila，T.（2020年）。StyleGAN图像质量分析与改进IEEE/CVF计算机视觉与模式识别会议（CVPR）。8107-8116）。10.1109/CVPR42600.2020.00813。Kazemi，V.，&Sullivan，J.（2014）.一毫秒人脸对齐与回归树的集合。在2014年IEEE计算机视觉和模式识别会议上，（1867-1874）。10.1109/CVPR.2014.241。金玛，D.P.，Dhariwal，P.（2018）.Glow：具有可逆1X 1卷积的生成卷积选择。arXiv预印本arXiv：1807.03039v2。Kingma，D. P.的人，&Welling，M.（2013年）。自动编码变分贝叶斯。2014年国际学习表征会议arXiv预印本arXiv：1312.61

下载后可阅读完整内容，剩余1页未读，立即下载