虚假视频检测的DFT-MF深度学习方法和软件实现

194 浏览量更新于2024-01-27 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

软件X 19（2022）101115原始软件出版物DFT-MF：使用嘴部运动和迁移学习增强的deepfake检测Ammar Elhassana，Mohammad Al-Fawa' rehb，Mousa Tayseer Jafara，Mohammad Ababneha，Shifaa Tayseer Jafaraa约旦苏马亚公主技术大学约旦耶尔穆克大学ar t i cl e i nf o文章历史记录：2021年12月4日收到收到修订版，2022年5月3日接受，2022年关键词：虚假视频检测深度学习迁移学习Deepfake操作a b st ra ctDeepfake技术带来了严重的网络安全挑战，随着易于访问的应用程序的可用性，这些挑战变得更加普遍。一种有效的检测和预防方法是必要的。本文介绍了一种强大的方法和软件实现来检测使用深度学习技术构建的虚假视频，该技术依赖于利用牙齿和嘴巴运动作为区别特征，这些特征在伪造视频时仍然很难完美。与同类方法相比，该方法具有更高的检测效率和准确性.本文中的工作是以前工作的扩展，介绍了多迁移学习方法的主要概念，包括DenseNet121，DenseNet169，EfficientNetB0，EfficientNetB7，InceptionV3，MobileNet，ResNet50，vgg16，vgg19和Xception，以增强算法©2022作者（S）。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-21-00234可复制胶囊的永久链接https://github.com/MousaJafar/DFT-MF.gitGNU通用公共许可证（GPL）使用Windows 10的代码版本控制系统软件代码语言、工具和服务使用Python汇编要求、操作环境和依赖关系如果可用，请链接到开发人员文档/手册https://github.com/MousaJafar/DFT-MF.git支持电子邮件以了解问题1. 介绍使用利用人工智能和深度学习算法的应用程序创建的假视频变得更加逼真，更具挑战性，难以检测[1]。对识别此类视频的技术的需求已经变得迫切，影响各行各业的重大挑战，特别是随着这些媒体在社交媒体平台上的快速传播和扩散[2]。∗通讯作者。电子邮件地址：a. psut.edu.jofawareh@yu.edu.jo（Ammar Elhassan），mou20178003@std.psut.edu.jo（Mohammad Al-Fawa' reh），psut.edu.jo（MousaTayseer Jafar），m. ababneh@www.example.com（Mohammad Ababneh），shifaa. gamil.com（Shifaa Tayseer Jafar）。https://doi.org/10.1016/j.softx.2022.101115人脸具有标记和特征，例如基本结构的位置：眼睛，嘴巴，脸颊和耳朵，它们彼此独特地定义。神经网络合成算法尚未达到保证原始人脸和假人脸具有100%一致的面部标记的阶段[3]。下面的列表给出了一些有助于开发Deepfake视频检测工具的最基本的要点- 用于检测虚假视频的工具数量非常少。- Deepfake视频的准确性和质量并不高，但未经训练的眼睛很难检测到虚假视频，因为它们看起来非常真实。2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxAmmar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011152Fig. 1. 创建Deepfake视频。- 人工智能和深度学习的开发和技术访问在这些视频的创作和传播中发挥了相当大的作用。- 网上有大量的潜在受害者的图像，可以帮助创建Deepfake视频。挑战在于如何可靠有效地检测Deepfake视频2. 创建Deepfake视频本文的重点是使用口腔和牙齿作为生物信号来检测Deepfake视频;这是一种以前不常用的新方法。如前所述，深度伪造视频的过程人类依靠眼睛作为周围环境和信息的主要传感器人们不断地分析他们周围的世界，没有意识的努力;他们对他们所看到的一切做出预测，并据此采取行动。当他们看到一些东西时，他们会根据过去学到的东西对每个物体进行分类。卷积神经网络技术与人脑中的神经元之间存在显着的相似性;它们旨在模拟人脑执行各种复杂任务的方式[4]。Deepfake算法依赖于两个部分;首先，编码器过程通过在初始（输入）层将数据通过编码过程来减少特征的数量。在第二，解码器部分的过程中，新的（更小的变量）集用于生成与原始一致的新输出。从实践的角度来看，这个过程的关键功能是在编码过程中在两侧之间切换属性[5]。图1说明了这个过程。Deepfake 算法和随后的应用程序的可用性已经将创建Deepfake视频的能力置于几乎没有或没有编程和机器学习经验的新手用户的范围内具体而言，这些方法将另一个人的脸，同时保持最初的人的面部表情表1有一些常见的工具来创建Deepfake视频，如附录a所示。3. 相关工作图像和视频的内容通常只对专家来说是一个复杂的、具有挑战性的主题，这使得分析图像以理解和分析其内容变得非常困难为了充分利用图像数据，需要专业算法来显示、分析和理解图像。智能手机上的神经网络应用程序设置使许多爱好者和那些意图引起恶意的人可以访问这个主题。对该领域相关工作的分析和研究见附录a。4. 方法在这一部分中，我们将描述一种新的方法来检测虚假视频，该方法依赖于使用深度学习技术，可以在训练基于CNN模型的算法后观察到。我们将重点关注在合成的假视频中没有很好呈现的生理信号。牙齿往往表现为一个单一的质量，白色区域，几乎没有定义;这是可以使用的漏洞之一来检测假视频我们设计并实现了一个具有嘴部特征的深度虚假检测模型（如图所示的DFT-MF）。 2）的情况。DFT-MF模型完全依赖于面部图像，特别是张开的嘴显示牙齿，我们将消除所有不适用的图像，这节省了时间和精力，与其他基于从视频中提取图像并随后在这些图像中发现面部区域的算法相比。一般来说，视频是以每秒特定帧播放的图像帧序列。每个视频都有特定的属性，如持续时间，每秒帧数（fps）。我们将描述检测Deepfake视频的方法，并将应用多种迁移学习方法来分类假视频和真实视频。图图3更详细地示出了DFT-MF的所有步骤。DFT-MF方法取决于牙齿，特别是在张开嘴的帧中，因为Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011153×图二. 我们的方法。表1Deepfake视频数据库数据库房Deepfake总视频视频帧割嘴视频帧割嘴Celeb-DF 14081754011356427953128772144451203Deepfake TIMIT32034023240973203402322586640UADFV49173291413849169911300798总77722675317387711643638912500381941显示真实牙齿的帧和显示由deepfake算法创建的牙齿的帧。此外，当数据中的特征具有不同的范围时，我们使用在数据准备期间使用的归一化方法来使用公共尺度更改数据集中的数值列的值归一化简化了模型的学习过程，改善了优化问题的条件，从而加快了随机梯度下降的收敛速度这导致了更高的学习率结果，而没有发散的风险。4.1. 步骤1：数据收集数据收集是任何研究的一个重要方面。人类大脑需要输入单元将其与外部世界连接起来，输入来自人类的五种感官。神经网络也需要输入单元来处理数据.这些输入单元称为数据集。数据收集是一个从各种来源收集信息以生成Deepfake视频数据集的过程。三个主要的数据集将被用来检测Deepfake视频。本文中的工作依赖于三个数据集：（i）我们在Deepfake数据集一节中简要解释的 Deepfake Vid-TIMIT 数据集，（ ii ）Deepfake取证（Celeb-DF）数据集和（iii）UADFV数据集。在所有后续工作中，每个视频都将提取其所有图像帧。从Deepfake取证（Celeb-DF）数据集开始[6]，这是一个从一开始就创建的新数据集，旨在开发和评估用于deepfake视频检测的方法和算法。该数据集的目的不仅在于减少在当前数据集中可见的伪影（诸如与面部区域的近区域的颜色差异、面部区域的颜色差异）。篡改帧的低质量和可见边界），而且还可以获得高精度的方法检测deepfake。虽然在[6]中与Celeb-DF进行比较的四个数据集另一方面，在Celeb-DF上进行评估时，deepfake检测方法的准确率没有达到55%以上;这意味着并非所有的deepfake检测方法都具有高准确率。Celeb-DF数据集包含高质量的合成所有的deepfake视频都是每秒30帧，平均长度为13秒。该数据集中的视频通过将额外的卷积层纳入解码器并随后创建每个具有256 × 256像素分辨率的假面部图像，从而促进了对原始自动编码器机制的因此，具有高精度的合成面部变得更接近真实，因此它与真实面部之间没有差异。目前可用的假视频数据集是基于真实人脸和合成人脸之间的颜色对比度，这是识别假视频的重要特征。这通常是由在训练算法时参考的原始和目标面部之间的对比度/亮度和颜色的差异引起的Celeb-DF数据集通过在训练阶段随机改变输入图像的颜色失真、照明、锐度来对训练数据进行预处理。这增加了训练数据的基数，并解决了主数据集中存在的颜色矛盾问题为了识别检测到的面部标志中的各个区域，现有数据集应用窄掩模。在拟合此遮罩的边缘时出现的任何错误都将增加底层中原始面的可见边缘。Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011154××图三. 详细介绍了DFT-MF模型。Celeb-DF数据集通过适当的因子对第一个面具应用放大过程，以获得更适合受害者面部的非矩形，更平滑的面具Celeb-DF数据集是用时间方差来处理的，时间方差是由于现有数据集中原始人脸和受害者人脸之间的颜色不匹配而出现的两段视频中面部标志的不同位置时间变化已经减少，看起来更真实，更接近真相。第二个数据集是Deepfake Vid-TIMIT数据集[7]和[8]，它是为了开发能够检测deepfake视频的系统而构建的。数据集设计者发现，现有方法不符合要求的目的，因为它们在应用于该数据集时获得了不可接受的结果，这是该数据库开发背后的主要驱动力。现有的数据集是从Snapchat视频和Face2Face应用程序中生成的。然而，在deepfake现象出现之后，这些数据集都不足以检测到它。Deepfake Video-TIMIT数据集分为两部分：第一，低质量（LQ）模型，其从尺寸为64 64包含来自每个人的视频的大约200帧和来自原始视频的每秒4帧。图四、 68 Face Landmarks的照片其次，高质量（HQ）模型包括大小为128 128的图像，并且以每秒8帧的速度达到近400帧。使用（GAN）生成对抗网络，生成了320个VGG [9]和Facenet[10]神经网络算法都用于分析Video-TIMIT数据集，旨在检测深度伪造视频，评估检测方法，并分析低质量和高质量视频中语音-嘴唇运动的不一致性。最后一个数据集[11]，UADFV，是一组Deepfake视频及其可比的真实视频[2]。这个数据集是由49个真实视频和49个来自YouTube的deepfake视频构建的。此外，这些视频的长度在12秒左右。表1包含本文中使用的视频数量以及裁剪嘴部区域之前和之后的帧数。4.2. 步骤2：预处理收集的数据不能直接用于执行分析过程;预处理是我们工作中的重要阶段和关键步骤，以实现更高的准确性，高性能，更强大和更稳健的结果。预处理是一种用于将收集的不干净数据转换为干净数据集的技术。人脸检测是我们工作中必不可少的一步，因为deepfake检测方法集中在图像中的人脸人脸检测是一种计算机视觉技术，能够识别数字图像中的有时图像包含其他物体，如建筑物，汽车和动物，而不是人脸。大多数deepfake检测方法使用Dlib classi- fier库[13]来检测面部标志并裁剪面部区域。我们将使用Dlib库，除了使用人脸检测算法，使我们的算法更准确和稳定。这将使我们的工作与其他只使用Dlib的方法区分开来。为了检测图像中的人脸，有68个点是通过训练形状预测器获得的，该预测器通过应用专门针对该任务的预先训练的对象检测器来工作人脸检测或使用深度学习算法进行人脸定位的方法，如图所示。四、通过这些方法，Dlib Face Landmarks检测器使用表示面部边界来创建形状对象Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011155表2面部结构坐标。结构坐标嘴四十九、六十八眉毛-右侧十八，二十二左眉毛二十三，二十七右眼三十七、四十二左眼四十三、四十八鼻子二十八，三十六钳口1、17图五. 样本张开嘴。68分。其由图像内的面部界标区域的（x，y）坐标确定。该算法估计上面的（X，Y）坐标的位置，该坐标被绘制到特定的面部元素。表2示出了面部结构坐标的分布。在我们提出的方法中，深度学习将与人脸训练一起使用，以提高准确性。该方法可以准确地确定任何图像中的人脸区域，并且还可以检测嘴巴是张开还是闭合。它是一种高速检测方法，用于检测图像中任何位置的任何人脸[14]。最后，将第二种和第三种方法相结合，以获得具有绝对精度的面部区域，并建立一个模型，避免了用于面部检测的其他各种模型中出现的错误该组合方法将图像分类为包含张开的嘴的图像和包含张开的嘴的图像，见图6。样品的口闭合。见图7。嘴巴坐标。此外，它将被视为判断视频的一种措施。第一种技术是使用嘴部纵横比（MAR）来裁剪嘴部。这种方法被认为是截断张开嘴的常用方法，并且由于其易于使用而成为最常用的方法，以确定嘴的面积[15]。它是基于嘴的长宽比的概念，这是计算的基础上所示的方程被口分为三个纵向部分和一个水平部分。纵向部分是（p51和p59），（p52和p58），（p53和p57）和（p49和p55）是水平部分。|+的|P52 − P58|+的|P53 − P57|P 53 − P 57|它有一个封闭的嘴。这将减少用于发现过程。它减少了无关图像的数量MAR=3∗ |P 49 − P 55|（一个）不包含人脸或不包含张开的嘴，通常将处理的视频大小减少到不到一半。这将减少时间消耗，并在我们的方法中产生高精度。图图5含有张开嘴的样品，而图5含有张开嘴的样品。 6装有样品，口部闭合。这两种方法在我们的方法中都得到了4.3. 步骤3：裁剪嘴区域我们的方法专注于基于嘴部区域，特别是牙齿来发现假视频和真视频。深度学习被训练来识别所需的帧，这将成为视频分类的标准和基础。为了完成这项任务，有必要对精确裁剪口部的过程进行探讨。这个过程是我们方法的关键部分之一在本节中，我们将解释从在前一阶段中识别的面部区域提取嘴部区域的两种技术。有必要使用现代和独特的技术来作物这一地区，这将提取特征，将计算代表下唇和上唇之间距离的纵向部分的平均值，以计算（p49和p55）之间的距离。当嘴巴当闭合时，水平部分之间的距离将增加，而纵向部分之间的距离减小。至于张开嘴的阶段，这个过程是在相反的方向进行的。开口导致水平部分减少而纵向部分增加。人的嘴部形状的变化导致为MAR设置的百分比不匹配。因此，裁剪嘴部区域的过程变得百分之百不准确。第二种技术通过计算上唇和下唇的12个点来检测嘴的张开度，如图所示。7 .第一次会议。这些点由两组表示，这两组在所有情况下都是固定的。图7示出了顶部和底部唇缘点。A组包含在嘴部区域中呈现如下的上唇点：[（181，359），（192，339），（211，332），(225，336），（243，333），（271，342），（291，364），（282，363），（242，Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011156√见图8。嘴被割了。见图9。切下的真嘴样本。346），（225，347），（211，345），（188，358）]。 B组包含下唇点如下所示：[（291，364），（270，389），（243，401 ），（223 ，403 ），（207 ，399 ），（190 ，383 ），（181，359 ），（188 ，358 ），（ 210 ，377 ），（225 ， 381 ），（243，380），（282，363）]。它基于来自组A和组B的对应点对之间的比率来计算唇高和嘴高。下面所示的方程用于此。距离=（x1−x2）2+（y1−y2）2（2）该技术将被实现为仅裁剪张开的嘴并移除所有不具有张开的嘴的帧，从而提高准确性，除了减少不必要的帧的数量张开的嘴，清楚地显示了牙齿，将被裁剪在所有的视频，将被检查，以告诉这个视频是假的还是真的。RGB图像由红、绿、蓝三层组成，而灰度图像只有黑、白两层。从视频中提取的图像（帧）具有RGB模式。图像将被转换为灰度模式，其中牙齿看起来清晰，具有良好的对比度和亮度，此外还减少了帧中的颜色数量。图8说明了这一点。图图9包含裁剪的真实嘴的样本，图10包含裁剪的假嘴的样本。见图10。假嘴的样本。4.4. 步骤4：调整图像图像分辨率是宽度和高度像素的数量，视频中的帧具有相同的分辨率，例如（500宽 * 480高）或（620宽 * 540高）。在裁剪阶段，图像的大小将被改变为不同的分辨率，如（47宽 * 50高）或（35宽 * 48高）...等CNN模型为所有帧接收固定数量的分辨率因此，图像尺寸将变为（71宽* 71高度）用作CNN模型的输入。4.5. 步骤5：标记和拆分数据实际上，在深度学习算法中将应用两个阶段，第一阶段是训练模型，第二阶段是测试模型。在训练阶段，典型图像特征的特征属性被隔离，并且创建每个分类类别的唯一描述在随后的测试阶段，这些特征空间分区用于分类图像特征。CNN模型将用于监督学习，这取决于标签数据来快速清晰地教授模型数据将被标记为两类，假图像和真实图像。训练阶段将数据分成70%的帧进行训练，35%的帧标记为真实视频，35%的帧标记为假视频。但在测试阶段，数据将不会被标记以测试模型是否工作良好，并且20%的帧将用于测试，最后10%用于验证。4.6. 步骤6：构建CNN模型并对Deepfake视频进行CNN是一种功能强大的神经网络模型，用于图像和视频分类问题。CNN对于寻找图像中的特征以识别物体、人脸和场景非常有用。它直接从图像数据中学习，使用这些特征对图像进行分类，无需手动提取特征。CNN由六层组成，以降低复杂性并提高训练过程的速度。图图11详细显示了所有这些层卷积层是卷积神经网络的核心构建块，它完成了大部分计算工作。卷积层参数由一组滤波器组成。每个过滤器都很小，但它延伸到整个深度。Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011157见图11。我们的CNN模型的层。图12个。我们的方法在Deepfake Celeb-DF数据集上的比较。输入音量。卷积层是从具有3*3滤波器大小的输入图像池化层通常在卷积层之后使用。当图像太大时，池化层部分减少参数的数量。空间池也称为子采样或下采样，它可以减少维度但保留其重要信息。然而，最大池化使用优先级层中每个神经元簇的最大值。最大池是最流行的池形式。两个最大池化层将使用2*2过滤器大小。全连接层是CNN的重要组成部分，它在识别和分类计算机视觉图像方面非常成功。CNN过程从卷积和池化开始，将图像分解为特征并独立分析。结果提供了一个完全连接的神经网络结构，使最终的分类决定。第一个全连接层从特征分析中获取输入，并应用权重来预测正确的标签。但是一个完全连接的输出层给出了最终的每个标签的概率。全连接层接收来自先前层的神经元的所有输入，并且输出是某个预测类的值。输出值与权值和偏置进行矩阵相乘，最后一层是全连接层，并带有dropout函数，以消除过拟合问题。图13岁我们的方法在Deepfake UADFV数据集上的比较。5. 实验评价在这项工作中，我们应用了包括 CNN ， DenseNet121 ，DenseNet169 ， EfficientNetB0 ， EfficientNetB7 ， InceptionV3 ，MobileNet，MobileNetV2，ResNet50，vgg16，vgg19和Xception在内的多种模型，根据从以牙齿和嘴巴为生物信号的帧中提取的特征来检测虚假视频。在这项工作中，我们计算了我们在DFT-MF模型中使用的每种方法的准确率。另一方面，其他方法是基于AUC性能进行评价的;它们不提供准确率。表3显示了使用优化的CNN和几种类型的迁移学习的方法的准确率。为了提供用于评估和比较我们的工作与AUC方面的其他工作的比较性能指标，我们基于三个数据集评估了这些方法;Deepfake取证（Celeb-DF）数据集，Deepfake Vid-TIMIT数据集和UADFV数据集。VGG 16 在 Deepfake 取证（ Celeb-DF ）数据集上实现了71.29% ， CNN 在 Deepfake Vid-TIMIT-HQ 数据集上实现了73.1%，在无人机数据集上实现了89.7%。表4比较了不同方法的DFT-MF曲线下面积图图12、13和14显示了我们的方法AUC（%）性能之间图图15- 17显示了我们的方法与其他方法AUC（%）性能的比较。Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011158表3DFT-MF的准确度（%）方法精度CNN96.47DenseNet12195.53DenseNet16979.59EfficientNetB070.53高效NetB793.95InceptionV366.78MobileNet88.54MobileNetV288.46ResNet5083.79VGG1661.79VGG1970.92Xception64.45见图14。方法比较- Deepfake TIMIT-HQ数据集。6. 结论本文介绍了一种强大的方法来检测被deepfake算法操纵的视频。所提出的方法使用6层CNN模型，专注于显示牙齿的帧，并通过减少输入视频的大小来提高检测假视频的效率，这导致减少了在调查过程中使用的帧的数量，此外，这减少了在其它方法中通常发现的复杂性。实验表明，该方法比其他方法具有更好的鲁棒性和可靠性. 该研究利用了最新的数据集，包括DeepfakeForensics（Celeb-DF）数据集，Deepfake Vid-TIMIT数据集和UADFV数据集进行评估。使用DFT-MF，我们的方法在Deepfakeforensics（Celeb-DF）数据集上实现了71.29%的准确率，在Deepfake Vid-TIMIT-HQ数据集上实现了73.1%的准确率，在UADFV数据集上实现了89.7%的准确率。CRediT作者贡献声明Ammar Elhassan：概念和设计，数据分析和解释，写作Mohammad图15. 在Deepfake Celeb-DF数据集上比较DFT-MF与其他检测方法。图16. 在Deepfake UADFV数据集上比较DFT-MF与其他检测方法。Al-Fawa'reh：概念和设计，数据分析和解释，写作-原始草稿。Mousa Tayseer Jafar：概念和设计，数据分析和解释，写作-原始草稿。Mohammad Ababneh：概念和设计，数据分析和解释，写作Shifaa Tayseer Jafar：概念和设计，数据分析和解释，写作竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）1011159表4所有方法的AUC（%）性能与我们使用各种方法的结果进行比较方法方法AUCCeleb-DF DeepfakeUADFVDeepfake-TIMIT总部CNN71.2589.773.1DenseNet12165.8967.5953.60DenseNet16963.8983.3950.99EfficientNetB038.6047.7947.79DFT-MF高效NetB761.4049.0952.10InceptionV360.7947.4047.09MobileNet49.7969.5938.50MobileNetV251.9949.7045.19ResNet5038.1946.2951.49VGG1671.2986.1957.59VGG1968.1967.9058.30Xception66.5077.6067.90双流[16]DNN+SVM55.785.173.5[第16话]SVM54.88953.2FWA [17]ResNet5053.897.493.2中分子-4 [18]CNN53.684.368.4[16]第四季CNN49.682.162.7[第16话]多层感知器48.870.262.1[16]第十六话Logistic回归46.95477.3XceptionNet [16]CNN38.780.454.0多任务[6]CNN36.565.855.3图17. DFT-MF与其他方法的比较Deepfake-TIMIT数据集HQ。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2022.101115上找到。引用[1] Jafar MT，Ababneh M，Al-Zoube M，Elhassan A. Deepfake视频的数字取证和分析。2020年第11届信息和通信系统国际会议。2020，第53-8页。http://dx.doi.org/10.1109/ICICS49469.2020.239493.[2]放大图片作者：Kiezmann J，Mills AJ，Plangger K. Deepfakes：对广告和品牌未来“现实”的看法。Int J Advert 2020;1[3]Fakespotter ： A simple yet robust baseline for spottingAI-synthesized fakefaces. 2020年。[4]Qiao K等人，使用双向递归神经网络模拟人类视觉皮层中的双向信息流，从人脑活动中对视觉刺激进行类别解码。13.第十三届中国国际医疗器械博览会[5]Güera D，Delp EJ.使用递归神经网络进行Deepfake视频检测。2018年第15届IEEE高级视频和信号监控国际会议。2018年，第1比6[6]李毅，杨旭，孙平，齐华，吕世。Celeb-DF：DeepFake取证的新数据集。2019年，arXiv Prepr. arXiv：1909.12962。[7]放大图片创作者：Marcel S.人脸识别对深度变形的脆弱性。2019年，arXivPrepr. arXiv：1910.01933。[8] 放大图片创作者：Marcel S. Deepfakes：人脸识别的新威胁？评估和检测。2018年，arXiv。[9]丁宏，周SK，Chellappa R. Facenet2expnet：正则化用于表情识别的深度人脸识别网络。2017年第12届IEEE人脸&手势识别国际会议。2017年，p. 118比26[10]Schroff F，Kalenichenko D，Philbin J. Facenet：用于人脸识别和聚类的统一嵌入。在：IEEE计算机视觉和模式识别会议论文集。2015年，p.815-23[11]杨X，李Y，吕S.使用不一致的头部姿势暴露深层假动作。ICASSP2019-2019IEEE声学、语音和信号处理国际会议。2019年，第8261-5[12]Mita T，Kaneko T，Hori O.联合haar特征用于人脸检测。在：第十届IEEE计算机视觉国际会议（ICCV'05），第1卷。2005，第1619-26页，2.[13]德王。Dlib-ml：一个机器学习工具包。J Mach Learn Res2009;10（Jul）：1755-8.[14]姜H，勒内-米勒E. 使用更快的R-CNN进行人脸检测。 2017年第12届IEEE人脸手势识别国际会议&。2017年，p. 650比7[15]Ji Y，Wang S，Lu Y，Wei J，Zhao Y.基于轮廓特征提取的眼嘴状态检测算法。J Electron Imaging2018;27（5）：51205.[16]Zhou P，Han X，Morariu VI，Davis LS.用于篡改人脸检测的双流神经网络。2017年IEEE计算机视觉和模式识别研讨会。2017年，p.1831年到1839年。[17]微软车库：换脸-Android和iOS的应用程序。 2022年，https：//www.microsoft.com/en-us/garage/profiles/face-swap/ （ 2022 年 4 月 16 日访问）。[18] Luxand -使用Luxand FaceCrop检测和裁剪人脸。2022年，https：//www.luxand.com/facecrop/（2022年4月16日访问）。Ammar Elhassan，Mohammad Al-Fawa' reh，Mousa Tayseer Jafar等人软件X 19（2022）10111510进一步阅读[1] 会说话的头像和面部动画软件 -CrazyTalk 。 2022 年， https ： //www.reallusion.com/crazytalk/（2022年4月16日访问）。[2]伊佩罗夫。Github - iperov/DeepFaceLab：DeepFaceLab是创建deepfakes的领先软件。 2022 ， https://github.com/iperov/DeepFaceLab （ 2022 年 4 月 16 日访问）。[3] eSpeak：语音合成器。2022，http://espeak.sourceforge.net/（2022年4月16日访问）。[4]Github - dfaker/df：更大分辨率的脸被掩盖，奇怪的扭曲，deepfake。2022，https://github.com/dfaker/df（2022年4月16日访问）。[5]动态 2022，https://www.dynamixyz.com/（2022年4月16日访问）。[6]Github -Faceswap-GAN：一个去噪的自动编码器，用于人脸交换的对抗性损失和注意力机制。2022年，https://github.com/anlu/faceswap-GAN（2022年4月16日访问）。[7]端面切头射流|批量从照片中裁剪人脸，用于身份证-人脸检测和裁剪软件。2022，https://facecropjet.com/（2022年4月16日访问）。[8] 欢迎-faceswap。2022年，https://faceswap.dev/（4月访问）。16，2022）。[9] 换脸直播TM。2022年，http://faceswaplive.com/（4月访问）。16，2022）。[10]在线换脸|世界上最大的换脸数据库2022，https://faceswaponline.com/（2022年4月16日访问）。[11] 首页- NaturalFront. 2022，https://www.naturalfront.com/（2022年4月16日访问）。[12] 语音转语音2022，https://www.voicery.com/（2022年4月16日访问）。[13]Winer JR，et al. Sleep as a potential biomarker of tau andβ-amyloid burdeninthe human brain. J Neurosci 2019;39（32）：6315[14]陆华，李英，陈明，金宏，芹川，大脑智能：超越人工智能。移动网络应用2018;23（2）：368[15]Stein C，Nickel C，Busch C.智能手机摄像头的指纹识别。在：2012 BIOSIG-生物识别特别兴趣小组国际会议的会议记录。2012年，第1-12号。[16]Amari S，Wu S.通过修改核函数改进支持向量机分类器。神经网络1999;12（6）：783[17]张文辉，张文辉. Mesonet：一个紧凑的面部视频伪造检测网络。2018 IEEE信息取证与安全国际研讨会。2018年，第1-7号。[18]Szegedy C等人，《用卷积更深入》。在：IEEE计算机视觉和模式识别会议论文集。2015年，p.一比九[19]Ioffe S，Szegedy C.批量归一化：通过减少内部协变量偏移来加速深度网络训练。上一篇：机器学习国际会议2015年，p. 448比56[20]Nguyen TT，Nguyen CM，Nguyen DT，Nguyen DT，Nahavandi S.用于创建和检测Deepfakes的深度2019年，arXiv Prepr. arXiv：1909.11573。[21]李英，张明春，吕世良. In ictu oculi：揭露人工智能通过检测眨眼来创建假视频。2018 IEEE信息取证与安全国际研讨会。2018年，第1-7号。[22]何克，张X，任S，孙杰，深度残差学习图像识别。在：IEEE计算机视觉和模式识别会议论文集。2016，p. 770-8[23]Simonyan K，Zisserman A.用于大规模图像识别的极深卷积网络。2014年，arXiv Prepr. arXiv：1409.1556。[24]张文辉，王文辉，王文辉.利用视觉伪影来揭露深度伪造和面部操纵。在：2019年IEEE计算机视觉冬季应用研讨会。2019年，第83比92[25]Nguyen HH，Fang F，Yamagishi J，Echizen I.用于检测和分割操作面部图像和视频的多任务学习。2019年，arXiv Prepr. arXiv：1906.06876。[26][10]李文，李文. Faceforen-sics++：学习检测被操纵的面部图像。在：IEEE/CVF计算机视觉国际会议论文集。2019年，第1比11[27]2009年10月20日，李文辉. Faceforen-sics ++：学习检测被操纵的面部图像。2019年，arXiv Prepr. arXiv：1901.08971。[28]放大图片作者：

下载后可阅读完整内容，剩余1页未读，立即下载