基于Photoshop的恶意篡改照片检测与定位方法

180 浏览量更新于2023-10-16 收藏 2.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于Photoshop脚本王胜宇1王立文2安德鲁·欧文斯1理查德·张2阿列克谢·A。加州大学伯克利分校1Adobe Research2(a)被篡改的照片（b）检测到的篡改（c）建议的图1：给定一个输入面部（a），我们的工具可以检测到面部已经被Photoshop中的Face-Aware Liquify工具扭曲，预测面部扭曲的位置（b），并尝试摘要大多数恶意照片处理都是由我们创建的，标准研发伊姆阿格埃编辑工具，苏志华作为AdobePhotoshop PhotoshopPhotoshop我们提出了一种方法来检测一个非常流行的Photoshop操作人脸-我们表明，我们的模型在识别操作图像的任务上优于人类，可以预测编辑的具体位置，并且在某些情况下可以用于我们证明，该系统可以成功地应用于真正的，艺术家创造的图像操纵。1. 介绍在一个数字编辑的视觉内容无处不在的时代，公众无疑渴望知道他们在电视上看到的图像，在光滑的杂志上，以及在互联网上，事实上，是真实的。当大众媒体代码和说明可以在我们的github存储库（https://peterwang512.github.io/FALdetector）中找到。主要集中在相反，使用经典图像处理技术（通常在Adobe Photo- shop中）执行的更微妙的图像操作是操纵视觉内容激增的最大贡献者[13]。虽然这种编辑操作有助于实现创造性表达，但如果在观众不知情的情况下进行，它们可能会产生严重的负面影响，从不切实际的标准设定的在这项工作中，我们专注于一个特定类型的照片店操纵-图像扭曲适用于脸。这是一个非常常见的任务，用于“美化”和表达式编辑。面部变形是一个有趣的问题，因为它是一个领域，这是令人惊讶的是很难为人们检测，但它是常用的，并具有广泛的影响。我们在一项用户研究中发现，人类只有53个。识别此类编辑的准确率为5%（概率为50%）。我们提出了一个镜头，通过它这些微妙的编辑成为1007210073(a) 真实图像（b）操纵图像图2：来自训练数据集的随机样本。(a)真实图片来自Flickr肖像（上）和Open Images [18]（下）。(b) 使用Photoshop的Face-Aware Liquify工具自动创建的随机扭曲差异非常微妙。可视化，提醒观众存在的修改，如图1所示。我们提出的方法只是一个更大的技术工具箱中的一个工具，可以用来帮助打击错误信息的传播及其影响。我们的方法包括一个CNN精心训练，以检测图像中的面部变形修改。与任何深度学习方法一样，收集足够的监督训练数据始终是一个挑战。尤其如此对于取证应用，因为没有手动创建的视觉伪造的大规模数据集。在这项工作中，我们通过使用Photoshop本身来自动生成逼真的假训练数据来解决这个问题。我们首先收集了一个大的真实人脸图像数据集，从不同的互联网来源（图2a）。然后，我们直接在Photoshop中编写Face-Aware Liquify工具，该工具将面部操作抽象为高级语义操作，例如“增加鼻子宽度”和“减少眼睛距离”。通过在这个空间中随机采样操作（图2b），我们得到了一个由成对的源图像和逼真的变形修改组成的训练集。我们在这个数据集上训练全局分类和局部翘曲场预测网络。特别是，我们的局部预测方法使用损失函数的组合，包括流翘曲预测，相对翘曲保存，和逐像素重建损失。我们提出了一些应用程序，包括可视化覆盖，以提请注意修改的区域，如图。1（b），和unwarping操纵的图像，使其更像原来的，如图。第1段（c）分段。最后，我们评估了我们的方法上的一些测试案例，包括图像从各种来源，以及与翘曲操作执行其他手段。2. 相关工作图像取证或伪造检测是计算机视觉中越来越重要的研究领域。在本节中，我们关注的是从大量数据中训练出来的作品，或者直接针对人脸领域的作品。随手法研究人员已经提出了foren-sics方法来检测各种面部操作。Zhou等[37] Roessleret al.[27，28]提出神经网络-工作模型来检测面部交换和面部重现- 在拼接、颜色匹配和混合之后，将一张脸完全替换为另一张脸（可能取自同一对象）的操作。其他工作研究检测变形（内插）面部[26]和眼睛上镜面高光的照明不一致[15]。相比之下，我们认为面部扭曲经历微妙的几何变形，而不是一个完整的替代的脸，或新的细节的合成。获取标记训练数据的困难导致研究人员提出了各种“自我监督”图像取证方法，这些方法在自动生成的假图像上进行训练。Chen等人[11]使用卷积网络来检测中值滤波。Zhou等[38]提出了一个目标检测模型，特别是使用隐写分析功能来减少语义的影响。该模型使用对象分割在自动创建的合成假图像上进行预训练，并在实际的假图像上进行微调。虽然我们也会自动生成假代码，但我们使用的是典型编辑器会使用的工具，使我们能够更准确地检测这些操作。一种补充方法是探索仅从真实图像学习的无监督取证模型例如，已经提出了几种模型，通过识别来自不同相机模型的补丁[9，21]，通过使用EXIF Meta数据[14]或通过识别物理不一致性[20]来检测拼接图像然而，这些方法的目的是检测图像拼接问题的实例，而我们解决一个更微妙的操纵-面部结构扭曲。手动定义的操作提示其他图像foren-sics工作已经提出使用手定义的线索来检测假图像[13]。早期的工作通过发现附近像素之间的周期性相关性来检测恢复伪影[25，17]。还有一些工作是检测不一致的量化[4]，双JPEG伪影[8，5]和几何不一致[23]。然而，由交互式图像编辑工具执行的操作通常是相比之下，我们的方法从一个大型的操作图像数据集学习适合其任务的功能10074培训确认测试来源OpenImage FlickrFlickr图片总数1.1M 10k 100未处理的图像157k 5k 50操作图像942k 5k 50操作随机FAL专业艺术家表1：数据集统计。这包括我们自己自动创建的数据以及由专业艺术家创建的较小的操作测试集。3. 数据集我们从Open Images数据集[ 18 ]和Flickr中获得了一个大型的真实人脸图像数据集，并创建了两个假图像数据集：一个大的、自动生成的用于训练取证模型的操纵图像集，以及一个由艺术家完成的用于评估的较小的实际操纵集。补充材料中提供了数据收集过程的详细信息。我们的目标是自动创建一个操作图像的数据集，当用于训练时，可以概括为艺术家创建的假货。我们在Adobe Photoshop中编写了Face-Aware Liquify（FAL）工具[1]的脚本，使用内置的JavaScript执行支持来生成各种面部操作。我们选择Photoshop，因为它是最流行的图像编辑工具之一，而这个操作，因为它是人像摄影中非常常见的FAL表示使用16个参数的操纵，对应于更高级的语义（例如，调整鼻子的宽度、眼距、下巴高度等）。面部标志检测器将网格注册到输入图像，并且参数控制网格如图1所示，该工具可用于进行精细、逼真的操作，例如使面部更加对称。我们对FAL参数空间进行随机采样。虽然这些参数的选择是不太可能匹配的变化，艺术家会，我们认为，并验证，随机抽样的空间将涵盖的空间“现实”的操作。我们从真实人脸数据集中随机修改每张图像6次。总的来说，我们用于训练的数据是129.5万张面孔-185 K未修改，1.1M修改。另外我们从Open Images和Flickr中各保留5K真实面孔，保留一半的图像未修改，其余的以与训练数据相同的方式修改。总的来说，验证数据包括每个类别中的2.5K图像积极或消极地改变面部表情这涵盖了两个重要的用例。艺术家使用FAL工具创建了50张图像，并使用更通用的液化工具（一种用于扭曲图像的自由形式画笔）创建了50张图像。平均而言，每张图像需要7.8分钟的编辑时间。4. 方法我们的目标是训练一个系统来检测面部操作。我们提出两种模型：全局分类模型，其任务是预测面部是否已经扭曲，以及局部扭曲预测器，其可以用于识别操纵发生的位置，并反转它们。4.1. 真假分类我们首先要解决的问题是“这个图像是否被篡改了？“我们使用扩张残差网络变体（DRN-C-26）训练二元分类器[35]。培训程序的详细信息见补充材料。我们通过训练低分辨率和高分辨率模型来研究分辨率的影响。高分辨率模型能够保留低级别的细节，这可能有助于识别假货，例如修复工件。另一方面，较低分辨率的模型可能包含足够的细节来识别假货，并且可以更有效地进行训练。我们尝试了低分辨率和高分辨率的模型，其中图像的短边分别调整为400和700像素。在训练过程中，图像被随机左右翻转并分别裁剪为384和640像素虽然我们在测试设置中控制了后处理管道取证算法通常对此类操作敏感[25]。为了提高鲁棒性，我们考虑更积极的数据增强，包括JPEG压缩，亮度，对比度和饱和度的方法（双三次和双线性）。我们的实验发现，这增加了鲁棒性的扰动测试，即使他们不是在增广集。4.2. 预测什么移动到哪里在检测到面部是否已被修改时，对于观看者的自然问题是图像是如何被编辑的：图像的哪些部分被扭曲了，图像在被处理之前看起来是什么样的？为此，我们预测一个光流场U∈RH×W×2，图像，Flickr} × {未处理，处理}。表1总结了这些数据，图2显示了随机样本。年龄Xorig ∈RH×W×3到扭曲图像X，我们测试集：艺术家创建的面部操作我们测试的泛化能力，以“真正的”操纵contracting一个专业的艺术家操纵50个真正的照片。其中一半是为了“美化”或增加吸引力而被操纵的然后使用尝试原始图像我们训练一个流预测模型F来预测每像素的扭曲场，测量它与每个训练测试的近似“地面实况”流场U的距离Ple（计算的估计原始图像10075Ss算法验证（随机FAL）测试（专业艺术家）方法Resol-withAC牧师职位AP 2AFCAC牧师职位AP2AFC第二次八月？总原始模式总OrigMod机会–50.050.0 50.050.0 50.050.050.050.050.0 50.0人类––––––––[28]第二十八话–51.386.3 16.252.750.085.714.355.3 61.9自我和谐（Self-consistency） [14]–––53.7–––56.4 72.0低分辨率没有aug。40097.097.2 96.9九十九点七九十九点五89.086.092.096.898.0低分辨率与aug。400℃的93.791.6 95.7九十八点九九十八点九83.074.092.094.4 96.0高分辨率，带aug。700℃的97.1九十九点八九十四点五99.8 10090.096.084.097.4 98.0表2：真实或虚假分类器性能。我们测试了由自动脚本和专业艺术家应用的FAL扭曲模型。我们观察到，使用高分辨率输入的训练在三者中表现最好。此外，没有增强的训练在这个领域表现得更好，但添加增强使模型对增强集内外的损坏更鲁棒（参见补充材料）。* 由于运行时间限制，在验证集的2k随机子集上测试了自一致性和修改的图像）。图3显示了这些流场的示例为了去除错误的流量值，我们丢弃像素前向-后向一致性测试失败，导致二进制掩码M∈RH×W×1。λ m= 15和λ r= 1工作良好，并执行第5.2节中的消融。我们使用一个扩展残差网络变体（DRN-C-26）[35]，在ImageNet [29]数据集上进行预训练，L epe（F）=||M.F（X）−UΣ||第二条第一款作为我们本地预测的基础网络。DRN架构最初是为语义分割而设计的，其中，X是一个被操纵的图像，U是它的我们为图像的每个像素计算这种损失，并计算平均值。在[31]之后，我们鼓励通过最小值来平滑流程使流动梯度上的多尺度损失最小化：我们发现它在曲速预测任务中效果很好。我们发现直接训练流回归网络-工作做得不好。我们首先将问题转换为多项式分类，通常用于回归问题（例如，彩色化[19，36]，表面法线预测[33]和生成建模[24]），然后精细-ΣLms（ F）= Σ||M.Σ（F（X））−||二、用回归损失调谐我们计算了地面实况流使用PWC-Net的字段[30]。培训过程的细节不s∈St∈{x，y}不（二）在补充材料中提供。式中，Δs、Δs是水流的水平梯度和垂直梯度x y 5. 实验[001 pdf 1st-31 files]字段，按步长s∈ {2，8，32，64}抽取。利用从原始图像到修改图像的正确流场预测，可以通过逆变形来恢复原始图像。这导致自然重建损失，我们评估我们的能力，检测和撤销图像manip-ulations，使用自动和艺术家创建的图像。5.1. 真假分类我们首先调查是否可以操纵图像，Lrec（F）=||不.ΣX;F（X）-X orig||第一条、第三条由我们的全局分类器在验证集上检测到。我们通过扰动图像来测试分类器的鲁棒性其中，T（X;U）通过与流U的重新交换来使X弯曲。在这种情况下，损失被应用于未扭曲的图像di。在用可微双线性插值层进行翘曲之后我们注意到，这种方法类似于基于流的图像合成模型中使用的主要损失[39，34]。仅应用重建损失导致低纹理区域中的模糊性，这通常导致不期望的伪影。相反，我们联合训练所有三个损失：Ltotal=λeLepe+λmLms+λrLrec。我们发现λ e=1。五、10076并测量其对专业艺术家操纵的泛化能力（表2）。我们评估几个变体：（1）低分辨率，具有aug。：低分辨率模型（较小一侧为400像素），具有数据增强（压缩、缩放方法和光度变化）和整个训练集（包括低分辨率图像）。（2）低分辨率无放大器; ：我们通过忽略它们来测试上面的增强方法。请注意，所有模型仍然包括随机翻转和裁剪-10077Face-Aware Liquify（FAL）其他操作Losses Val（Rand-FAL）Artist-FAL Artist-Liquify Portrait-to-Life [6]EPEMulti-Pix EPE IOU-3千PSNR EPE IOU-3千PSNR EPE IOU-3千PSNR EPE IOU-3千PSNR规模 ℓ1↓ ↑ ↑ ↓ ↑ ↑ ↓ ↑ ↑ ↓ ↑ ↑仅EPEC0.510.45+2.670.740.33+2.090.630.12-1.211.740.42–MultiGCC0.530.42+2.380.750.30+2.070.590.11-0.841.750.41–全CCC0.520.43+2.690.730.28+2.210.560.12-0.721.740.40–表3：翘曲定位和撤消性能。我们在几个评估中展示了我们的本地预测模型的性能：（1）EPE，其测量平均流量准确度，（2）IOU-3，其测量流量大小预测准确度，以及（3）PSNR，其测量预测的解扭曲从操纵的图像恢复原始图像的接近程度;↑、↓表示更高或更低更好。我们的完整方法具有所有损失（流量预测，多尺度流量梯度和像素重建），在使用Face-AwareLiquify和其他操作的数据集上都比消融更强大。平. （3）高分辨率，：我们测试在更高分辨率（短边700像素）上训练是否可以让网络获得更多细节。我们通过上采样保留较低分辨率的图像。基线我们将我们的方法与最近的几种方法进行了比较，这些方法是为其他相关的取证任务而训练的。（1）FaceForensics++[28]：一个基于人脸交换和重演数据训练的网络 ; 我们使用在原始视频帧上训练的Xception [ 12 ]模型。（2）自我一致性[14]：一个经过训练的网络，可以发现图像中的低级别信息。首先，我们评估我们的模型其次，我们使用基于排名的分数，这些分数对假图像部分的“基本比率”不敏感为此，我们使用平均精度（AP）以及可直接与人类研究进行比较的两种选择力选择（2AFC）评分，在人类研究中，我们为模型提供两张图像，一张真实图像和一张操纵图像，并测量其将较高操纵概率分配给假图像的时间比例。对自动生成的伪图像的评估我们首先探索我们的验证集的性能，如表2（左）所示，其中包含自动生成的操作图像。我们首先在Amazon Mechanical Turk（AMT）上进行了一项人类研究测试。我们展示了真实的和经过修改的图像，并排6秒，并要求参与者识别被修改的图像。我们给出了15个样本对来“训练”每个人，然后收集了35个测试样本（总共40个参与者）。由于我们训练的操纵是微妙的，这是一个具有挑战性的任务;参与者能够识别操纵的图像53。5%的概率（机会=50%）。这表明很难单独使用高级语义来完成这项任务。使用增强训练的低分辨率模型的性能为93。7%的准确率和98。9%的平均精度。在不增加不同的响应技术的情况下，我们的网络性能提高到97。0%的准确率和99。占7%AP，但使网络对不同的图像创建和编辑管道的鲁棒性降低。处理在更高的分辨率，lution，700像素，性能也增加到97。1%的准确率和99。8%AP。我们的模型的鲁棒性实验的细节在补充材料中给出，以及对全局分类器的类激活图的分析艺术家测试集关键的是，我们调查了我们的随机扰动训练是否可以推广到更真实的世界。我们从专业艺术家那里收集数据，其任务是使主题更具吸引力，或改变主题由于此处的编辑更加明显，研究参与者能够识别71的修改图像。1%的准确度。我们的高分辨率分类器达到98。在2AFC设置中为0%我们的准确率从97. 将验证设置中的1设置为90。0的情况。然而，AP的下降幅度要小得多，从99。8到974.第一章这表明我们的随机扰动和艺术家之间存在一些域差距，可以通过我们比较了两个最近的图像取证基线，FaceForensics++ [28]和Self-consistency [14]。这两种方法都不是为我们的应用而设计的：FaceForensics++分为三种操作类型：面部交换，“deepfakes”面部替换和face2face重演[ 28 ]。另一方面，自我一致性被设计用于检测图像特征中的低水平差异这两种方法在我们的数据集上的表现都很偶然，这表明推广到面部扭曲操作是具有挑战性的。然而，我们的方法能够推广到一些FaceForensics++数据集。增强的低分辨率模型的表现明显优于机会（50。0%的accc; 50. 0% AP）在FaceSwap（65. 71.8%AP），69 .第六十九章77. honeymoon 4% AP）和DeepFake（77. 87. honeymoon 1%AP）任务。另一方面，高分辨率模型（59. 64. 7%AP）、Face2Face（55. 55. 第55章. 百分之九10078输入GT流量我们的预测流量叠加输入GT流量我们的预测流叠加图3：艺术家创建和自动生成数据的定性结果。我们展示了我们对来自外部艺术家和我们自动生成的验证集的图像进行流预测的示例。（输入）输入操作图像。（GT流）从原始图像到处理图像的（我们的预测）来自我们网络的预测流量（流量叠加）叠加的预测流量大小。有关其他示例，请参见补充材料已处理的未扭曲原始已处理的未扭曲原始图4：解扭曲结果。这些图像显示了艺术家编辑的测试数据集的结果，其中我们的模型颠倒了操作。在其他编辑中，最上面一行的嘴和鼻子被扩大了。在最下面的一排，鼻子的形状变得不那么圆了，眼睛也缩小了。100791.00.50.0Lowres w/augLowres（不含8月）高，含aug0 20 40 60 80 100 120 140帧损耗降低的性能。特别是，我们发现，直接优化重建损失导致更好的图像重建。在图3和图4中，我们展示了自动生成和艺术家创建的数据的几个定性结果在补充材料中，我们从验证集中随机抽取了更多定性结果5.3.分发外操作虽然我们的模型被训练来检测由Photoshop制作的面部变形，但我们也评估了它检测其他类型的图像编辑的能力，并讨论了它的局限性。图5：一个被操纵的视频的分析[6]。单个输入图像（第一帧和最后一帧）由微笑动画驱动（顶部）我们的局部分析正确识别了被操纵的区域（嘴角）。（底部）随时间变化的全局预测显示动画如何从输入移动到微笑，然后返回。AP）和DeepFake（65. 71.第71章. 3%AP）。这表明使用较低分辨率图像进行训练可能允许模型学习更多的高级特征（例如，几何不一致性），其中这些特征然后可以用于检测其他面部操纵，而用高分辨率图像进行训练允许模型利用低级图像特征，这允许模型在较窄的域中表现得更好此外，在合成生成的细微面部变形数据上进行训练可能是一种有趣的技术，可以推广到其他更复杂的编辑任务。5.2. 定位和撤消操作接下来，我们评估操纵定位和反转。模型变化为了帮助理解我们的站。操纵木偶我们进行了一个实验，看看我们的方法是否可以用来检测最近的图像操纵工作的结果[6]。在这项工作中，一个视频（从一个不同的主题）是用来动画输入图像通过图像变形和额外的细节，如皮肤皱纹和纹理的眼睛和嘴。我们将我们的操纵检测模型应用于这些数据，并表明尽管没有在这些数据上进行训练，我们仍然能够做出合理的预测。图5示出了在该数据上运行局部和全局预测器两者的定性结果，其中它正确地识别开始并返回到（真实）静止姿势的木偶微笑动画。我们观察到，随着时间的推移，我们的增强低分辨率模型比未经增强训练的模型产生更稳定的预测。此外，高分辨率模型并不推广到检测这样的操作。我们注意到，由于添加了非扭曲图像细节，因此不可能对该数据进行PSNR比较。模型有助于其性能，我们消融损失我们的本地预测模型的函数。由于以前的方法没有考虑预测或逆转扭曲的问题，我们考虑我们自己的模型的变化。（1）我们的完整方法：用端点误差（EPE）训练（等式11）。1）、多尺度梯度（Eqn. 2），以及重建（Eqn. （3）损失。（2）EPE：仅训练有终点丢失的消融。（3）MultiG：用端点和多尺度训练，但没有重建损失。评估我们以几种方式评估我们的模型，捕获本地化能力和扭曲逆转能力。（1）原始图像和经加工的图像之间的预测流和地面实况流之间的终点误差（EPE）相似性（等式1）。（2）交集大于并集（IOU-τ）我们将阈值τ应用于预测和地面实况流幅度并计算IOU。（3）我们预测的解扭曲的增量峰值信噪比（Delta PeakSignal to Noise Ratio，PSNR）有效性，PSNR（原始的，未扭曲的，操纵的）减去PSNR（原始的，操纵的）分析如表3所示，我们发现，全局本地精度AP峰值信噪比EPE高分辨率，带aug。55.064.0--低分辨率没有aug。57.067.7+0.150.99低分辨率与aug。67.0 79.6 +0.61 0.91表4：Facebook后处理的结果。我们用artist测试集测试了我们的全局和局部模型，并比较了不同模型的性能。社交媒体后处理管道我们还评估了我们的模型对Facebook执行的后处理操作的鲁棒性（例如，额外的JPEG压缩）。我们将艺术家创作的假照片上传到Facebook，然后用后处理的图像评估我们的方法。表4显示了我们的低分辨率模型在增强和不增强的情况下训练的结果，以及高分辨率全局分类器。我们注意到，高分辨率模型操作预测10080GT编辑预测编辑未翘曲差异图7：局限性。当操纵在训练分布之外太远时，就像一般的液化工具实验一样。我们的局部预测模型无法正确识别翘曲区域。这在叠加图和未扭曲的图像中都是可见的（右侧显示了未扭曲后与地面实况的差异，越暗越差）。以提高去扭曲时的PSNR（-0.72 PSNR）。增加脚本扭曲操作的范围可能会改善这一点。一般来说，反转扭曲是一个棘手的问题，因为有许多可能的面的配置。这可以看出，我们在艺术家测试集上得到的PSNR虽然这种操作减少了，但完美恢复原始图像的问题仍然是一个公开的挑战。Lens Studio Facetune Facetune（喷枪）图6：使用其他图像编辑工具进行解扭曲。我们展示了Snapchat Lens Studio和Facetune编辑的解扭曲预测结果。从上到下是：（1）操纵输入。（2）建议“撤消”。（3）原始图像。（4）热图叠加。其他图像编辑工具我们还通过Facetune [2]和Snapchat Lens Studio [3]测试了我们的面部扭曲局部检测模型。Facetune提供了类似的扭曲操作来改变人的表情以及喷枪功能，Snapchat Lens Stu- dio通过放大面部的某些部分来扭曲面部。图6示出了建议的撤销预测的定性结果。请注意，我们的模型能够执行合理的编辑恢复，即使模型没有在这些工具上进行训练通用液化过滤器像任何数据驱动的方法一样，我们受到训练分布的限制。存在于此之外的变形编辑，例如应用于头发或身体的变形这可以在我们的艺术家使用通用（非面部）液化过滤器的实验中看到，其中图像有时在分布之外（图7）。尽管如此，我们的方法仍然可以成功预测，远高于机会（64.0的准确性，85.6AP），表明一些泛化。然而，全局分类器的性能远低于FAL操作（90.0精度，97.4AP），且局部预测精度不够6. 结论我们已经提出了第一种设计用于检测面部扭曲操作的方法，并且通过完全使用从图像编辑工具自动生成的图像来训练取证模型来实现。我们表明，我们的模型在确定图像是否被操纵方面可以胜过人类的判断，并且在许多情况下能够预测用于生成扭曲图像的局部变形场我们将面部扭曲检测视为制作用于分析人体图像的取证方法的重要一步，并且将这些方法扩展到身体操纵和光度编辑（例如皮肤平滑）是未来工作的有趣途径。此外，我们还将我们的工作视为朝着制造无需标记数据即可学习的foren-sics工具迈出的一步，并将交互式编辑工具纳入培训过程。确认我们感谢Daichi Ito和Adam Pintek为我们的艺术家测试集做出的贡献，以及Hany Farid，Matthias Kirchner和Minyoung Huh的有益讨论。这项工作得到了DARPAMediFor和加州大学伯克利分校长期网络安全中心的部分支持所表达的观点、观点和/或发现均为作者的观点，不应被解释为代表国防部或美国政府的官方观点或政策。政府。10081引用[1] 调整和夸大面部特征。https://helpx.adobe.com/photoshop/how-to/face-aware-liquify.html.3[2] Facetune 2. https：//https：//www.f acetuneapp.com/。 8[3] 由snap inc制作的Lens studiohttps://lensstudio.snapchat.com/. 8[4] Shruti Agarwal和Hany Farid jpeg酒窝的照片取证。2017年IEEE信息取证与安全研讨会（WIFS），第1-6页。IEEE，2017年。2[5] Irene Amerini 、 Tiberio Uricchio 、 Lamberto Ballan 和Roberto Caldelli。基于多域卷积神经网络的jpeg双重压缩定位。IEEE CVPR媒体取证研讨会，2017年。2[6] Hadar Averbuch-Elor ， Daniel Cohen-Or ， JohannesKopf，and Michael F Cohen.将肖像画带入生活。ACMTransactions on Graphics（TOG），36（6）：196，2017。五、七[7] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh 。再生甘：无监督视频重定向。在 ECCV，2018。1[8] 毛罗 · 巴尼卢卡 · 邦迪Ni colo`博内蒂尼PaoloBestagini ， Andrea Costanzo ， Marco Maggini ，Benedetta Tondi，and Stefano Tubaro.使用卷积神经网络的对齐和非对齐视觉传达和图像表示杂志，49：153-163，2017。2[9] LucaBondi，SilviaLameri，DavidGüera，PaoloBestagini，Edward J Delp，and Stefano Tubaro. 通过基于摄像机的cnn特征聚类进行篡改检测和定位2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1855IEEE，2017年。2[10] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros. 大家跳舞吧 arXiv 预印本 arXiv ：1808.07371，2018。1[11] Jiansheng Chen ， Xiangui Kang ， Ye Liu ， and Z JaneWang.基于卷积神经网络的中值滤波取证IEEE SignalProcessing Letters，22（11）：1849-1853，2015。2[12] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。5[13] 哈尼·法里德照片取证麻省理工学院出版社，2016. 一、二[14] Minyoung Huh ， Andrew Liu ， Andrew Owens ， andAlexei A Efros.打击假新闻：通过学习的自一致性进行图像拼接检测。在ECCV，2018。二、四、五[15] 米卡·K·约翰逊和哈尼·法里德通过眼睛上的镜面高光暴露数字伪造品信息隐藏国际研讨会，第311-325页。Springer，2007. 2[16] Hyeongwoo Kim 、 Pablo Carrido 、 Ayush Tewari 、Weipeng Xu、JustusThies、MatthiasNiessne r、Pa t rickPe´rez 、 Chris-tianRichardt 、 MichaelZollho¨fer 和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics（TOG），37（4）：163，2018。1[17] 马蒂亚斯·基什内尔通过固定线性预测残差的频谱分析快速可靠地检测残差在Pro-10082第 10 届 ACM 多媒体与安全研讨会，第 11-20 页。ACM，2008年。2[18] Ivan Krasin ， Tom Duerig ， Neil Alldrin ， AndreasVeit ， Sami Abu-El-Haija ， Serge Belongie ， DavidCai，Zheyun Feng，Vit- torio Ferrari，Victor Gomes，et al. Openimages：用于大规模多标签和多类图像分类的公共数据集。数据集来自 https ： //github 。com/openimages，2（6）：7，2016. 二、三[19] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。欧洲计算机视觉会议，第577-593页。施普林格，2016年。4[20] Jian Li，Xiaolong Li，BinYang，and Xingming Sun.基于分割的图像复制 - 移动伪造检测方案。 IEEETransactions on Information Forensics and Security，10（3）：507-518，2015。2[21] 欧文·梅尔和马修·C·斯塔姆。已学习未知相机型号的取证源相似性在2018年IEEE声学，语音和信号处理国际会议（ICASSP），第2012-2016页IEEE，2018年。2[22] 凯尔·麦克唐纳。如何识别人工智能生成的假图像，2018年12月。https://medium.com/@kcimc/how-to-recognize-fake-ai-generated-images-4d1f6f9a2842.1[23] 詹姆斯·F·奥布莱恩和哈尼·法里德曝光照片操纵与不一致的反射。ACM事务处理图表，31（1）：4-1，2012.2[24] Aaron van den Oord 、 Nal Kalchbrenner 和 KorayKavukcuoglu 。像素递归神经网络。 arXiv 预印本arXiv：1601.06759，2016。4[25] Alin C Popescu和Hany Farid。通过检测重采样的痕迹来IEEE Transactions on Signal Processing，53（2）：758-767，2005。二、三[26] R Raghavendra，Kiran B Raja，Sushma Venkatesh，andChristoph Busch.用于检测数字和打印扫描变形人脸图像的可转移深度cnn特征。2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1822IEEE，2017年。2[27] AndreasR¨ ssler，Da videCozzolino，LuisaVerdoliv a，Chris-tianRiess ， JustusThies ， andMatthiasNießner.FaceForen- sics：大规模视频数据集用于人脸伪造检测。arXiv预印本arXiv：1803.09179，2018。2[28] AndreasR¨ ssler，Da videCozzolino，LuisaVerdoliv a，Chris-tianRiess ， JustusThies ， andMatthiasNießner.FaceForen- sics++：学习检测被操纵的面部图像。arXiv预印本arXiv：1901.08971，2019。二、四、五[29] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 4[30] 孙德清、杨晓东、刘明宇和Jan Kautz。Pwc-net：使用金字塔、扭曲和成本体积的光流的Cnns。在IEEE计算机视觉和模式识别会议论文集，第8934- 8943页，2018年。4[31] Benjamin Ummenhofer、Huizhong Zhou、Jonas Uhrig、Niko-laus Mayer 、 Eddy Ilg 、 Alexey Dosovitskiy 和Thomas10083布洛克斯Demon：用于学习单眼立体声的深度和运动网络。在CVPR，2017年。4[32] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。神经信息处理系统进展（NeurIPS），2018年。1[33] Xiaolong Wang，David Fouhey，and Abhinav Gupta.设计深度网络进行表面法线估计。在IEEE计算机视觉和模式识别会议的论文集，第539-547页，2015年。4[34] Tianfan Xue，Baian Chen，Jiajun Wu，Donglai Wei，and William T Freeman.具有面向任务流的视频增强。国际计算机视觉杂志，第14[35] Fisher Yu，Vladlen Koltun，and Thomas Funkhouser.扩张的剩余网络。在计算机视觉和模式识别（CVPR），2017年。三、四[36] Rich

下载后可阅读完整内容，剩余1页未读，立即下载