打击假新闻：通过学习的自一致性进行图像拼接

6 浏览量更新于2023-10-13 收藏 6.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

打击假新闻：通过学习的自一致性进行图像拼接许敏英* 1，2AndrewLiu * 1AndrewOwens 1Alexei A. Efros1卡耐基梅隆大学2输入预测拼接掩码地面实况遮罩地面实况源图像图1：我们的算法学习检测和定位图像操作（拼接），尽管只在未操作的图像上进行训练。上面的两个输入图像看起来似乎是合理的，但我们的模型正确地确定了它们被操纵了，因为它们缺乏自我一致性：发现预测的拼接区域内的视觉信息与图像的其余部分不一致。IMAGE CREDITS：从Hays和Efros [ 1 ]自动创建的拼接（顶部），从Reddit用户/u/Name-Albert Einstein手动拼接（底部）。抽象。照片编辑和操作工具的进步使得创建虚假图像变得非常容易。然而，由于缺乏足够量的操纵训练数据，学习检测这种操纵仍然是一个具有挑战性的问题。在本文中，我们提出了一种学习算法，用于检测视觉图像操作，只使用一个大的数据集的真实照片进行训练。该算法使用自动记录的照片EXIF元数据作为监督信号，用于训练模型以确定图像是否自洽，即，其内容是否可以由单个成像流水线产生。我们应用这个自我一致性模型的任务，检测和定位图像拼接。所提出的方法在几个图像取证基准上获得了最先进的性能，尽管在训练时从未看到任何操纵的图像也就是说，这只是长期寻求真正通用的视觉取证工具的一步关键词：视觉取证，图像拼接，自监督学习，EXIF*表示平等捐款。代码和其他结果可以在我们的网站上找到。2Huh等人EXIF CameraMake：尼康公司EXIF相机型号：NIKON D5300 EXIFColorSpace：sRGBEXIF DateTimeOriginal：2016年09月13日16时58分26秒EXIF ExifImageLength：3947EXIF ExifImageWidth：5921EXIF Flash：否EXIF焦距：31.0mm EXIF白平衡：自动EXIF CompressedBitsPerPixel：2…EXIF CameraMake：EASTMAN KODAK COMPANYEXIF Camera型号：KODAK EASYSHARE CX7300.EXIF ColorSpace：sRGBEXIF DateTimeOriginal：2019 - 09 - 29 01：01：02EXIF ExifImageLength：1544EXIF ExifImageWidth：2080EXIF Flash：无（自动）EXIF焦距：5.9mm EXIF白平衡：自动图2：拼接的解剖结构：创造性假图像的最常见方式之一是将来自两个不同真实源图像的内容拼接在一起。本文探讨的见解是，从拼接图像的补丁通常是由不同的成像管道，所示的两个源图像的EXIF元数据。问题是，在实践中，我们从来没有在测试时访问这些源图像。11介绍恶意的图像操纵，长期以来一直是独裁者的领域[？]和间谍机构，现在已经成为访问军团的共同互联网巨魔和Facebook骗子[2]。仅凭基本的编辑技能，现在就可以创建逼真的图像合成[3，4]，填充大的图像区域[1，5，6]，从语音中生成合理的视频[7，8]等。人们可能希望，这些用于创建合成视觉内容的新方法将与相当强大的检测假货的技术相匹配，但到目前为止情况并非如此。一个问题是，标准的监督学习方法，这是非常成功的许多类型的检测问题，是不是很适合于图像foren-sics。这是因为操纵图像的空间是如此巨大和多样化，以至于我们不太可能有足够的操纵训练数据来使监督方法完全成功。事实上，检测视觉操纵可以被认为是一个异常检测问题-我们希望标记任何“不寻常”的东西换句话说，我们想要一种方法，它根本不需要任何操纵的训练数据，但可以在无监督/自我监督的制度下工作。在这项工作中，我们转向一个巨大的，以前未充分利用的数据源，图像EXIF元数据。EXIF标签是相机规格，在拍摄时以数字方式雕刻到图像文件中，并且无处不在。考虑图2中所示的照片。虽然第一眼看起来似乎是真实的，但我们仔细检查后发现，场景中插入了一辆汽车这个拼接区域的内容来自另一张照片，如右图所示这样的操作被称为图像拼接，这是创建视觉伪像的最常见方法之一如果我们可以访问这两张源照片，我们会从它们的EXIF元数据中看到成像管道中存在许多差异：一张照片是用尼康相机拍摄的，另一张是用柯达相机拍摄的;它们使用不同的焦距拍摄，并以不同的JPEG质量设置保存，等等。我们的洞察力是其中一个可能是1图片来源：NIMBLE数据集[9]和Flickr用户James Stave。打击假新闻：通过学习的自一致性进行图像拼接检测3能够检测拼接图像，因为它们由用不同成像流水线捕获的区域组成。当然，在取证应用中，我们不能访问原始源图像，通常也不能访问欺诈性照片相反，在本文中，我们建议使用EXIF元数据作为监督信号，用于训练分类模型，以确定图像是否自洽该模型是自我监督的，因为只有真实的照片及其EXIF元数据用于训练。一致性分类器学习每个EXIF标签分别使用照片对，并将所得的分类器组合在一起，以估计在一个新的输入图像中的补丁对的自一致性我们validate我们的方法使用几个数据集，并表明该模型的性能优于国家的最先进的-尽管从来没有见过注释的剪接或使用手工制作的检测线索。本文的主要贡献是：1）将图像取证作为检测学习的自一致性中的违规（一种异常检测）的问题，2）提出摄影元数据作为用于学习自一致性的自由且丰富的监督信号，3）将我们的自一致性模型应用于检测和定位拼接。我们还介绍了一个新的数据集，从互联网上获得的图像拼接，并通过实验评估哪些摄影元数据是可预测的图像。2相关工作多年来，研究人员提出了各种视觉取证方法来识别各种操纵[2]。最早和最彻底研究的方法是使用领域知识来隔离图像中的物理线索。利用来自信号处理的技术，先前的方法集中于诸如未对齐的JPEG块[10]、压缩量化伪影[11]、恢复伪影[12]、颜色滤波阵列差异[13]和相机硬件我们从Agarwal和Farid [15]最近的工作中获得了特别的灵感，该工作利用成像管道之间看似微不足道的差异来检测拼接的图像区域-即不同相机在JPEG量化期间截断数字的方式。虽然这些特定领域的方法由于其易于解释性而被证明是有用的，但我们相信机器学习的使用将为发现更多有用的线索打开大门，同时也会产生更具适应性的算法。事实上，最近的工作已经从使用先验知识转向应用端到端学习方法，以使用标记的训练数据来解决特定的取证任务例如，Salloum et al.[16]提出通过在标记的训练数据上训练完全卷积网络来学习检测拼接。这些学习方法也被应用于检测特定篡改线索的问题，例如双JPEG压缩[17，18]和对比度增强[19]。这些方法中与我们最密切相关的可能是Bondi等人。[20、21]。这项工作从图像块识别相机模型，并提出使用相机预测中的不一致性来检测篡改。另一种常见的取证策略是在一小类自动模拟操作上训练模型，例如面部交换[22]或使用COCO分割掩码拼接[23]。此外，[22]还提出了识别人脸4Huh等人图像A元数据图像B元数据图像A自我监督训练EXIF相机型号：iPhone 4S EXIF相机品牌：苹果EXIF颜色空间：sRGB EXIFISOSpeedRatings：50EXIF日期时间Original：2015：07：01EXIF图像长度：2448EXIF图像宽度：3264EXIF闪光灯：闪光灯未激发EXIF焦距：107/25EXIF曝光时间：1/2208EXIF白平衡：自动…图3：自我监督训练：我们的模型从不同的图像中随机选取两个补丁，并预测它们是否具有一致的元数据。每个属性在训练和测试期间用作一致性度量。通过测量由拼接和模糊引入的图像不一致性来交换。在并行工作中，Mayer [24]提出使用Siamese网络来预测图像块对是否具有相同的相机模型-我们的Meta数据一致性模型的特殊情况（他们还提出使用该模型进行拼接检测;虽然这些结果很有希望，但只是非常初步的）。还存在估计照片天气）匹配其元数据[25]。在我们的工作中，我们寻求进一步减少我们提供给算法的信息量为此，我们从最近的自我监督工作中汲取灵感[26，27，28，29，30，31]，这些工作通过解决仅使用未标记数据定义的任务来训练模型。其中，最密切相关的方法是Doersch等人的方法。[27]，其中他们训练了一个模型来预测图像内成对补丁的相对位置。令人惊讶的是，作者发现他们的方法学会了利用非常微妙的伪影，如色差透镜作为学习任务的捷径。虽然成像噪声在他们的工作中是一个讨厌的东西，但它对我们来说是一个有用的信号-我们的自监督算法旨在学习成像管道的属性，同时忽略语义。我们的技术方法也类似于[32]，它使用自我监督来训练分割模型，以预测补丁对是否在空间或时间上共同出现。单个图像元数据标签，例如焦距、GPS、主题标签等。在计算机视觉中长期用作自由监控信号。Kuthirummal等人展示了EXIF元数据的一种特别创造性的使用。[33]，他使用了一个非常大的图像集合的CameraModel标签来计算每个相机的先验，例如它们的非线性响应函数。我们的工作也涉及到异常检测问题。与传统的视觉异常检测工作不同，传统的视觉异常检测工作主要关注检测不寻常的语义事件，如罕见物体和动作的存在[34，35]，我们的工作需要在照片中找到异常，其内容被设计为足够合理以欺骗人类。因此，我们搜索的异常线索应该是人类无法察觉的，并且对场景的语义是不变的。一致的元数据？暹罗网络图像B102420484096图像修补程序（128x128）ResNet-50连接功能（8192）83二元分类差异差异相同差异相同…EXIF相机型号：尼康D3200 EXIF相机品牌：Nikon CORP EXIFColorSpace：未校准EXIFISOSpeedRatings：800EXIF日期时间Original：2016：04：17EXIF图像长度：2472EXIF图像宽度：3091EXIF闪光灯：闪光灯没有激发EXIF焦距：90EXIF曝光时间：1/100EXIF白平衡：自动…打击假新闻：通过学习的自一致性进行图像拼接检测53学习摄影自我一致性我们的模型通过预测一对图像块是否彼此一致来工作给定两个补丁Pi和Pj，我们估计概率x1，x2，…，Xn，它们对于n个元数据属性中的每一个共享相同的值。然后，我们通过组合我们的n个元数据一致性的观察来估计补丁在评估时，我们的模型需要一个潜在的操纵测试图像，并测量许多不同的补丁对之间的一致性。低一致性分数指示斑块可能由两个不同的成像系统产生，表明它们源自不同的图像。虽然任何单个对的补丁的一致性得分将是嘈杂的，聚合许多观察提供了一个相当稳定的整体图像自一致性的估计。3.1预测EXIF属性一致性我们使用一个Siamese网络来预测一对128× 128图像块对于每个EXIF元数据属性共享相同值的概率。我们用从400，000张Flickr照片中随机抽样的图像补丁来训练这个网络，对出现在超过50，000张照片中的所有EXIF属性进行预测（n=80，完整的属性列表可以在补充文件中找到）。对于给定的EXIF属性，我们丢弃出现次数少于100次的EXIF值。Siamese网络使用共享的ResNet- 50 [36]子网络，每个子网络产生4096-dim.特征向量这些向量被级联并通过具有4096、2048、1024个单元的四层MLP，随后是最终输出层。网络预测图像对于η个元数据属性中的每一个共享相同值的概率我们发现随机抽样训练具有挑战性，因为：1）存在一些非常难以学习的罕见EXIF值，以及2）随机选择的图像对不太可能偶然具有一致的EXIF值。因此，我们引入两种类型的再平衡：一元和成对。对于一元重新平衡，我们对罕见的EXIF属性值进行过采样（例如罕见的相机模型）。当构造一个mini-batch时，我们首先选择一个EXIF属性，并从该属性的所有可能值中统一采样一个EXIF值对于成对重新平衡，我们确保选择minibatch中的训练图像对，使得对于给定的EXIF属性，一半的批次共享该值，另一半不共享。分析. 虽然我们对所有常见的EXIF属性进行了训练，但我们希望模型能够区分与成像管道属性直接相关的属性，如LensMake[27，20]。相比之下，诸如拍摄图像的确切日期（DateTimeOriginal）之类的任意属性不会在图像中留下信息线索。为了识别预测性元数据，我们在50K保留照片的数据集上评估了我们的EXIF一致性模型，并报告了单个EXIF属性的准确性图4（由于再平衡，机会为50%该模型在预测属性一致性时获得了较高的准确率与图像形成过程密切相关，例如LensMake，其包含例如Apple和FUJIFILM的值。但更令人惊讶的是，我们发现最可预测的属性是UserComment。经过进一步检查，我们发现UserComment是一个可以填充任意数据的通用字段，其最常见的值要么是相机制造商嵌入的二进制字符串，要么是相机制造商嵌入的二进制字符串。6Huh等人EXIF用户注释EXIF焦平面分辨率单元EXIF FileSourceEXIF CustomRenderedEXIF镜头制作EXIF光源EXIF感应方法EXIF镜头规格EXIF场景类型互操作性版本EXIF锐度图像制作EXIF饱和度EXIF对比度EXIF FlashPixVersionImage YResolution ImageXResolution Image YCbCr定位互操作性索引EXIFExposureProgramEXIF SubSecTimeEXIF SubSecTimeOriginalEXIF SubSecTimeDigitizedGPS GPS日期机会40 50 60 70 80 90图4：EXIF精度：EXIF属性的可预测性如何？对于每个属性，我们计算pute成对一致性的准确性Flickr图像使用我们的自我一致性模型。图5：EXIF剪接定位：EXIF属性对于本地化接头有多大作用？我们在哥伦比亚数据集上计算个体定位分数。图像处理软件留下的日志。例如，它的一个常用值“使用VSCOcam处理”是由一个流行的照片过滤应用程序添加的有关EXIF属性及其定义的完整列表，请参阅3.2后处理一致性执行许多图像操作的目的是使所得图像看起来对人眼似乎合理：调整拼接区域的大小，平滑边缘伪影，并对结果图像进行重新JPEG处理。如果我们的网络可以预测两个补丁是否经过不同的后处理，那么这将是照片不一致的令人信服的证据为了对后处理一致性进行建模，我们在训练期间添加了三个增强操作：重新JPEG、高斯模糊和图像大小调整。一半时间，我们对两个补丁应用相同的操作;另一半时间，我们应用不同的操作。每个操作的参数从均匀离散的数字集合我们引入了三个额外的分类任务（每个增强类型一个），用于训练模型来预测一对补丁是否接受了相同的参数化增强。这将我们预测的二进制属性的数量从80增加到83。由于后处理操作的顺序很重要，因此我们每次都以随机顺序应用它们我们注意到这种形式的不一致性与EXIF一致性是正交的例如，在拼接区域具有与其插入的图像完全相同的元数据的（不太可能的）事件中，仍然可以通过观察后处理中的差异来检测拼接。3.3组合一致性预测一旦我们预测了每个EXIF（加上后处理）属性的一对补丁的一致性，我们就想估计这对补丁如果我们正在解决一个有监督的任务，那么自然的选择是使用精度打击假新闻：通过学习的自一致性进行图像拼接检测7地面实况遮罩输入补丁一致性均值漂移…a b c d图6：测试时间：我们的模型从输入图像（b）中的网格中采样补丁，并估计每对补丁的（c）对于给定的块，我们通过将其与图像中的所有其他块进行比较来获得一致性图（d）我们使用Mean Shift将一致性图聚合成最终预测。拼接区域作为监督，以根据η个EXIF一致性预测来预测两个块属于不同区域的概率。不幸的是，我们没有拼接的图像来训练。相反，我们使用一个自我监督的代理任务：我们训练一个简单的分类器来预测，从EXIF一致性预测，补丁是否来自同一个图像。更具体地，考虑针对一对补丁i和j的EXIF一致性预测的83维向量x。我们估计斑块之间的总体一致性为c ij=p θ（y|其中p θ是具有512个隐藏单元的两层MLP。训练网络以预测i和j是否来自相同的训练图像（即，y=1如果它们相同y=0，如果它们不同）。这具有校准不同EXIF预测的效果，同时对它们之间的相关性进行建模。3.4直接预测图像一致性使用EXIF元数据作为用于确定两个图像块之间的一致性的代理的替代方案是直接预测两个块是否来自相同的图像。这样的模型可以很容易地用从相同或不同图像中随机采样的成对的补丁来训练原则上，这样的模型应该至少和EXIF模型一样好，甚至更好，因为它可以识别任何EXIF标签都没有捕获的图像之间的差异。然而，在实践中，这样的模型需要在大量数据上进行训练，因为来自不同图像的大多数随机例如，网络可以简单地学习比较补丁颜色直方图，这对于相同/不同的图像分类任务来说是一个非常强大的提示[37，32]。为了评估该模型在实践中的性能，我们训练了一个结构类似于EXIF一致性模型（第3.1节）的Siamese网络，以解决相同或不同图像一致性的任务（请参见结果部分中的图像一致性3.5从块一致性到图像自一致性到目前为止，我们已经介绍了模型，可以衡量某种形式的一致性之间的补丁对为了将其转化为可用于检测的东西8Huh等人图7：不同EXIF标签的一致性映射：我们独立地计算每个元数据属性的一致性映射（响应映射按本地化精度排序）。合并的一致性图准确地定位拼接的汽车。拼接，我们需要将这些成对一致性概率聚合成整个图像的全局给定一个图像，我们使用步长在网格中对补丁进行采样，使得沿着最长图像维度采样的补丁数量为25。这导致最多625个贴片（对于常见的4：3纵横比，我们采样25× 18= 450个贴片）。对于一个给定的补丁，我们可以可视化的响应映射对应于它的一致性与图像中的每一个其他补丁为了增加每个响应图的空间分辨率我们对重叠块的预测进行如果存在拼接，则来自图像的未篡改部分的大多数补丁将理想地与来自篡改区域的补丁具有低一致性（图6c）。为了为输入图像生成单个响应图，我们希望在所有补丁响应图中找到最一致的模式我们使用Mean Shift [38]进行模式搜索得到的响应图自然地将图像分割成一致和不一致的区域（图6d）。我们将合并的响应映射称为一致性映射。我们还可以通过聚类亲和矩阵来定性地可视化篡改图像区域，例如，标准化切割[39]。为了帮助理解不同的EXIF属性在一致性预测方面的差异，我们为示例图像的每个标记创建了响应映射（图7）。虽然单独的标签提供噪声一致性信号，但合并的响应图准确地定位拼接区域。4结果我们在两个密切相关的任务上评估我们的模型：剪接检测和剪接定位。在前者中，我们的目标是将图像分类为正在拼接的图像与正在拼接的图像。正宗的.在后者中，目标是定位图像内的拼接区域。4.1基准我们在五个不同的数据集上评估我们的方法。这包括三个现有数据集：广泛使用的哥伦比亚数据集[40]，由180个相对相似的数据组成。打击假新闻：通过学习的自一致性进行图像拼接检测9表1：剪接检测：我们比较我们的剪接检测准确性3个数据集。我们测量检测图像是否被拼接的平均精度（mAP）。我们注意到RT是一个包含各种操作（不仅仅是剪接）的数据集ple拼接，以及两个更具挑战性的数据集，Carvalho等人。[41]（94张图像）和Realistic Tampering[42]（220张图像），它们将拼接与后处理操作相结合。后者还包括其他篡改操作，例如复制-移动。这些现有数据集的一个潜在缺点是它们是由少数艺术家并不一定能代表网上遭遇的各种争议。为了解决这个问题，我们引入了一个新的In-the-Wild取证数据集，该数据集由从T HE O NION（一个模仿新闻网站，即THEO NION）中抓取的201张图像组成。假新闻），以及R EDDIT P HOTOSHOP B ATTLES，一个创建和共享操纵图像的用户在线社区（已用于其他最近的取证工作[43]）。由于地面实况标签不可用于互联网拼接，因此我们手动注释图像以获得近似地面实况（当它们可用时，使用未修改的源图像作为参考）。最后，我们还想在自动生成的拼接上评估我们的方法。为此，我们使用了来自Hays和Efros [1]的场景完成数据，该数据附带了总共55张图像的修复结果，蒙版和源图像。我们注意到，地面实况掩模仅是近似的，因为场景完成算法可以改变掩模外部的小区域的像素，以便产生无缝拼接。4.2比较我们将我们的模型与使用图像处理技术检测特定成像伪影的三种方法进行了比较：彩色滤波器阵列（CFA）[44]在彩色模式插值中检测伪影; JPEG DCT [45]检测JPEG系数的不一致性;噪声方差（NOI）[46]使用小波检测异常噪声模式。我们使用Zampoglou等人提供的这些算法的实现。[47 ]第47段。由于我们还想将我们的无监督方法与在标记数据上训练的方法进行比较，因此我们报告了基于学习的方法的结果：E-MFCN [16]。给定拼接图像和掩码的数据集作为训练数据，他们使用有监督的全卷积网络（FCN）[48]来预测测试图像中的拼接掩码和边界。为了在我们的新数据集上进行测试，我们实现了他们模型的简化版本（一个经过训练以识别拼接像素的标准FCN），该模型使用Columbia，Carvalho和Realistic Tampering数据集的训练分割进行训练我们将每个数据集分成两半来构建训练集/测试集。最后，我们提出了两个变化的自我一致性模型。第一个是相机分类，它被训练来直接预测哪个相机模型产生给定的图像块。我们通过从测试图像中采样图像补丁并将最频繁预测的相机分配为自然图像并将其他所有内容分配为拼接区域来评估相机分类模型的输出。我们认为图像是未篡改时，每个补丁的预测相机模型是一致的数据集哥伦比亚[40]卡瓦略[41]RT [42]CFA [44]0.830.640.54DCT [45]0.580.630.52NOI [46]0.730.660.52受监督的FCN0.570.560.56摄像机分类0.700.730.15图像一致性0.970.750.58EXIF一致性0.980.870.5510Huh等人[41][42][43][44][45][46][47][48]度量地图p图cIOU地图p图cIOU地图p图cIOU地图p图cIOU地图p图cIOUCFA [44]0.760.760.750.180.240.460.400.400.630.230.270.450.110.220.45DCT [45]0.330.430.410.250.320.510.110.120.500.350.410.510.160.210.47NOI [46]0.430.560.470.230.380.500.120.190.500.350.420.520.150.270.47受监督的FCN0.600.610.580.180.220.470.090.100.490.250.260.460.150.170.46摄像机分类0.290.650.410.110.290.440.070.100.480.200.310.440.150.310.47图像一致性0.870.900.800.360.410.550.210.210.540.470.530.590.210.370.54EXIF一致性0.910.940.850.510.520.630.200.200.540.480.490.580.480.520.65表2：剪接定位：我们在5个数据集上使用像素上的平均精度（mAP，置换mAP）和类平衡IOU（cIOU）来评估我们的模型，为每个图像选择最佳阈值。哥伦比亚数据集[40]卡瓦略[41]表3：比较与萨卢姆和等：我们与[16]报道的剪接定位的数字进行比较。第二个模型，图像一致性，是一个直接预测两个补丁是否从同一图像中采样的网络（第3.4节）。如果图像的组成块被预测为来自不同的图像，则图像被认为可能已经被篡改这些模型的评估执行方式与我们的完整EXIF一致性模型相同。我们使用在ImageNet [49]上预训练的ResNet50 [36]训练了我们的模型，包括变体。我们使用了128的批量大小，并使用Adam [50]以10- 4的学习率优化了我们的目标。我们在训练100万次迭代后报告结果。用于在EXIF一致性模型预测之上计算补丁一致性的2层MLP被训练10，000次迭代。4.3剪接检测我们评估剪接检测使用三个数据集，包含未经篡改和操纵的图像：哥伦比亚，卡瓦略，和现实篡改。对于每种算法，我们提取定位图，并通过对响应进行空间平均来获得总体分数图像根据其总体得分进行排名，我们计算整个数据集的平均精度（mAP）。表1示出了用于检测经操纵的图像的mAP我们的一致性模型在Columbia和Carvalho以及Realistic Tam- pering上实现了最先进的性能，击败了像FCN这样的监督方法。4.4剪接定位在看到我们的模型可以区分拼接和真实图像之后，我们接下来询问它是否也可以定位图像中的拼接区域。对于每个图像，我们的算法产生一个未归一化的概率，每个像素是一个拼接的一部分。因为我们的一致性预测是相对的，所以两个片段中的哪一个是拼接的是不明确的。因此，我们使用简单的启发法鉴定剪接区域度量MCCF1MCCF1CFA [44]0.230.470.160.29DCT [45]0.330.520.190.31NOI [46]0.410.570.250.34E-MFCN [16]0.480.610.410.48摄像机分类0.300.500.130.26图像一致性0.770.850.330.43EXIF一致性0.800.880.420.52打击假新闻：通过学习的自一致性进行图像拼接检测11输入一致性归一化割地面实况输入一致性标准化切割地面实况图8：检测假货：EXIF-Consistency成功地在许多不同的数据集上进行了本地化操作。我们显示定性结果的图像从卡瓦略，在野外，海斯和现实篡改。12Huh等人输入一致性输入一致性图9：对未篡改图像的响应：我们的算法的响应地图包含较少的incon-sistencies时，一个未篡改的图像。输入一致性标准化切割地面实况输入一致性标准化切割地面实况图10：故障案例：我们提出了我们的模型的典型故障模式。正如我们在户外拍摄的照片中所看到的，过度曝光经常会导致天空中的假阳性此外，一些拼接太小，以至于我们不能使用一致性有效地定位它们最后，当使用EXIF一致性模型时，花的由于操作是复制移动，因此只能通过后处理一致性线索（而不是EXIF一致性线索）检测操作我们说两个一致区域中较小的是剪接。我们还考虑了翻转的替代评估度量（即，否定）一致性预测，如果该置换导致更高的准确度。这衡量模型在这两种情况下，我们使用平均精度（mAP）的本地化的质量进行评估我们还建议使用每类交集超过工会（cIOU），平均IOU的拼接和非拼接区域后，最佳阈值。打击假新闻：通过学习的自一致性进行图像拼接检测132TP +FN+FP图11：比较方法：我们可视化自我一致性和基线之间的定性差异。我们的模型可以正确地定位图像拼接在野外，哥伦比亚和卡瓦略，其他方法犯错误。为了与以前的基准[16]进行比较，我们还使用MCC和F1措施2评估了我们的结果。这些度量评估二进制分割并要求对我们的预测概率进行阈值化。我们使用相同的评估程序，并选择每个剪接定位预测的最佳阈值。由于[16]在完整的Columbia和Carvalho数据集上报告了他们的数字（而不是我们的测试分裂），我们在完整的数据集上评估了我们的方法，并在表3中报告了比较。表2上的定量结果表明，我们的EXIF一致性模型在所有数据集上都达到了最佳性能，除了真实篡改（RT）数据集。值得注意的是，该模型通常优于监督基线，后者是用实际操作的图像训练的，尽管我们的模型在训练期间从未看到篡改的图像监督模型在图5中，我们展示了使用单个EXIF属性（而不是学习的“总体”一致性）时模型正如预期的那样，在我们的大多数评估中，EXIF一致性优于图像一致性。但是，有趣的是，我们观察到模型之间的差距随着训练的进行而缩小，这表明图像一致性最终可能会与额外的训练竞争。查看我们的方法的定性结果也是有启发性的，我们在图8中示出。我们看到，我们的方法可以本地化的操作范围广泛的不同的剪接。此外，在图9中，我们表明我们的方法在真实图像上测试时产生高度一致的预测。我们还可以在图11中查看我们的方法和基线之间的定性差异。最后，我们问哪些EXIF标签对执行剪接定位任务有用。为了研究这一点，我们计算了Columbia数据集上单个标签的响应图，如图7所示。我们看到，最成功的标签对应于成像参数，这些参数会导致最终图像的摄影变化，如EXIFDigitalZoomRatio和EXIF GainControl。2F1评分定义为2TP，MCC定义为√（TP×TN）−（FP×FN）（TP+FP）（TP+FN）（TN+FP）（TN+FN）.14Huh等人失败案例在图10中，我们展示了一些常见的失败案例。我们的表现关于真实篡改说明了EXIF一致性的一些缺点。首先，我们的模型不太适合寻找非常小的拼接，例如出现在RT中的拼接。当拼接区域很小时，模型的大步幅可能会跳过拼接区域，错误地暗示不存在任何操作。其次，过度曝光和曝光不足的区域有时会被我们的模型标记为不一致，因为它们缺乏任何元数据信号（例如，因为它们几乎是均匀的黑色或白色）。最后，RT包含大量的附加操作，例如复制-移动，这些操作不能通过元数据一致性一致地检测到，因为被操作的内容来自完全相同的照片。训练和运行时间在4个GPU上训练EXIF一致性和图像一致性网络花费了大约4周时间。运行完整的自我一致性模型花费了每个图像大约16秒（例如，图11）。5讨论在本文中，我们提出了一个自我监督的方法来检测图像的manipulations。我们的实验表明，该方法在几个数据集上获得了最先进的结果，即使它在训练过程中不使用标记数据我们的工作也提出了一些问题。与物理动机的取证方法[2]相比，我们的模型的结果不容易解释，特别是，不清楚它使用哪些视觉线索来解决任务。它也仍然是一个悬而未决的问题，如何最好地融合一致性测量跨图像的本地化操作。最后，虽然我们的模型是在没有任何人工注释的情况下训练的，但它仍然会以复杂的方式受到自我监督任务中的设计决策的影响，例如EXIF标签在训练过程中的平衡方式。视觉取证的自我监督方法有望推广到广泛的操作-可能超出那些可以通过监督训练学习的操作。然而，要使取证算法真正通用，它还必须对智能伪造者的行为进行建模，以适应检测算法。对抗性机器学习[51，52]的工作表明，在循环中有一个自我学习的伪造者将使伪造检测问题更加难以解决，并且需要新的技术进步。随着计算机视觉和图像编辑技术的不断发展，人们越来越迫切地需要有效的视觉取证方法。我们看到我们的方法，它成功地检测到操纵，而没有看到操纵图像的例子，作为建立通用取证工具的第一步。致谢这项工作得到了DARPA MediFor计划和加州大学伯克利分校长期网络安全中心的我们感谢Hany Farid和Shruti Agarwal在构建这个项目时提供的建议、帮助和灵感，感谢David Fouhey、Saurabh Gupta和Allan Jabri帮助编辑，感谢PengZhou帮助实验，感谢Abhinav Gupta让我们使用他的GPU。最后，我们感谢许多Reddit和Onion艺术家，他们在不知不觉中为我们的数据集做出了贡献打击假新闻：通过学习的自一致性进行图像拼接检测15引用1. Hays，J.，Efros，A.A.：使用数百万张照片完成场景。在：ACM Transactions onGraphics（TOG）。第26卷ACM（2007）41、2、9、102. 金，D.，Cohen，S.F.：政委消失了：斯大林统治下的俄国对照片和艺术品的伪造03The Dog（1997）3. Farid，H.：照片取证MIT Press（2016）2，3，144. Zhu，J.Y.，Krahenbuhl，P. Shechtman，E.，Efros，A.A.：学习一个判别模型，用于感知合成图像中的真实感。 IEEE International Conference on Computer Vision（ICCV）（2015年12月）25. 蔡永宏，沈，X.，林芝，Sunkavalli，K.，卢，X.，Yang，M.H.：深层图像协调。在：CVPR中。（2017年）26. 巴恩斯角 Shechtman ， E. ， Finkelstein ， A. ， Goldman ， D.B. ： Patchmatch ： Arandomized correspondence algorithm for structure image editing. ACM事务处理图表28（3）（2009）247. Pathak，D.，Krahenbuhl，P.Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。IEEE计算机视觉与模式识别会议（CVPR）。(June 2016年）28. Suwajanakorn，S.，Seitz，S.M.，Kemelmacher-Shlizerman，I.：合成奥巴马：从音频中学习对口型ACM Transactions on Graphics（TOG）36（4）（2017）9529. Chung，J.S.，Jamaludin，A.，齐瑟曼，A.：你这么说的？arXiv预印本arXiv：1705.02966（2017年）210. 标准，N.I.，技术：2017年敏捷挑战评估数据集。https：//www.nist.gov/itl/iad/mig/nimble-challenge211. Liu，Q.：利用相同量化矩阵检测未对准的裁剪和再压缩以及相关伪造。（2011年）312. 罗，W.，黄，J.，Qiu，G.：Jpeg错误分析及其在数字图像取证中的应用IEEETransactions on Information Forensics and Security5（3）（2010）48013. 黄，F.，黄，J.，石玉琴：检测相同quantiza的双重jpeg压缩矩阵IEEE Transactions on Information Forensics and Security5（4）（2010）84814. Popescu，A.C.，Farid，H.：通过检测重采样的痕迹来揭露数字伪造IEEETransactions on Signal Processing（2005）315. Swaminathan，A.，吴，M.，Liu，K.R.：基于固有指纹的数字图像取证。（2008年）第3（1）号来文16. Agarwal，S.，Farid，H.：jpeg酒窝的照片取证。图像取证与安全研讨会（2017）317. 萨卢姆河Ren，Y.，郭振杰：使用多任务全卷积网络（MFCN）的图像拼接定位CoRRabs/1709.02016（2017）3，9，10，1318. Barni，M.，邦迪湖Bonettini，N.，Bestagini，P.，Costanzo，A.，Maggini，M.，Tondi，B.，Tubaro，S.：使用卷积神经网络的对齐和非对齐双JPEG检测。CoRRabs/1708.00930（2017）319. 阿梅里尼岛Uricchio，T.，巴兰湖Caldelli，R.： jpeg双重压缩通过多域卷积神经网络。IEEE CVPR媒体取证研讨会。（2017年）320. 温湖Qi，H.，Lyu，S.：数字图像取证中的对比度增强估计arXiv预印本arXiv：1706.03875（2017）321. 邦迪湖 Baro ffio湖 Guéera，D.，Bestagini，P.，Delp，E.J.， Tu

下载后可阅读完整内容，剩余1页未读，立即下载