没有合适的资源?快使用搜索试试~ 我知道了~
{ajaiswal, yue wu, wamageed, iacopo, pnataraj}@isi.edu1https://twitter.com/jfnyc1/status/10436655405800816692https://twitter.com/tachirense89/status/4348448115483115523https://bit.ly/2QLJjaC4www.snopes.com113300AIRD:图像再利用检测的对抗学习框架0Ayush Jaiswal, Yue Wu, Wael AbdAlmageed, Iacopo Masi, PremkumarNatarajan 美国南加州大学信息科学研究所,加利福尼亚州马里纳德尔雷0摘要0图像再利用是在社交媒体和在线论坛上传播虚假信息的常用方法,它涉及发布未经篡改的图像,并使用修改后的元数据来制造谣言和进一步的宣传。虽然手动验证是可能的,但鉴于互联网上可验证的大量知识,这种语义操纵形式的普遍性和便利性要求开发出强大的自动评估多媒体数据语义完整性的方法。在本文中,我们提出了一种基于现实世界对抗性相互作用的图像再利用检测方法,其中坏行为者使用伪造的元数据再利用图像,而看门狗验证图像与其附带的元数据之间的语义一致性,两者都可以访问一个经过验证的内容参考数据集,以实现他们的目标。所提出的方法在位置身份、主体身份和绘画艺术家验证方面表现出最先进的性能,显示出其在各种场景中的有效性。01. 引言0我们目前生活在互联网驱动的信息时代,技术的快速进步使得大规模信息的创造和传播变得越来越容易。因此,人们消费信息的方式已经从印刷媒体和有线电视转变为数字来源。同时,社交网络平台已经发展起来,使得人们更容易在社区和公开场合快速传播信息。这为人们快速分享新闻提供了一个绝佳的方式,使得社交媒体成为一个流行的新闻来源,特别是在年轻人中间。然而,信息传播的便利性也使得社交网络成为传播虚假新闻的流行方式。鉴于在互联网上传播虚假信息的强大力量,一些活动家团体已经启动了众包努力(例如Snopes4)来揭穿假新闻。然而,信息的创造和传播速度之快,使得需要开发自动验证信息的方法。因此,最近已经开发了几种方法来检测在线论坛上的谣言[5, 11, 14, 16, 27,23],图像的数字处理[3, 28, 29,30]以及多媒体数据的语义不一致性[8,24]。虽然数字处理的检测在多年来获得了大部分的研究关注,但谣言检测和语义完整性验证是较新的研究领域。0福特博士与比尔∙克林顿和哈维∙温斯坦0(a)主体身份0委内瑞拉的人链(b)位置身份0阿梅代奥∙莫迪利亚尼的绘画0(c)绘画艺术家0图1:来自真实例子的不同领域中的图像再利用 -(a)类似物1,(b)错误位置2,(c)错误声称的艺术家3。未经篡改的图像经常以这种方式被再利用,以传播关于相似但不同的实体或事件的错误信息。0因此,开发在线论坛上谣言的检测方法[5, 11, 14, 16, 27,23],图像的数字处理[3, 28, 29,30]以及多媒体数据的语义不一致性[8,24]已成为必要。虽然数字处理的检测在多年来获得了大部分的研究关注,但谣言检测和语义完整性验证是较新的研究领域。113310在本文中,我们专注于检测图像再利用 -这是一种利用未经篡改的图像与伪造的元数据结合起来传播错误信息的多媒体数据的语义操纵形式。图1展示了一些图像再利用的真实例子。Jaiswal等人[8]将多媒体语义完整性评估的更广泛问题定义为验证媒体资产(例如图像)与相关元数据的不一致性,因为资产和元数据被期望是一个连贯的整体。他们还引入了使用未经篡改的整体数据集(RD)来辅助验证查询数据包的概念。图像再利用检测属于这个范畴,并且已经在包含图像和标题的数据包[8]以及还包含全球定位系统(GPS)信息的数据包中进行了探索[24]。[8]中提出的完整性评估方法检测到在随机情况下从其他数据包中完全复制的标题中的不一致性。另一方面,Sabir等人[24]提出了一种用于检测标题中命名实体操纵的方法。然而,[24]中提出和评估的MEIR数据集在实体操纵的欺骗潜力方面存在不足,因为它们是通过将给定标题中的实体与不相关数据包中同一类别的实体(人物、组织或位置)进行随机交换来实现的。开发图像再利用检测方法的主要挑战之一是缺乏训练和评估数据。虽然众包是一个潜在的替代方案,但它既昂贵又耗时。鉴于此,我们提出了一种新颖的图像再利用检测框架,可以在缺乏包含篡改元数据的训练数据的情况下进行训练。所提出的框架被称为对抗图像再利用检测(AIRD),模拟了坏行为者与验证图像和其附带元数据之间的语义一致性的看门狗之间的现实世界对抗性相互作用。具体而言,AIRD包括两个模型:一个伪造者和一个检测器,它们通过对抗性训练进行训练。按照以前的方法,所提出的框架使用未经篡改的整体数据集作为世界知识的来源。虽然检测器从参考集中收集证据,但伪造者利用它来为给定的查询数据包制造出具有令人信服的虚假元数据。所提出的框架可以应用于所有形式的元数据。然而,由于生成自然语言文本是一个开放性研究问题,实验评估是在结构化元数据上进行的。此外,以前的图像再利用检测方法仅关注标题中的实体操纵。因此,在这种情况下,可以通过首先使用命名实体识别来提取实体,然后使用AIRD。0提出的框架在GoogleLandmarks数据集[22]上展示了最先进的性能,用于位置身份验证,一种称为IJBC-IRD的IJB-C数据集的变体,我们为主体身份验证创建的,以及Painter byNumbers数据集[1]用于绘画艺术家验证。我们公开提供的这个多样化的数据集集合上的结果展示了所提出模型的泛化能力。本文的主要贡献包括:0•一种模拟恶意行为者和看门狗之间真实对抗互动的图像再利用检测新方法0•一种新的框架设计,可用于开发利用知识库验证信息的现实世界图像再利用检测系统0•IJBC-IRD数据集,包含具有主体身份元数据的人脸图像,用于进一步研究面向人脸图像再利用检测的领域0本文的其余部分组织如下。第2节0讨论相关工作。在第3节中,我们描述了所提出的框架。实验评估结果在第4节中提供。最后,我们在第5节中总结了本文并讨论了未来的研究方向。02. 相关工作0在在线平台上检测虚假新闻和谣言的研究领域是通过对文本内容的自动分析[5, 14, 16],社区内帖子的传播[11,27]以及它们引起的人们的反应类型[23]来研究的。这些工作不针对基于图像的信息操纵,并且在其信息验证方法中不包含任何形式的图像分析。过去对图像的数字操纵进行了广泛研究,包括图像拼接、复制移动伪造、像素级别的图像重采样和修饰[3, 28, 29,30]。这些方法通过验证图像中的嵌入水印或分析搜索图像中的像素级一致性来工作。在[8]中,介绍了对可能与之无关的实体或事件的语义完整性进行验证的未经操纵的图像的再利用。更具体地研究了使用操纵的文本和位置数据进行图像再利用的工作[24]。我们的工作属于这个类别,并提出了一种新颖的通用图像再利用检测框架。最近,对抗学习已被用于改进目标检测[31]、解缠特征学习[9,15]和特征增强[25],以及数据生成[6,7]。所提出的AIRD框架使用对抗性学习05 www.github.com/isi-vista/AIRD-Datasets113320伪造者0参考数据集(RD)0元数据生成器(MG)K虚假候选人通过图像检索0检测器0一致性验证器(CV)通过元数据检索0通过图像K个证据的检索0通过图像K个证据的检索0图2:对抗性图像再利用检测(AIRD)-该框架的核心是两个对抗训练的模型:伪造者C和检测器D。参考数据集(RD)是一组经过验证的图像和元数据,代表世界知识。使用i和m的变体来表示图像和元数据。类似地,IR和MR的变体表示检索到的图像和元数据的集合。虽然C的元数据生成器(MG)利用RD来分析不同实体或事件的其他相似图像的元数据,为图像创造虚假的元数据,但D的一致性验证器(CV)使用从RD收集的证据来评估与查询图像一起呈现的声称的元数据的真实性。0学习建模恶意行为者和看门狗之间的现实生活相互作用,以进行图像再利用检测。03. 对抗性图像再利用检测0Jaiswal等人[8]介绍了使用包的参考数据集作为知识库,从中可以收集证据来辅助对查询包的语义完整性进行评估的一般方法。从概念上讲,这种方法类似于看门狗在线验证新闻文章的方式,互联网上的新闻来源、文档存储库和百科全书作为庞大的参考数据集。然而,在现实世界中,这些数据集也对恶意行为者可访问。在图像再利用的情况下,参考数据集被利用来寻找可以作为谣言和宣传的虚假证据的图像。因此,伪造者和看门狗都可以访问相同的信息,但一个组织将其用于传播错误信息,而另一个组织将其用于信息验证。这个关键观察的呈现视图揭示了两个组织之间固有的知情对抗相互作用。我们提出了Adversarial Image RepurposingDetection(AIRD)框架来模拟这种相互作用。0提出的AIRD框架由两个竞争模型组成——(1)伪造者(C),它使用参考数据集为未篡改的图像制作元数据;(2)检测器(D),它从参考数据集中收集证据以验证查询包的语义完整性。虽然检测器网络的工作机制与现实世界的看门狗接近,但我们将伪造者建模为一个极其恶意的人,他希望尽可能地重新利用所有可用图像,以传播尽可能多的错误信息。伪造者模型的核心是一个元数据生成器(MG)神经网络,而检测器包含一个一致性验证器(CV)网络。这些网络的参数通过对抗训练来学习。模型(C和D)使用语义编码和检索工具从参考集中获取额外的包,以实现各自的目标。图2显示了提出框架的高级设计。我们在以下部分中描述了AIRD的组件,包括实现和训练细节。03.1. 从参考数据集中进行编码和检索0特定模态编码器:在提出的框架中,伪造者和检测器模型通过从参考数据集中检索其他相似和/或相关的包来收集信息。为了便于有意义地检索信息,将多媒体包的每个模态编码为信息丰富的语义表示是很重要的。理想情况下,这些编码器将与元数据生成器和一致性验证器网络一起进行端到端训练,以便每个编码器可以提取非常具体的信息并学习数据实例之间的相似性,以帮助其实现目标。例如,在包含图像和标题的包的情况下,MG和CV都将拥有自己的图像和文本编码器的副本,并将与它们一起进行端到端训练。然而,对于像图像和文本这样复杂的模态,这并不总是可行的,因为整个参考集的大小巨大,每次这些编码器的参数更新时都必须重新索引。当出现这种情况时,提出的框架使用预训练的模态特定编码器,在对抗训练期间不进行更新。关键是要仔细选择这些编码器,使它们生成的嵌入捕捉到容易受到操纵的所有信息细节。因此,理想的系统将使用能够捕捉图像和标题中细粒度语义细节的图像和文本编码器,就像上面的例子中一样。正如前面讨论的,提出的框架在包含图像和高度特定结构化元数据的包上进行评估。因此,我们使用现成的、最先进的深度神经网络作为图像编码器来检测这些元数据。相比之下,元数据编码器是与MG和CV的对抗训练一起学习的。τ); τ ∈ (0,1](2)̃m =K∑k=1ck ⋅ mk(3)113330以便模型可以学习在嵌入空间中通过相似性对元数据值进行聚类。在本文的其余部分,我们将图像和元数据(无论是自然语言还是结构化)的编码分别表示为 i 和 m。0从参考数据集进行索引和检索:基于结构化元数据从参考数据集中检索额外的相关信息自然地实现为数据库查询。相反,数据模态如图像和文本必须首先被编码为向量表示。然后可以通过最近邻搜索来执行检索相关的包。然而,在语义完整性评估的情况下,参考数据集的大小预计会非常庞大,特别是在现实世界中,预计它将包含可能关于世界的所有验证知识。因此,使用暴力最近邻搜索变得不切实际。为了开发一个可扩展的图像再利用检测框架,我们采用了已经在数十亿条记录的数据库上工作的高效近似搜索方法来进行基于相似性的参考数据集查询。此外,为了提高近似的准确性,我们使用级联索引机制。系统的高级阶段是:(1)使用基于重新排序的产品量化倒排文件索引 (IVFPQ+R) 进行索引[10],然后(2)使用精确的余弦相似度对近似检索进行额外的重新排序。我们使用公开可用的这些索引模块的高效实现,它们包含在 faiss 6 包中。03.2. 伪造者模型 C0C 的工作机制如图 2 的上半部分所示,描述如下。0伪候选者:C的非参数组件旨在找到合理的误导候选者。为了通过操纵元数据 ( m ) 来重新利用图像 (编码为 i),伪造者首先查询参考数据集,找到与元数据不相似的 K个最相似图像。这些图像的编码集体表示为 I Ri。类似地,它们的附带元数据表示为 M R i。根据第 3.1节中描述的模态特定编码器的特性,这将导致 K个图像,这些图像在处理要操作的元数据时可能会与原始图像混淆。例如,如果将一个人脸图像通过操纵主题身份元数据重新用于其他人,这样的检索将导致 K张脸部图像,这些图像的主题看起来与原始主题非常相似。我们称这些检索到的包为伪候选者。0元数据生成器:伪候选者以及原始图像和元数据随后传递给元数据生成器神经网络(MG)。虽然标题-元数据已经使用预训练的编码器进行了编码(如06 www.github.com/facebookresearch/faiss0如上所述),在结构化元数据的情况下,MG首先使用元数据编码器对其进行编码,该编码器作为 MG的一部分进行训练。MG 包含一个候选者评分子网络(CSSN;使用两个全连接层实现),然后通过将其与原始图像-元数据对进行比较来对每个 K 个候选者进行评分,如方程1 所示:0s k = CSSN (( i , m ) , ( i k , m k )),(1)0其中 i k 和 m k 表示 { I R i , M R i } 中的第 k个包。最后,候选者的分数通过类似注意力的 softmax操作转换为选择分布 ( c)。为了使选择更加明确,使用低温的 softmax,其中softmax与温度一起使用,用于将值转换为动作决策,如方程 2所述。0c k = exp ( s k / τ)0选择分布与虚假候选元数据的元素逐个相乘。然后,MG将这些加权候选元数据的和作为生成的元数据。由于选择分布是尖锐的,这模拟了选择K个元数据值的行为,同时保持了可微分性。因此,生成的元数据的计算如方程式3所描述。03.3. 检测模型D0图2的下半部分概述了D的工作机制。具体描述如下。0收集证据:从参考数据集中收集证据并使用它们验证查询包的手动过程启发了AIRD框架中检测模型D的设计。检测器从参考数据集中检索K个最相似的包,分别使用图像(ˆi)和相关元数据(�m)作为查询模态。因此,它收集了两组证据,可以分解为图像编码和元数据,分别为{IRˆi,MRˆi}和{IR�m,MR�m},用于基于图像和基于元数据的检索。0一致性验证器:在语义完整性验证的下一步中,将这些证据集与查询包一起使用进行验证。这是通过一致性验证器神经网络(CV)来完成的。与MG一样,CV首先使用与MG相同的编码器对元数据进行编码,如果元数据是结构化的。这使得MG和CV之间的编码和语义一致。CV网络执行以下操作hiimg = Aggimg(ˆi,IRˆi )(4)himetaAggmeta( ̂m,MRˆi )(6)himgrelu(Wimg[himg,himg] + bimg)(8)hmeta = relu(WTmeta[himeta,hmmeta] + bmeta)(9)hcross = relu(WTcross[himg,hmeta] + bcross)(10)y = σ (WTyhcross + by)(11)maxCVminMG J(CV,MG) = E[log CV(i,m)]+ E[log(1 − CV(i,MG(i,m)))](12)113340在模态内部组合查询和检索编码,然后跨模态组合信息,以评估查询包的语义完整性。模态内部编码的组合被设计为孪生网络[13],复制的模块称为聚合器(Agg),并使用两个全连接神经层实现。跨模态组合被设计为模态特定信息聚合的串联,后面跟着一个全连接层。然后使用组合信息通过最终的全连接层进行完整性判断。这个过程由方程式4-11说明。0h m img = Agg img ( ˆ i , I R�m ) (5)0h m meta = Agg meta ( � m , M R�m ) (7)03.4. 训练AIRD0元数据生成器和一致性验证器网络使用方程式12中描述的目标进行对抗训练,简化表示中i表示图像,m表示其真实元数据。0如前所述,在结构化元数据的情况下,元数据编码器的参数也是联合学习的。然而,为了保持训练的稳定性和编码的一致性,该编码器的参数不直接从CV接收梯度。这样设计使CV处于稍微不利的地位,鼓励它变得更加稳健。如方程式13所反映的那样,CV除了使用由MG生成的元数据的图像外,还使用真实的图像-元数据对进行训练。我们还使用两个额外的虚假情况对CV进行训练,分别是:(1)(i,mr)-带有随机抽样的虚假元数据的图像,我们称之为易负样本;(2)(i,mc)-带有来自RD的最相似的基于图像检索的元数据,使得mc≠m,称为难负样本。完整的训练目标如方程式13所示。0max CV min MG J (CV, MG)0= E [log CV(i, m)] + E [log (1 - CV(i, MG(i, m)))]0+ E [log (1 - CV(i, mc))] + E [log (1 - CV(i, mr))] (13)04.实验评估0在本节中,我们讨论了AIRD所评估的数据集,报告了索引系统的性能,提供了验证这些数据集上确实可能进行令人信服的图像再利用的虚假候选示例,描述了AIRD与基准模型和最先进模型的比较,并报告了实验结果。04.1.基准数据集0所提出的AIRD框架在三个包含易受操纵的特定形式的识别元数据的不同数据集上进行了评估,这些数据集是用于图像再利用的,包括包含位置信息的地标图像的Google地标数据集,包含主题身份信息的人脸图像的IJBC-IRD数据集,以及包含艺术家身份元数据的Painter byNumbers数据集。以下是这些数据集的详细信息。0Google地标:这个数据集[22]是由Google发布的一个关于从图像中识别地标的Kaggle竞赛。它是全球最大的带有身份注释的地标图像数据集。我们使用这个数据集来检测具有位置身份操纵的图像再利用,即验证图像确实来自所声称的位置。该数据集包含1,225,029张图像,涵盖14,951个不同的地标。图像在地标之间的分布不均衡,有些地标只有一张图像,而其他地标有多达50,000张图像。该数据集经过筛选,删除了少于五张图像的地标,结果得到了总共1,216,589张图像,涵盖13,885个地标。图像使用公开可用的预训练NetVLAD[2]模型进行编码,该模型设计和训练用于地点识别,然后使用主成分分析(PCA)和L2归一化进行降维,如[2]中所述。0IJBC-IRD:IARPA Janus Benchmark C(IJB-C)[21]80数据集是一个新颖的人脸识别基准。它具有严峻的变异性,面部图像呈现出各种姿势、恶劣的照明、遮挡、老化和其他具有挑战性的条件。出于所有这些原因,IJB-{A,B,C}[12,26,21]系列迅速成为野外人脸识别的事实标准。出于这些动机,寻求面部再利用检测的真实场景,我们选择了IJB-C的一个子集来创建一个新的基准,名为“IJB-C图像再利用检测”(IJBC-IRD)。IJBC-IRD与IJB-C共享相同的媒体,但侧重于更有可能用于面部身份再利用的主题。为此,我们更加青睐07 www.di.ens.fr/willow/research/netvlad/ 8www.nist.gov/programs-projects/face-challenges60516051605160512743274327432743876487648764876429472947294729471607160716076793567567 5675676336336336339749749741092115111511151115113951395139513956464 64641721721722229090909024242424850505050113350查询顶部证据0(a)Google地标0查询0顶部证据0(b)IJBC-IRD0查询顶部证据0(c)数字画家0图3:D使用的基于图像的检索示例。第一列显示查询图像,接下来的三列是前三个检索结果。每个图像的标题都是其真实的元数据身份。正确的检索结果显示为绿色边框,错误的结果显示为红色边框。0具有丰富类内变化的主题(从IJB-C元数据中选择至少五个媒体的个体),并且仅考虑静止图像,因此舍弃了所有的运动帧。我们提倡使用静止图像,因为我们认为清晰、高质量的图像更适合于面部再利用任务-视频帧通常包含运动模糊和缺乏有区分度的面部特征,使得对主题的模仿不太可信。IJBC-IRD数据集包含16,377张图像,涵盖1,649个主题。我们使用一种最先进的人脸识别系统按照[19,20]的步骤对人脸图像进行编码。我们选择这个系统是因为它的性能和姿态不变性能力[18]。人脸编码器是一个基于深度残差架构的单一卷积神经网络,遵循[4]中描述的相同训练过程。人脸使用倒数第二层的激活进行编码,并通过PCA和有符号平方根进行去相关化。图像的最终编码是使用在不同角度渲染的估计视图与原始2D对齐图像的平均池化结果。总的来说,我们使用与[4]相同的识别流程,更多细节请参考该文献。0Painter byNumbers:这个数据集[1]是为了一个Kaggle竞赛而创建的,目的是确定一对绘画是否属于同一位艺术家,以开发检测艺术赝品的技术。我们使用这个数据集来评估检测图像重新利用的能力,即检测绘画是否确实是由所声称的艺术家绘制的。该数据集包含来自2,319位不同艺术家的103,250幅图像。与之前的情况一样,这个数据集也存在不平衡的问题。0频率从一个艺术家的一幅画到500幅画不等。该数据集经过过滤,选择了数据集中最常见的1,000位艺术家的绘画图像,共72,863幅画。图像使用赢得比赛的模型9进行编码,然后进行L2归一化。0所有数据集都被分成训练集和测试集,其中80%的图像用于训练,20%的图像用于测试,使用分层抽样。数据集的训练集还被额外用作所有实验中的参考数据集。为了加速训练过程,所有可能的伪造者的虚假候选人和检测器的证据都被预先计算出来。04.2. 索引和检索性能0图3a、图3b和图3c分别展示了GoogleLandmarks、IJBC-IRD和Painter byNumbers数据集的基于图像的检索的定性结果。在这些图中,第一列显示查询图像,接下来的三列显示来自参考数据集的基于图像的检索结果。在这些图中,我们使用绿色边框来显示检索到的图像的元数据与查询图像的元数据匹配的情况,使用红色边框来显示不匹配的情况。结果显示,检索系统返回的图像与查询图像非常相似,通常具有相同的元数据。然而,有时候也会出现错误,当参考数据集中存在非常相似但元数据不同的图像时。这可以归因于图像的语义编码中的错误级联效应,以及最近邻搜索中的近似误差。09 www.github.com/inejc/painters125791024414280759296332199963387644680119634680542118966967794963312251380012251745933442 9339331164511119106479210641064121324912131213613139577088813739 3161373821238229771773415671770857796588049286286MAP@30.81270.83960.6147Precision@30.84040.85370.6326113360查询伪造候选人0(a) Google Landmarks0查询伪造候选人0(b) IJBC-IRD0查询伪造候选人0(c) Painter by Numbers0图4:C使用的伪造候选人示例。第一列显示查询图像,接下来的三列是伪造候选人。0表1:基于图像的检索在具有相同元数据值的图像的相似搜索中的性能。度量仅报告我们实验中检索到的包的数量K =3。GL代表Google地标,PbN代表Painter by Numbers。0度量GL IJBC-IRD PbN0平均准确率K(MAP@K)和准确匹配的精确度K(Precision@K)在表1中报告,以量化检索系统在上述数据集上的性能。结果显示,检索性能在IJBC-IRD上最好,其次是GoogleLandmarks,而在Painter byNumbers上相对较低,这是一个特别具有挑战性的数据集,因为它的元数据(绘画的艺术家)比其他数据集(主题或位置标识)更加微妙。04.3. 伪造者的虚假候选人0所提出的AIRD框架的成功以及对抗训练的成功,更具体地说,依赖于伪造者找到令人信服的伪造候选人的能力。我们在图4a、图4b和图4c中展示了C在GoogleLandmarks、IJBC-IRD和Painter byNumbers数据集中使用的伪造候选人的样本。这些图中的每个图的第一列显示了伪造者选择的用于重新利用的图像。接下来的三列显示了伪造候选人。结果显示,这些数据集包含非常令人信服的相似图像,其元数据不同,这样就可以...0一个可能会被误认为另一个。值得注意的是,在真实的图像重用案例中,观众并不会将查询图像(第一列)视为信息包的一部分(例如,虚假新闻文章),而只是其中一个虚假候选者。这使得欺骗人们变得容易。04.4. 基线和最新模型0提出的AIRD框架旨在以从参考数据集中检索的方式为检测器提供附加信息。然而,这种设置也允许开发几种非学习方法,通过使用相似性度量直接比较查询和检索的包来进行完整性评估。我们在下面讨论这些模型,并将它们作为基线与提出的AIRD框架进行比较:0• B1 -查询元数据与从参考数据集中使用查询图像检索的查询图像的元数据之间的相似度0• B2 -查询图像与使用查询元数据从参考数据集中检索的图像之间的相似度0• B3 -使用查询图像检索的图像与使用查询元数据检索的图像之间的相似度0• B4 -查询图像基于元数据的检索和使用元数据检索的相似度0另一种元数据验证的方法是使用元数据预测器(MP)模型。给定一个查询图像及其元数据,MP首先预测图像的元数据,然后将其与声明的元数据进行匹配。如果两者匹配,MP将标记查询包为有效。先前的研究[8,24]集中于检测连续性的元数据模态。10www.github.com/Ekraam/MEIR113370例如,标题和GPS坐标等以潜在编码的形式存在。[8]的方法对于结构化元数据不适用,因为它依赖于学习图像和标题的联合表示。我们评估了公开可用的深度多任务模型(DMM)[24],并报告了该模型在IJBC-IRD和Painter byNumbers数据集上的得分。他们框架中使用的基于包相似性的检索在GoogleLandmarks数据集上不可行,该数据集有120万张图像。因此,无法在该数据集上评估DMM。此外,还评估了AIRD的非对抗版本作为消融研究。我们将该模型称为非对抗性检测器(NAD)。NAD与真实图像元数据对以及(i,mr)和(i,mc)用于易负样本和难负样本的训练,如第3.4节所述。04.5. 结果0为了评估提出的框架和上述模型,我们使用K =3,即,假冒者和检测器分别从RD中检索三个虚假候选包和证据。使用非学习基线模型B1、B2和B3进行决策的相似性阈值在训练数据集上进行了调整。实验评估中使用的数据集包含结构化元数据。因此,未评估B4,因为它等同于B1。MP是一个三层全连接神经网络,使用与AIRD相同的编码进行训练,这些编码是使用专用深度神经网络生成的,如第4.1节所述。按照以前的工作方法[8, 24],使用F1-篡改(通过将y= fake视为正类计算)、F1-清洁(通过将y =real视为正类计算)和接收器操作特征曲线下面积(AUC)来量化模型的性能。我们还报告准确率(ACC)作为模型性能的额外指标。所有模型都在真实的图像元数据对以及随机抽样的虚假元数据的(i,mr)图像对上进行了测试,遵循以前工作的评估方法[8,24]。此外,还对硬负样本(i,mc)进行了模型评估。表2、表3和表4展示了实验结果。结果表明,提出的AIRD框架在所有指标上优于所有其他模型。虽然非对抗性检测器(NAD)的性能优于其他基线模型,但其性能不及完整的AIRD。因此,这种性能的额外提升归功于检测器与假冒者的对抗训练。提出的框架在先前的最新DMM模型上取得了很大的优势,表明DMM在图像重用的情况下不适用,其中元数据包括结构化身份信息。0表2:Google Landmarks数据集的评估结果。0指标 B 1 ( B 4 ) B 2 B 3 MP NAD AIRD0F 1 -篡改 0.91 0.81 0.81 0.88 0.91 0.95 F 1 -清洁 0.81 0.370.39 0.87 0.90 0.91 ACC 0.86 0.72 0.71 0.88 0.90 0.94 AUC0.88 0.79 0.76 0.94 0.95 0.980表3:IJBC-IRD数据集的评估结果。0指标 B 1 ( B 4 ) B 2 B 3 MP DMM NAD AIRD0F 1 -篡改 0.91 0.90 0.90 0.91 0.50 0.93 0.95 F 1 -清洁 0.830.75 0.77 0.84 0.72 0.86 0.89 ACC 0.89 0.86 0.87 0.89 0.650.90 0.93 AUC 0.90 0.93 0.92 0.94 0.76 0.95 0.970表4:Painter by Numbers数据集的评估结果。0指标 B 1 ( B 4 ) B 2 B 3 MP DMM NAD AIRD0F 1 -篡改 0.81 0.80 0.80 0.76 0.22 0.82 0.83 F 1 -清洁 0.460.16 0.18 0.58 0.64 0.63 0.68 ACC 0.72 0.68 0.69 0.69 0.510.76 0.77 AUC 0.61 0.77 0.71 0.79 0.53 0.80 0.8405. 结论0我们提出了一种新颖的图像再利用检测框架,该框架模拟了恶意行为者传播错误信息和验证信息的看门狗之间的现实对抗互动。所提出的框架由一个伪造者和一个检测器组成,它们通过对抗性训练进行训练。与现实世界一样,这两个模型都可以通过从参考数据集中检索信息来获得世界知识,并将其利用到自己的优势中。我们描述了模型组件以及训练策略。该框架在GoogleLandmarks数据集上进行了评估,其中包含位置标识、IJBC-IRD数据集上的主体标识和Painter byNumbers数据集上的绘画艺术家元数据。结果显示,所提出的框架在各种数据集上的所有指标上均优于所有基线模型和先前的最新技术。0致谢0本研究基于国防高级研究计划局根据FA8750-16-2-0204号协议赞助的研究成果。美国政府有权为政府目的复制和分发重印件,尽管上面有任何版权注释。本文中所包含的观点和结论属于作者个人观点,不应被解释为国防高级研究计划局或美国政府的官方政策或认可,无论是明示还是暗示。113380参考文献0[1] Kaggle,数字画家。可在此处获取:0kaggle.com/c/painter-by-numbers . [2] R. Arandjelovi ´ c, P.Gronat, A. Torii, T. Pajdla, and J. Sivic. NetVLAD: CNNarchitecture for weakly supervised place recognition. InProceedings of the IEEE Conference on Com- puter Vision andPattern Recognition , 2016. [3] Khurshid Asghar, Zul�qar Habib,and Muhammad Hussain. Copy-move and splicing imageforgery detection and local- ization techniques: a review.Australian Journal of Forensic Sciences , 49(3):281–307, 2017.[4] Feng-ju Chang, Anh Tran, Tal Hassner, Iacopo Masi, RamNevatia, and G ´ erard Medioni. FacePoseNet: Making a casefor landmark-free face alignment. In Proceedings of theInternational Conference on Computer Vision Workshops ,2017. [5] M. Gupta, P. Zhao, and J. Han. Evaluating EventCredibility on Twitter. In Proceedings of the 2012 SIAMInternational Conference on Data Mining , pages 153–164.2012. [6] Ayush Jaiswal, Wael AbdAlmageed, Yue Wu, andPremku- mar Natarajan. Capsulegan: Generative adversarialcapsule network. In The European Conference on ComputerVision (ECCV) Workshops , September 2018. [7] Ayush Jaiswal,Wael AbdAlmageed, Yue Wu, and Premkumar Natarajan.Bidirectional conditional generative adversarial networks. InComputer Vision – ACCV 2018 . Springer Inter- nationalPublishing, 2019. [8] Ayush Jaiswal, Ekraam Sabir, WaelAbdAlmageed, and Premkumar Natarajan. Multimediasemantic integrity as- sessment using joint embedding ofimages and text. In ACM International Conference onMultimedia , pages 1465–1471, 2017. [9] Ayush Jaiswal, YueWu, Wael AbdAlmageed, and Premkumar Natarajan.Unsupervised adversarial invariance. In Neural InformationProcessing Systems , 2018. [10] Herv ´ e J ´ egou
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功