没有合适的资源?快使用搜索试试~ 我知道了~
...149400通过在线资源对超出上下文的图像进行开放领域、基于内容的多模态事实检查0Sahar Abdelnabi,Rakibul Hasan和Mario FritzCISPA Helmholtz信息安全中心0{ sahar.abdelnabi,rakibul.hasan,fritz } @cispa.de0大卫∙卡梅伦在埃塞克斯弗林顿海滩竞选访问期间发言0视觉证据0文本证据0Q:这个标题与其图像相匹配吗?0: 让我们找出来!0'大卫∙卡梅伦','托尼∙布莱尔','安德鲁∙霍尔内斯','牙买加','牙买加工党','英国','经济','首相','2020年牙买加大选','大选'0大卫∙卡梅伦在牙买加金斯敦演讲。大卫∙卡梅伦在牙买加议会发表讲话。牙买加选举:工党险胜。牙买加指责大卫∙卡梅伦歪曲囚犯协议。0查询图像0文本-文本0一致性0步骤20图像-图像一致性0步骤10步骤20图像-标题一致性0: 伪造!0WWW0步骤10查询标题0真实情况:伪造0图1.为了评估图像-标题配对的真实性,我们利用通过查询Web收集的视觉和文本证据。我们提出了一种新颖的框架,用于检测索证(文本-文本和图像-图像)的一致性,以及图像-标题配对。突出显示的证据表示模型的最高关注度,与查询标题相比,显示出位置上的差异。0摘要0由于其对我们核心民主和社会价值和秩序的潜在高风险,虚假信息现在是一个重大问题。超出上下文的虚假信息是对手用来传播虚假故事的最简单和有效的方式之一。互联网被用作使用不同来源和模态验证信息的首选方式。我们的目标是通过使用Web证据对图像-标题配对进行事实检查的可检查方法。为了整合来自两种模态的证据和线索,我们引入了“多模态循环一致性检查”的概念。0/ ;从图像/标题开始,我们收集文本/视觉证据,分别与其他配对的标题/图像进行比较。此外,我们提出了一种新颖的架构,一致性检查网络-0工作(CCN)模仿了相同和不同模态之间的分层人类推理:标题与文本证据、图像与视觉证据以及图像与标题。我们的工作为开放领域、基于内容的多模态事实检查提供了第一步和基准,并且明显优于以前没有利用外部证据的基线1。01. 简介0最近,人们对“假新闻”及其对社会、个人和政治的有害影响越来越担忧[1, 18,24],包括在大流行期间人们自己的健康[6, 7,30]。滥用生成性AI技术创建深度伪造[13, 21,36]进一步加剧了这些担忧[5,14]。然而,图像再利用——即将真实图像与另一个虚假或不相关的叙述超出上下文地混淆使用01 对于代码、检查点和数据集,请访问:https://s-abdelnabi.github.io/OoC-multi-modal-fc/149410创建更可信的故事并误导观众仍然是创建看起来真实的错误信息最简单和最有效的方法之一。图像再利用不需要深入的技术知识或经验[2,27],这可能增加了其风险。图像通常伴随真实新闻[41],因此,对手可能使用图像作为“支持证据”来吸引读者的注意力[15,27,47]。图像再利用数据集和威胁。由于稀缺性和大量的人工工作,收集大规模标记的脱离上下文数据集很困难。因此,以前的工作尝试构建合成的脱离上下文数据集[20,39]。最近的一项工作[27]提出了自动但非平凡的方法,将伴随真实新闻的图像与其他真实新闻标题进行匹配。作者使用训练过的语言和视觉模型,根据标题检索出一张相似且令人信服的图像。虽然这项工作通过自动创建数据集为误信息检测研究做出了贡献,但它也凸显了机器辅助程序可能在规模上简化创建误信息的威胁。此外,作者报告称,防御模型和人类都难以检测出脱离上下文的图像。在本文中,我们将这个数据集作为一个具有挑战性的基准;我们利用外部证据推动自动检测的进展。事实核查。为了打击错误信息,不同组织进行了大量的事实核查工作[33,34]。然而,这些工作需要大量的人工工作[43]。研究人员提出了几种自动化的方法和基准来自动化事实核查和验证[32,42]。然而,这些工作大多集中在文本主张上。多模态主张的事实核查研究尚未得到充分开发。我们的方法。人们经常使用互联网来验证信息。我们从图像、文章、不同来源聚合证据,并测量它们的共识和一致性。我们的目标是设计一个可检查的框架,自动化这个多模态事实核查过程,并协助用户、事实核查员和内容审核员。更具体地说,我们建议收集和推理证据,以判断图像-标题配对的真实性。首先,我们使用图像在互联网上找到其其他出现,从中爬取文本证据(例如标题),然后将其与配对的标题进行比较。同样地,我们使用标题来找到其他图像,作为0通过视觉证据与配对图像进行比较。我们将此过程称为“多模态循环一致性检查”。重要的是,我们以完全自动化和灵活的开放域方式检索证据[8];没有预先识别或策划的“黄金证据”提供给模型。为了评估主张的真实性,我们提出了一种新的架构,一致性检查网络(CCN),它由以下组件组成:1)记忆网络组件来评估主张与证据的一致性(de-0上述描述),2)一个CLIP[35]组件,用于评估图像和标题配对本身的一致性。由于该任务需要机器理解和视觉理解,我们进行了不同的评估来设计记忆组件和证据表示。此外,我们进行了两项用户研究,以1)衡量人类在检测任务上的表现,以及2)了解收集到的证据和模型对证据的关注是否帮助人们区分真实与虚假的配对。图1显示了我们的框架,展示了数据集中的一个虚假示例以及检索到的证据。贡献。我们总结我们的贡献如下:1)我们形式化了一个新的多模态事实核查任务。2)我们提出了“多模态循环一致性检查”,从两种模态中收集关于多模态主张的证据。3)我们提出了一个新的可检查框架CCN,模拟了从主张和世界知识中聚合观察的过程。4)我们进行了大量的评估、消融和用户研究,并表明我们的证据增强方法显著改善了基线的检测能力。02. 相关工作0多模态误导信息。以前的工作研究了多模态误导信息[22,29,46]。例如,Khattar等人[22]通过学习图像和标题的表示来研究Twitter上的多模态虚假新闻,这些表示被用于分类。数据集中的图像可能被编辑过。相反,我们专注于脱离上下文的真实新闻图像,并使用证据来验证它们。此外,Zlatkova等人[50]使用来自Web的信息研究了图像-主张对的事实性。他们收集了关于主张图像的特征,如其URL。实际的主张图像内容没有与证据进行对比。我们的工作在于我们收集了视觉和文本证据来执行循环一致性检查。此外,他们只计算主张文本的特征,如TF-IDF,而我们使用具有学习表示的记忆网络。与脱离上下文威胁相关的,Aneja等人[2]构建了一个大规模的、尚未标记的数据集,其中包含同一图像的不同上下文。他们提出了一种自监督方法来检测两个标题(给定一个图像)是否具有相同的上下文。然而,与我们的工作不同,他们不判断单个图像-标题主张的真实性。此外,这项工作收集的未标记数据集不允许进行真实性检测的训练和评估。为了产生标记的脱离上下文图像,以前的工作通过简单的交换或命名实体操作[20,39]来创建合成数据集,然而,伪造示例要么太简单,要么包含易于被仅依靠语言模型[27]检测到的语言偏见。149420因此,Luo等人[27]提出通过将真实图像与真实标题匹配来创建伪造示例[26]。他们创建了大规模的NewsCLIPpings数据集,其中包含原始和令人信服的伪造示例。匹配是通过使用经过训练的语言和视觉模型(如SBERT-WK [45],CLIP[35]或场景嵌入[49])自动完成的。伪造示例可能会误导图像中的上下文、地点或人物,具有不一致的实体或语义上下文。作者表明,机器和人类的检测都有限,表明这个任务确实具有挑战性。因此,为了改进检测,我们建议使用外部Web证据来验证图像-标题的主张。开放领域问答和事实验证。我们的工作类似于开放领域问答[8]和事实验证[42](来自维基百科)中的文本工作,涉及自动检索和理解的大规模和开放领域任务。我们不假设模型的输入已经被标记和确定为相关的,模拟现实生活中的事实检查。此外,我们不限制证据只能来自特定的策划来源,如事实检查网站,与[44]相反。与我们的工作类似,Popat等人[32]使用外部证据构建了一个端到端的文本主张可信度评估方法。然而,据我们所知,之前的工作没有尝试使用两种模态来验证多模态主张。此外,他们的模型旨在预测主张的每个来源的可信度,而我们从多个来源学习聚合一致性。03. 数据集和证据收集0数据集。我们使用包含原始和伪造('脱离上下文')图像的NewsCLIPpings [27]。它是建立在VisualNews[26]语料库上的,该语料库包含来自4个新闻媒体的新闻片段:The Guardian,BBC,USA Today和TheWashingtonPost。NewsCLIPpings数据集根据用于将图像与标题匹配的方法(例如,文本-文本相似性,图像-图像相似性等)包含不同的子集。我们使用'balanced'子集,该子集具有所有匹配方法的代表性,并包含71,072个训练示例,7,024个验证示例和7,264个测试示例。为了启动我们的证据辅助检测,我们使用图像-标题对作为查询执行Web搜索,如图1所示。0文本证据。我们使用Google Vision API[4]以逆向搜索模式使用查询图像来检索文本证据。API返回与该图像相关联的实体列表,我们将其作为文本证据的一部分进行收集。它们可能描述图像的内容以及这些图像出现的上下文,如图1中的实体列表。此外,API还返回图像的URL和包含页面的URL。与先前的工作[50]不同的是,与仅考虑包含页面标题的先前工作不同,我们还收集了图像的标题。我们设计了一个网络爬虫,访问页面,使用URL或图像内容匹配(使用感知哈希)搜索图像的标签,然后检索标题(如果找到)。我们抓取标签,以及< img>标签的文本属性,如alt,image-alt,caption,data-caption和title。此外,我们观察了几百个API调用的返回页面,并实施了其他基于它们的策略来抓取标题。我们还保存页面的标题。从每个页面,我们收集所有找到的非冗余文本片段。API最多返回20个搜索结果。如果标题的检测语言不是英语,我们使用fastText库[12]进行语言识别,丢弃页面。我们收集每个证据项的域作为元数据。0与仅考虑包含页面标题的先前工作不同,我们还收集了图像的标题。我们设计了一个网络爬虫,访问页面,使用URL或图像内容匹配(使用感知哈希)搜索图像的标签,然后检索标题(如果找到)。我们抓取标签,以及标签的文本属性,如alt,image-alt,caption,data-caption和title。此外,我们观察了几百个API调用的返回页面,并实施了其他基于它们的策略来抓取标题。我们还保存页面的标题。从每个页面,我们收集所有找到的非冗余文本片段。API最多返回20个搜索结果。如果标题的检测语言不是英语,我们使用fastText库[12]进行语言识别,丢弃页面。我们收集每个证据项的域作为元数据。0视觉证据。其次,我们使用标题作为文本查询来搜索图像。我们使用Google自定义搜索API[10]执行图像搜索。我们最多检索10个结果,同时保存它们的域。重要的是要注意,与逆向图像搜索不同,这里的搜索结果并不总是与文本查询的精确匹配相对应。因此,视觉证据可能与查询图像更松散相关。然而,即使它与事件不完全相关,它也作为与该主题相关的图像类型的有用基线。数据集分解。我们将数据集组件和任务总结如下:0数据集。除非找不到搜索结果,数据集中的单个示例包括以下内容:0• 查询图像Iq。•查询标题Cq。•视觉0- 图像列表:Ie = [Ie1,...,IeK]。0• 文本证据:0- 实体列表:ENT = [E1,...,EM]。-标题/句子列表:S =[S1,...,SN]。任务。将{Iq,Cq}分类为:纯净或虚假。04.一致性检查网络0我们引入了图像-标题配对的证据辅助真实性评估任务。如图1所示,我们通过将文本证据与查询标题进行比较,将视觉证据与查询图像进行比较来执行“多模态循环一致性检查”。挑战。该任务比仅仅将查询与证据进行一对一匹配要复杂得多。首先,许多搜索结果可能与查询无关(既不证伪也不支持),并且作为噪音。其次,将查询与证据进行比较需要进一步的Visual evidenceTextual evidence Pristine/ falsifiedCLIPQuery imageQuery captionClassifierVisual reasoningTextual reasoningQuery imageResNet(ImageNet)ResNet (Scenes) Visual evidenceLabels overlap feature Memory networksQuery featuresMemory outputMemory outputMemory networksEvidence featuresConcatenateQuery featuresConcatenateEvidence features149430图2.我们的一致性检查网络(CCN)概述。0理解和推理。对于纯净的例子,文本证据可能从查询标题的释义到远离但支持的内容。对于虚假的例子,它们可能从具有不同的命名实体到具有相同的实体但在不同的上下文中,例如图1中的例子。同样,将视觉证据与查询图像进行比较需要视觉和场景理解或区域比较。我们提出了一种新颖的架构,一致性检查网络(CCN),以应对这些挑战。我们在图2中展示了该方法的概述。我们方法的核心是记忆网络架构[9, 23, 28,40],它选择性地将声明与可能庞大的证据列表中的相关项目进行比较。此外,注意机制允许检查哪些证据项目与决策最相关。该模型由视觉推理组件、文本推理组件和“CLIP”组件组成。04.1. 视觉推理0图3概述了视觉推理组件,该组件检查查询图像与视觉证据之间的一致性。首先,我们使用在ImageNet数据集上预训练的ResNet152[16]表示图像。每个图像表示为:Iq/Ie∈R2048,其中q表示查询表示,e表示证据。此外,为了推理查询图像与证据图像中区域和对象的重叠,我们使用标签检测Google API[3]获取每个图像的标签列表。然后,对于每个证据图像,我们计算其与查询之间的重叠标签数。我们使用此信息来计算匹配度。0图3. 视觉证据推理组件。0作为附加特征,我们将证据图像的数量作为一个附加特征,并将其与证据图像的表示进行连接。内存保存着证据图像。每个输入到内存的数据都被嵌入为输入和输出内存表示[40],分别表示为a和c。图像内存向量mi∈R1024表示为:0mai = ReLU(WaiIe + bai), (1)0mci = ReLU(WciIe + bci) (2)0学习到的参数是Wai和Wci∈R2048×1024,bai和bci∈R1024。查询图像Iq也通过另一个线性层投影为一个1024维向量(ˆIq),以方便建模。ˆIq与内存向量mai之间的匹配由以下公式计算:0pij = Softmax(ˆIqTmij), (3)0其中i表示图像内存,j是内存项的计数器,pi是一组概率向量。内存的输出是查询和输出表示mcj的加权和,其中权重由pi决定:0oi = �0jpijmcij+ˆIq (4)0此外,对于一些不匹配的示例,根据地点可能存在上下文差异。为了使模型能够识别场景和地点的相似性,我们还使用在Places365数据集[49]上训练的ResNet50表示图像。我们为场景表示形成一个单独的内存,以提供更大的灵活性。与之前的公式类似,每个图像表示为:Pq/Pe∈R2048,场景内存向量mp∈R1024表示为:0macp = ReLU(Wa/cpPe + ba/cp) (5)0与公式3和公式4类似,我们得到场景(地点)内存op的输出。04.2. 文本推理0我们模型的第二个组成部分评估查询标题和文本证据之间的一致性。如图1所示,我们有两种类型的文本证据:句子(标题或页面标题)和实体。由于它们具有不同的粒度并且在重要性上可能有所不同,我们为每种类型的证据形成一个单独的内存。如图4所示,我们使用句子嵌入模型表示查询标题和每个证据项。我们尝试了在大型语料库(如维基百科)上训练的最先进的推理模型,这些模型已被证明可以隐式存储世界知识[25,31,38],因此非常适合我们的任务。我们在实验中评估了两种方法:1)预训练的句子转换模型[37],用于句子相似性,2)Evidence entities Sentence embeddings moduleNamed entitiesoverlap feature Evidence captions Query captionConcatenateConcatenateEvidence entities featuresQuery caption featuresEvidence captions featuresMemory outputMemory outputMemorynetworksMemorynetworksTextual evidencema/ce= ReLU(W a/ceE + ba/ce),(6)ma/cs= ReLU(W a/csS + ba/cs),(7)L =ytrue log(pf)(1ytrue) log(1pf)(9)149440图4. 文本证据推理组件。0使用BERT[11]获取强大的上下文嵌入,此外还使用LSTM对序列进行编码。在第二种方法中,我们使用倒数第二层BERT[48]作为标记的嵌入。我们将最后一个时间步的LSTM输出和所有时间步输出的平均值进行连接。此外,为了使模型能够识别实体,我们使用二进制指示特征来表示查询标题和证据项之间是否存在命名实体重叠。我们使用spaCy NER[17]提取实体,并将二进制特征与证据(标题和实体)表示进行连接。使用上述任一方法,我们可以获得查询标题Cq、证据实体E和证据标题/句子S的嵌入。实体输入和输出的内存表示如下:0类似地,标题/句子的输入和输出记忆表示如下:0其中W a/c e,W a/c s ∈ R d × d和b a/c e,b a/c s ∈ Rd是可训练的权重,d是句子嵌入模型的维度(在预训练模型的情况下为768,在使用BERT+LSTM的情况下为512)。根据公式3和公式4,我们计算实体和句子记忆的输出分别为oe和os。对证据的领域进行编码。网站的特征,例如它们的出现频率和它们所提供的新闻类型,可以帮助优先考虑证据项目。因此,我们学习证据领域名称的嵌入。我们将域名表示为独热向量,并将其投影到20维空间中。我们考虑至少出现三次的域名,共有17148个唯一的域名,其余的设置为UNK。然后,将域名嵌入与证据表示(包括视觉和文本,不包括实体)进行连接。04.3. CLIP0除了对证据进行推理之外,我们还利用在[27]中使用的CLIP[35]将图像-文本一致性整合到决策中。我们首先对CLIP进行微调0在将图像和文本通过CLIP编码器并归一化它们的嵌入之后,我们使用ViT/B-32对图像-标题对进行分类,而不考虑证据。我们产生一个联合嵌入,它是图像和文本嵌入的点积,并在其上添加一个线性分类器。该模型被训练为将图像-标题对分类为真实或伪造。然后,我们冻结微调的CLIP,并将联合CLIP嵌入(J clip)整合到CCN的最终分类器中。04.4. 分类器0现在我们已经单独评估了文本-文本、图像-0图像和图像-文本一致性,我们将这些观察结果汇总,以达到统一的决策。我们发现在训练过程中,将每个组件的输出应用于批量归一化层[19]对于训练是有帮助的。然后,我们将所有先前的组件连接成一个特征向量o t ,如下所示:0o t = BN ( o i ) ⊕ BN ( o p ) ⊕ BN ( o e ) ⊕ BN ( o s) ⊕ BN ( J clip ) , (8) 其中BN表示批量归一化。然后,o t传递给一个简单的分类器,该分类器具有两个全连接层,第一个层后面有ReLU和批量归一化(维度:1024),第二个层后面有Sigmoid,输出最终的伪造概率(p f)。该模型在冻结骨干嵌入网络的情况下进行训练,使用二元交叉熵损失对示例进行二元分类:0更多实现细节可以在补充材料1中找到。05. 实验结果0在本节中,我们展示了模型和基线的不同变体的定量分析。然后,我们提出了用户研究、定性分析和讨论。05.1. 定量分析0我们评估了我们的模型和其他变体,以了解每个组件的影响。表1显示了我们的实验结果。我们总结了不同的方面,并突出显示了最有趣的观察结果。证据类型。我们首先展示了每种证据类型的影响。删除证据图像或证据标题会显著降低性能;这些结果表明了整合两种模态进行验证的重要性。删除实体的影响较小。这可能是因为与证据标题已经存在一些冗余信息,或者因为有时存在一些对验证标题主张没有帮助的通用命名实体。记忆设计。在每个组件之后添加批量归一化层,如公式8所示,改善了训练和#BNCLIPBERT+LSTMNERdel149450将准确率提高了近11个百分点。我们研究的另一种变体是具有包含图像、标题和实体的统一记忆。这里的查询是图像和标题对的连接。如第6行所示,这种方法不如分离的记忆设置成功,这表明显式的文本-文本和图像-图像的一致性比较有助于学习。证据过滤。由于数据集是由真实新闻文章构建的,谷歌搜索可能会返回与查询搜索完全相同的新闻(即具有完全相同网页的确切新闻)。虽然这在实际的事实检查设置中是必需的,但它可能会对训练产生偏见;模型可能会使用它/或其缺失作为预测真实/伪造对的捷径,而不需要更强的推理。因此,我们按照以下方式过滤证据:对于真实的例子,如果证据项与查询匹配并且来自与查询相同的网站,则将其丢弃。为了检测匹配,我们使用感知哈希来处理图像。对于标题,我们去除标点符号并将所有句子转换为小写,然后检查它们是否完全匹配。然后,我们使用这个过滤后的数据集进行训练和评估。如第7行所示,这并没有显著降低准确率,这表明模型在超出完全匹配的一致性方面进行了推理。其他改进。我们展示了我们的其他改进,包括添加CLIP和改进视觉和文本表示,以恢复由于证据过滤而导致的性能下降。CLIP的效果相对最大,增加了约1.5个百分点。使用BERT嵌入训练LSTM的效果优于使用预训练的句子转换模型。这可能是因为它允许模型在标记级别上学习,并关注我们的用例中比一般的句子蕴涵任务更具体的线索,如命名实体、位置等。最后一行0证据类型0分离的记忆0标签0句子转换器0准确率01 全部 � � � � � � � � � � 73.5% 2 没有图像 � � � � - - - � � � 62.5% 3 没有标题 � � � � � � � � � � � � � 71.8% 5 全部 � � � � � � � � � � 84.2% 6 全部 � � � � � � � � � � 81.7% 7 全部 � � � � � � � 81.2% 9 全部 � � � � � � � � � � 82.6% 10 全部 � � � � � � � � � � 83.4% 11 全部 � � � � � � � � � 84.7% 13 没有领域 � � � � � � � � � � 83.9%0表1.不同模型变体在测试集上的分类性能。突出显示的单元格表示该实验中的变化因素。绿色框表示最佳模型。0方法 证据 对 所有 伪造 真实0CLIP � � 66.1% 68.1% 64.2% 平均 � � 70.6% 72.4% 68.9% CCN � �84.7% 84.8% 84.5%0表2. 我们的模型与基线模型在测试集上的分类性能对比。0结果表明,包括证据的领域在一定程度上有所帮助,因为它可能帮助模型关注和优先考虑证据项目。其他实验详见补充材料2.基线。我们在表2中将我们的证据辅助检测与[27]中使用的仅使用CLIP的基线进行了比较。我们对CLIP进行了微调[35],在这个数据集子集上的准确性比[27]中最初报告的要高。由于数据集的配对并不简单,这个基线的性能相对较低。相比之下,我们实现了近19个百分点的显著提高,表明利用证据解决这个任务是重要的。由于以前没有证据辅助的超出上下文检测的基线,我们设计了一个使用证据的基线。我们在相同的文本-文本和图像-图像相似性设置中使用ResNet-152和句子转换器的预训练图像和文本表示。我们通过点积计算查询和证据之间的匹配。然后,我们使用平均池化层对所有证据项目进行池化,用于分类。如表2所示,这个基线优于仅使用CLIP的基线。然而,我们提出的模型在其他改进方面实现了约14个百分点的提高。05.2.用户研究0我们进行了用户研究,以估计数据集上的人类表现,并评估证据在检测中的有用性,以及模型高度关注的证据项目的相关性。05.2.1研究1:人类表现基准0我们旨在建立人类基准作为超出上下文图像检测准确性的上限估计。由于自动开放世界证据检索,我们没有一个标记的数据集来指示证据项目是否与主张相关。此外,一些示例可能没有检索到任何相关证据。此外,伪造的示例可能非常接近原始上下文,即使有证据存在,也很难验证。设置。我们从测试数据集中随机选择了100个示例(48个原始的,52个伪造的)。除了图像-标题对,我们还呈现了收集到的证据(图像,标题和实体)。对于每对,首先,我们问用户是否标题与图像匹配,考虑到它们之间的不一致线索,呈现的证据或他们对主题的先验知识。然后,他们回答哪些信息来源帮助他们标记01530456075One of our main goals is to have an automated fact-checkingtool while also allowing humans to be in the loop, if needed.We hypothesize that the attention weights given by themodel can be used to retrieve the most relevant and usefulevidence, which enables a quick inspection.We design a second study to evaluate this hypothesis. Werandomly selected 100 examples (50 each) that at least have8 evidence items in each type2. We designed two variantsusing the same 100 pairs; in the first, we display the highest-attention 4 items from each evidence type, in the second, wedisplay the lowest-attention 4 ones. The two variants arelabelled by non-overlapping groups (8 workers each). Wefollow the rest of the first study’s setup and instructions.Results. Table 3 and Figure 5 show that the highest-attention evidence had higher performance and generallybetter ratings as ‘helpful’ compared to the lowest-attentionevidence. These findings suggest that the model learned toprioritize the most relevant items, as intended, and can po-tentially be beneficial for 1) inspectability and, 2) assistivefact-checking; as workers had a higher performance withonly a subset of evidence.149460研究所有伪造的原始0平均0第一81.0% ± 4.71 79.5% ± 8.31 82.3% ± 9.310第二,最高86.2% ± 4.9 84.5% ± 9.3 88.0% ± 7.20第二,最低77.7% ± 6.0 76.0% ± 9.0 79.5% ± 7.50最佳工作者0第一89.0% 92.0% 93.7%0第二,最高94.0% 98.0% 98.0%0第二,最低88.0% 90.0% 86.0%0表3.我们的两个用户研究。第一个是标记100个随机示例。第二个是使用1)最高关注度和2)最低关注度的证据标记另外100个示例。0对于这对,或者如果很难验证,则指示“无”。我们指示他们不要搜索其他证据,以便我们的模型和人类都可以访问相同的证据,并评估我们框架收集到的证据的有用性。我们通过Amazon MechanicalTurk招募了8名经验丰富的以英语为母语的众包工作者。结果。表3显示了所有工作者的平均表现和最佳工作者的结果。与[27]中报告的结果相比,当提供证据时,人类的表现显著提高(平均检测率为65.6%,仅有35%的伪造检测率)。此外,CCN在这100个示例中实现了80%的准确率,低于最佳工作者,但与平均工作者相当。0图5显示了在研究期间帮助工人对图像-字幕对进行标记的信息。我们强调以下观察结果:1)在平均情况下,77.2%的示例中,证据对工人的决策有所贡献,而图像-字幕对仅有59.3%的贡献。在28.3%的情况下,证据是唯一有帮助的线索。2)在各种证据类型中,图像是最有帮助的(64%),可能是因为一目了然地抓住不同的图像。3)12.3%的示例很难验证。在检查其中一些示例(补充材料3)时,我们观察到它们没有明显的线索(例如,具有事件特定字幕的通用场景,具有相似背景的同一人物的图像)。此外,它们有时检索效果较差(逆向搜索未找到图像,因此没有证据字幕,证据图像与查询无关或不具有决定性)。我们的模型在检测这些示例时也遇到了困难。在这些情况下,通过使用较宽松的检索(例如,使用字幕的关键词进行搜索,查找其他相似图像的字幕)可能有所帮助。0先验0对0图像0字幕0实体0任何证据0仅证据0无0有帮助的线索0百分比(%)0第一研究 第二研究 - 最低第二研究 - 最高0图5.工人们指出了帮助他们做出决策的因素。'任何证据'表示任何类型的证据都有帮助。'仅证据'表示只有证据有帮助。05.2.2 研究2:评估注意力05.3. 定性分析0我们在图6中展示了我们模型的一些成功预测。在检查原始示例的注意力时,我们发现最高的注意力集中在与查询最相关的项目上(例如,第一个示例中的相似图像,与查询字幕中存在或相似的命名实体,以及语义上相似的字幕)。尽管第二个示例没有相同场景的图像,但模型也预测得正确。对于伪造的示例,我们观察到第三个示例尽管具有类似的伪造主题(“可负担的医疗保健”和“诉讼”),但预测是正确的。此外,第四个示例在实体中对矛盾的位置和最具语法相似性的字幕上具有最高的注意力。尽管具有与查询相似的样式证据,但预测是正确的。类似地,图1中的伪造示例在人物的姓名和图像上是相似的(“大卫∙卡梅伦”),但在上下文和场景细节上是不同的。最后,最后一个示例显示了一个被错误分类为伪造的原始示例。在检查文本证据时,我们观察到尽管它围绕着相同的主题,但与查询字幕的上下文几乎没有联系,此外还有一组与查询图像不相似的多样化的视觉证据。其他示例请参见补充材料4。0在这项第一项研究中,一些示例可能没有足够的证据。然而,我们保留它们以获得数据集的代表性。The Futenma marine corpsairbase on the southernJapanese island of Okinawa‘United States’, ‘Ginowan’,‘Governor’, ‘Military base’,‘Politics’, ‘Japan’, ‘Takeshi Onaga’,‘Governor of Okinawa Prefecture’,,‘Hirokazu Nakaima’,‘Shinzo Abe’,‘Okinawa’, ‘airport’1- Hercules aircraft parked on the tarmacat Marine Corps Air Station Futenmain Ginowan on Okinawa.2- Japan Decides to Stop Works on USAirbase Relocation in Okinawa.3- Japan Decides to Restart Relocationof US Base in Okinawa Despite Protests.The soaring number ofSyrian refugees hassparked increasingresentment in Lebanon‘Syria’, ‘Lebanon’,‘United Kingdom’, ‘Tent’,‘Syrians’, ‘Language’,‘Refugee’, ‘Recreation’,‘Tourism’, ‘Camping’,‘Language barrier’,‘rural area’1- Syrian refugees at a campin eastern Lebanon, December 2014.2- Syrians entering Lebanon facenew restrictions3- Among those displaced, 1.6million children have fled Syria.4- Syrian refugees in the UK: ‘Wewill be good people. We will buildthis country’Healthcare activists say the rulingagainst Novartis ensures poorpeople will be able to accesscheap versions of cancer medicines‘United States Capitol’,‘Affordable Care Act’‘Supreme Court of the United States’,‘Presidency of Donald Trump’,‘President of the United States’,‘United States’, ‘us capitol grounds’1- Demonstrators from Doctors forAmerica in support of Obamacaremarch in front of the SupremeCourt on March 4, 2015.2-The Affordable Care Act Is BackIn Court, 5 Facts You Need To Know.3- As Court Hears Arguments inLawsuit To Eliminate Obamacare,Conn. Senators Plead Their Case.Smoke rises following anIsraeli air strike in Gaza City‘Kobane’, ‘Kurdistan Region’,‘United States’, ‘Peshmerga’,‘Turkey’, ‘Kurd
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功