没有合适的资源?快使用搜索试试~ 我知道了~
2819多模态错误信息识别的自监督蒸馏学习美国纽约州立大学布法罗分校{msmu,sreyasee,jsyuan} @ buffalo.edu摘要虚假信息的快速传播是一个日益受到关注的重大社会问题。与深度伪造、脱离上下文的错误信息不同,其中未改变的单模内容(例如,图像、文本)以脱离上下文方式组合以产生欺骗,需要有限的技术专长来创建。因此,它是一种比较普遍的迷惑读者的手段。大多数现有的方法从其单模式对应物中提取特征在本文中,我们设计了一种自监督特征表示学习策略,旨在实现多任务目标:(1)任务不可知的,其评估模式内和模式间的表示方法,以改进跨相关模式的对准;(2)任务特定的,其估计类别特定的多模态知识以使得分类器能够导出更具区分性的预测分布。为了弥补缺乏表示不同类型错误信息的注释数据,所提出的自监督分布式学习者(SSDL)利用教师网络来弱引导学生网络模仿与教师相似的决策模式。SSDL的两阶段学习可以总结为:使用对比自监督任务无关目标和监督任务特定调整的组合并行地对学生模型进行初始预训练;通过与决策对齐的监督目标混合的自监督知识蒸馏来微调学生模型。除了在现有基线上表现出一致的性能,证明了我们的方法的可行性,拟议的SSDL的可解释性能力也有助于用户可视化模型做出的特定预测背后的原因1. 介绍错误信息的传播,无论是以完整的新闻文章还是只是一条小推文的形式,都引起了人们的注意。在各个领域的重要关注,政治、金融、社会和其他[1,2]。根据微博作为一个新兴的研究领域,错误信息评估已经引起了多个学科(社会科学、传播学、新闻学、计算机科学)研究者的关注为了确保对受众的最大影响,这种误导性新闻文章的内容创建者经常利用多模态信息,例如,文本和图像来描述主题。 一种特殊类型的恶意多模态操纵努力,深度伪造[27,39,6,12],已经受到研究人员的极大然而,近年来的一种常见现象,即众所周知的背景外图像[15,36],是一种更为普遍的传播错误信息的手段。它利用了现有的未改变的图像,但通过新耦合的文本代表了一个不相关的和误导性的事实。与深度伪造不同,生成上下文外的多模态新闻内容需要非常有限的技术经验[23]。事实上,这种操纵更难识别,因为它的单模内容本身都没有被扭曲,并且有大量的方法来生成这种误导性的内容。虽然目前的核查做法在很大程度上依赖于人工事实核查工作,但需要一种自动化的手段来促进这一进程。一组现有的方法[40,45,46]试图通过利用可用的证据(如实体、上下文、社交媒体对帖子的响应/反应等)来识别这样的错误信息。然而,这些方法中的许多将它们的焦点限制在基于文本的元数据以验证声明,而验证跨模态对应关系对于成功检测这种图像再利用事件可能是至关重要的。虽然最近的一些工作[41,3]旨在近似这种多模态关系,但其中许多依赖于非最佳事实信息的一致性(例如,命名实体信息)或外部开放域证据来支持事实检查任务。但实际上,可用性2820由于包括成本过高在内的许多原因,这种辅助信息的使用对于所有种类的新闻内容相比之下,我们的目标是设计一个可解释的分类器,将多模态新闻内容分类为与以前的工作[5]不同,训练集合中的图像不需要有两个或更多的除了是可解释的,这有助于模型证明其决策的突出显示的查询图像区域有助于(或减损)其准确性属性,所提出的自监督蒸馏学习器(SSDL)采用了两阶段的自监督学习(SSL)策略。它利用文本模态输入对伴随图像的弱指导来构建初始分类器。然后,这将作为第二阶段学习的基线学生模型。为了进一步增强该初始学生网络的泛化能力,在第二阶段,所提出的自监督知识蒸馏策略利用教师网络(在SSL设置中单独预训练,但在知识蒸馏阶段保持冻结),并且基线学生模型被进一步微调以在识别的数据样本集上模仿与教师特别是,这项工作的主要贡献包括以下方面:1. 一个多模式多任务SSL框架,结合语言驱动的内容内信息和自我监督来评估给定新闻内容的准确性因素。2. 一个自我监督场景中的知识蒸馏过程,有助于将知识从更大的教师网络转移到专业化但更小的学生模型,以进行多模态错误信息识别。3. 使用解释可视化方案进行评估,使模型能够将决策(例如,影响不一致性判定图像子区域或文本段)。2. 相关工作大量的工作集中在检测假新闻和谣言,其中目标主要是评估单模态新闻内容[7,43,33,24,30]。最近的一些工作已经利用多模态信息来提高决策精度[47,8]。然而,在这项工作中,我们解决了另一种重要的错误信息的识别,在这种错误信息中,多模态新闻样本的单模态内容都没有改变,但改变只出现在其操纵的图像-文本corr中。响应这通常被归类为一种便宜的假,它很容易创建,比Deepfake更普遍和在本节中,我们回顾了这方面和其他相关主题的最新文献,以突出所提出的SSDL模型的独特贡献。多模态信息验证:一组作品[28,23,9,5],与图像再利用[21]的作品密切相关,探索了组成单模态组件(即,文本-图像)的多模态新闻内容,以验证其内容的准确性。为了描述数据模式的巨大频谱和缺乏足够代表性的数据收集,通常,现有文献[32,26]使用合成数据收集,通过随机组合真实图像与其他新闻内容的真实标题(但不是它自己的)来生成上下文外的图像样本。这样的合成数据收集可能不足以反映现实生活中的问题场景的挑战,因为图像和随机文本标题之间存在弱/无关系可能提供针对其不一致性的简单且明确的在最近的工作中,Aneja et al.[5] UTI是专门定制的数据集合(其中每个新闻样本是与从不同新闻资源收集的一对字幕组合的真实图像),并且它们的目的是确定伴随图像的两个字幕是否一致。虽然对此类数据集的可用性的假设可能会影响模型在通用测试设置中的合理性,但其对文本模式的不成比例的此外,这些方法都没有解决可解释性问题,这对于这种社会敏感的用例设置可能特别关键。然而,这些方法中的许多方法是在模拟中评估的另一类作品介绍了多模态事实检查方法,该方法利用外部知识库进行信息验证[26,47]。Sahar等人[3]收集视觉和文本组件的证据,以执行周期一致性检查。然而,依赖于这样的外部信息进行有效性检查使得整个方法非常昂贵、复杂、存储器密集,并且难以在通用测试设置中部署此外,在此用例中,设置的主要目标是尽早验证新闻项的内容。因此,一般来说,网络上与该新闻主题相关的证据的可用性可能无法得到保证自监督学习:随着对比学习的最新进展,自监督学习已经成为一种有效的学习模型,它利用了交互式学习。2821D|i=1∈DD{}图1.概述我们提出的方法不同数据区域之间的最终结构和外观建模,以驱动预测模型的训练[16,10,18,44,25]。还提出了不同类型的对比对象,以增强基于SSL的特征表示的可为了最大限度地提高这种有限但变化广泛的数据环境中的学习效果,在这项工作中,我们利用SSL架构在半监督多任务学习环境中的优势,具有两个互补的目标:任务不可知(无类标签学习)和任务特定(有类标签学习)。知识升华:为了解决神经网络模型中过拟合的挑战,知识迁移[20]试图将知识从一个较大的网络(通常称为教师网络)转移到另一个较小的网络(通常称为学生网络),而不必从头开始学习。一组作品使用不同的学习目标制定知识蒸馏[4,38,34]以增强特征的可辨别性。然而,这些方法中的大多数采用监督学习场景,其中学生网络从教师网络获得任务特定的转移知识,而不是任务不可知的知识组件。所提出的SSDL引入了一种自监督方式的多模态表示学习,其中跨模态一致性在各个细节级别上得到验证。3. 该方法3.1. 问题陈述所提出的模型的概述如图1所示。给定多模态新闻内容(v,t)(具有其视觉分量v和文本分量t),所提出的自监督蒸馏学习器(SSDL)的目标是估计其跨模态一致性状态二进制类标签(“原始”或“伪造”)。为了能够最大限度地利用有限大小的注释数据集,SSDL设计了一种自监督学习方法,该方法通过利用多模态训练参数,使用任务特定和任务无关约束经文火车=n i|D路车|培养一个初级学生分类器S初始化。 在火车,每个多模态新闻样本n i:=(vi,ti,l i)表示使用视觉成分v i和文本成分t i的类别l i的实例(其可以是“原始”或“伪造”)。然后,在知识蒸馏过程之后对基线S init进行微调,以转移特定于领域的多模态知识,从而进一步增强整体学习者能力。3.2.多模态多任务自监督学习给 定 预 先 训 练 的 视 觉 语 言 模 型 ( 例 如 ,CLIP[31] ),我们将其编码器函数表示为f (.θc)。除 非 另有说明,为了符号简单,我们将省略θc并将函数表示为f()。实 际 上,编码器f()将英语语言概念的知识(使用文本分量t表示)与从原始多模态输入(v,t)到固定维度多模态描述符(f(v),f(t))的语义知识(使用图像分量v表示)相结合。我们选择了CLIP编码器,因为与其他非对比选项相比,它们的性能有所改善[35,13]。然后,这些描述符用于通过非线性函数g(·)(例如,深投影头)。 对于每个样本n i训练,在该第一学习阶段期间,创建其视觉组件vi的若干视图以经由两种类型的损失组件验证与ti的一致性以及它们的相互自适应性:任务不可知和任务范围。2822我我comp一LCLS我我D我我|--我CLS我CLS我e我我(一)在我们的实验中。我由注释的数据集合D我j=1我J我我aijcific.模态损耗[31],定义为:给定一个图像vi,其每个增广(我们使用ljl,jl,j随机裁剪,颜色失真和高斯模糊,Lcls(zi,h(ti),li)=−li log(mi)−(1−li)log(1−mi)分段)对xj和xk经由CLIP编码以获得1,jj2,j(三)i ijk,其中l=1,2且mi=sim(zi,h(ti)T),mi=它们的衍生表示ci和ci,我们表示其中cl=f(xl),其中l=1,2。这些描述符是sim(h(ti),(zj)T),和li是标签。 现提述─因此,sim(,)是其两个之间的缩放余弦相似度。用作G()的输入,以生成所得到的对比度增强的描述符Zj和Zk。变元向量直观地,我们期望函数g()通过其学习的单模描述符zj和h(ti)展示出更高的可区分性,使得m l,j在cor时更高。我我3.2.1任务不可知的自我监督学习为了使用训练集合{(vi,ti)}i学习语义相关的多模态表示从表示类别“优先”的训练样本(vi,ti)生成响应增强样本(cj,f(ti))。然后是全面的特定任务一致性损耗分量计算为Lcls=1−min(ai,ai),监督学习方法SimCLRV2 [11]来控制,其中aj=L1(zj,h(ti),li)+L2(zj,h(ti),li)并且ai=通过最大化两个参数,1CLS(h(vi),h(ti),li)+L2(h(vi),h(ti),l i).而分量:同一图像的两个不同的增强视觉分量之间的模式内一致性;模式间一致性,使用每个增强视觉分量与伴随的文本分量的成对一致性与整体图像-文本跨模式一致性的比率。在一个小批量学习之后-项A1量化在(Vi,Ti)的单模分量中观察到的跨模态类别特定相似性,我们假设A1(其量化增强样本(X1,Ti)的单模分量的跨模态相似性)和A1将典型地表现出几乎相同的跨模态相似性模式。因此,最小化-在框架中,zj和zk之间的对比损失为ingLcls相当于最大化特定类别定义如下:i icomp通过g()学习的描述符中的跨模态一致性。最后,部署用于学习S init计算为:Ltot=Lself+Lself+Lcls..sim(zj,zk)/τKp=1I我我initvis文本compLvis(zi,zi)=−logB+1(p/=j)(esim(zj,zp)/τ)我们没有使用任何秤来衡量这些组件的其中I是指示函数,τ是温度参数,sim()是相似性函数(例如,缩放余弦相似性),并迭代B+1批大小。xj与其伴随文本成分的相对一致性3.3. 自我监督知识蒸馏为了进一步提高这个基本的学生分类器Sinit的泛化能力,我们引入了一个自监督的嫩特我我比较了跨模态一致性,知识的升华,可能,利用有限的-整个图像Vi和Ti定义如下:.esim(zj,h(ti))/τp=1我我规模的数据收集在训练中,从一个微调的更大的教师网络转移知识,以提高区分,S初始化的可扩展性。预训练的视觉语言编码器(我们使用CLIP网络设计)很好-我Ltext(zi,ti)=−logB+1I(p/=j)esim(zp,h(t))/τ+sf()其中h=g<$f和s(二)=exp(sim(h(v),h(t))/τ)是教师网,f te(. |θte).火车我我我给定来自D火车的样本ni:=(vi,ti,li),其vi-整体图像-文本跨模态一致性。super组分V1用于产生一批其aug,扩展版本{xj}B . 所以我们期待着分布-3.2.2任务特定一致性学习目标为了评估模型的特定任务理解及其在细粒度细节上的跨模态对应性,我们比较了从同一数据集实例生成的增强样本的特定类别预测分布之间的差异。特别地,作为多模态样本,(cj,f(ti))和(f(vi),f(ti))都应该报告类似的类别特定预测分布。为此,我们利用基于交叉熵的CLIP类多自我J虽然可以采用若干缩放配置来自我J来定义2823t i与批次x j j的元素之间的相似性分数的关系,从教师网络获得,并由学生网络计算,由fst(. θst)(由S init初始化),应该类似。为了简单起见,我们将再次省略相应的-学习教师(和学生)网络的可学习参数,并将其表示为fte()(和fst)。 特别是这种直观的理解是通过最小化学生和教师2824我我disCLSdis×我j=1我我我我我Σ--自我图2.来自NewsClipping数据集的一些示例结果[23]对于批次xjB,我们定义它们的成对相似性分布,其中ti由教师网络获得为pte=[pte,1,...,pte,j,....,其中pte,j=sim(fte(x,j),fte(t,i))。 类似地,由Student网络获得的具有ti的一批增强视觉组件的成对相似性分布是确定的。精确为pst=[p st,1,.....,pst,j,...., p st,B],其中p st,j=分类:“原始”和“伪造”。代表“伪造”类别的样本由图像组成,该图像与其文本标题组件不对齐。它利用了最近引入的VisualNews语料库,该语料库包含来自四个 不 同 来 源 的 新 闻 : BBC , The Guardian , TheWashington Post;今日美国.基于这些样本如何生成的详细信息,整个集合被视为四个相互不相交的子集:分割1(或语义/ CLIP文本图像子集)是通过使用CLIP嵌入来创建的,以找到不匹配的文本图像对之间的最高相似性,从而创建伪造的配对;分割2(或语义/CLIP文本-文本子集)是通过使用CLIP嵌入来找到具有相似文本嵌入的样本以创建上下文外配对而创建的;分割3(或Person/SBERT-WK Text-Text子集)通过获取人实体来创建,然后通过找到语义上最不同的、由SBERT-WK分数确定的对应标题来匹配上下文外图像;分割4:(或场景/ ResNet地点子集)是通过匹配具有高Places365图像相似性的场景创建的,如ResNet嵌入的点积所确定的。最后,平衡分割混合了来自所有子集的相等数量的样本,以开发更真实的样本集合,并且由71,072个训练、7,024个验证和7,264个测试示例组成实验设置:所提出的方法依赖于CLIP [31]来建立研究的基线。分类-我我我综合平衡拆分的I阳离子性能sim(f st(xj),f st(ti)).然后提出知识蒸馏损失在一个自我-监督学习场景是通过优化pte和p e之间的Kullback-Leibler(KL)散度[22]来以及所有其他单独的拆分都使用准确度度量报告。为了将SSDL的性能与现有基线进行比较,我们报告了整个测试集合的准确性我们还单独报告了pst,as:我自我圣pst我p我‘Falsified’Ldis(vi,ti)=pi·logte(四)识别错误信息。然而,为了利用可用的标签信息,从Dtrain,我们还将蒸馏损失与ni∈ Dtrain的地面真实标签相结合,并将总蒸馏损失(Ltot)定义为视觉-文本类不一致性(Ll)和知识蒸馏损失(L)的组合,并计算如下:B初始预训练模型从OpenAI获得,Facebook [25],[31]. OpenAI的实现是在4亿个图像-文本对的数据集上进行预训练的。Facebook模型在过滤后的YFCC 100 M数据集上进行预训练[37],[31],该数据集被称为YFCC 15 M [25],由1500万个图像-文本对组成。使用Adam优化技术的学习是基于学习范围[10- 6,10- 5]。批量为16。Ltot(ni)= Ll(fst(xj),fst(ti)),li)+ Lself(vi,ti)disl∈{1,2}j=1CLSIdis(五)对于微调过程,预训练的描述符被馈送到2层多层感知器(MLP)分类器中。学习过程使用交叉熵损失,重复904. 实验在本节中,我们将讨论实验细节和使用大规模公共数据集的所提出方法的性能。数据集:使用最近的大规模NewsCLIPpings数据集[23]评估拟议的SSDL,该数据集包含多模态(即,每个样本都有一个文本标题,由一个图像组件可以选择提前停止的时期,使用AdamW优化,速率初始化为5e−5对于整个实验组,我们使用τ=30。结果:图2显示了一些定性结果。正如我们所观察到的,在文本中提到的实体与其各自视觉组件中存在的对象之间存在明显的相关性。前两个示例表示使用来自“伪造”类别的两个测试查询的系统预测虽然文本组件显示为2825−图3.当使用所有可用的训练样本学习单个模型(使用ViT-B/16作为主干)时,在使用准确度指标显示的组合测试集中,所提出的SSDL与CLIP [23]的比较性能,可从数据集中的所有分割中获得左图显示了SSDL在“伪造”类别中的性能,右图显示了具有真实性的证据,由于其两个模式特定表示之间缺乏对应关系,系统能够正确地将多模态查询识别为“虚假”,这是与该项目的目标相一致的系统特性,该项目的目标是组合真理和谬误以创建更有说服力的消息。对于第三和第四个查询,文本和视觉信息之间没有严重的不匹配。因此,由此产生的“原始”分类并不令人惊讶。第五和第六个例子代表了两个错误分类。例如,在第五种情况下,其中文本分量是“Rahaf Hasan..保持绘画同时,背景中的建筑物和人有助于一个清晰的连接可以画之间的单词“绘图”和突出显示的区域,涵盖绘图,有助于减损。然而,对“伪造”的贡献一个可能的原因是案文中缺乏明确的对应实体,导致前后不一致。在第六个例子中,模型发现了文本和图像之间的几个错误:蜡烛,贡品,纪念碑,还有一点巴黎人虽然,这个样本实际上是“伪造的”,但很少有迹象表明文本和图像是不一致的。作为人类,我们可以注意到观众中的一些人在微笑,而且这个地区看起来不像是广场。然而,我们由于所提出的SSDL没有考虑这种面部表情分析或关于实体的外部信息,因此使用这种小的指示符,系统无法辨别真实的标签。将所提出的SSDL的性能与具有不同骨干ViT-B/16[14]和RN 50 [19]的最新CLIP [31]模型进行比较。图3比较了使用ViT-B/16作为骨干的建议的多模态错误信息识别方法的一般性能,该方法学习初始Student分类器,然后通过建议的自监督知识分解模块对其进行改进,以构建完整的SSDL模型。图4. 当 使 用 所 有 可 用 的 训 练 样 本 学 习 单 个 模 型 ( 使 用ResNet50作为主干)时,使用准确度指标显示的组合测试集中所提出的SSDL的比较性能,这些样本可从数据集中的所有分割中获得。左图显示了SSDL在“Falsified”类别中的性能统一模型性能:根据Radford等人的实验方案。[31]中,我们评估了在来自所有分裂的所有组合训练集上训练的单个模型,以便它相对于两个类别是平衡的。根据图中左侧曲线图中报告的结果,SSDL在“错误”类别中显示出显著的性能增益(所有四个分割的性能提高约7%,平衡分割的性能提高10%右图显示了SSDL在整个测试集合中的比较性能,报告了4次分裂中有3次的准确率提高了约24%。我们还注意到,在平衡分割中(根据其非常结构化的定义,可以将其视为数据集中所有类型错误信息样本的聚合快照),SSDL报告在使用整个测试集合进行的实验中与CLIP相比改善了约3%。在图4中也观察到类似的性能,其中使用Resnet50作为其主干构建模型,并将SSDL的性能与基线CLIP模型进行比较 如图4的右图所示,SSDL显示约为1。2%的平均性能增益在所有四个分裂,也报告约1。5%的改进,在平衡分裂。事实上,根据图4左图中的统计数据,虽然CLIP在各种数据集分割的“伪造”类别中显示了不受欢迎的性能趋势(例如,CLIP报告的平均准确度约为70。1%与SSDL报告的平均准确度为72。7%使用Resnet50骨干),SSDL在所有分割中表现出一致的优越性能。最后,我们看到平衡分割的SSDL性能提高了3%。在图3和图4中,在多任务自监督、半监督场景中学习的初始Student分类器表现出比CLIP持续改进的性能。然后,结果自监督知识提取模块,这具体地使模型能够放大其在挑战“伪造”类别中的辨别能力2826−图5.使用精确度指标显示的拆分特定测试集中拟议SSDL与基线[23]的比较性能。我们为每个分割训练一个不同的分类器(使用ViT-B/16作为主干)。左图显示SSDL在“伪造”类别中的性能拆分特定模型性能:我们在图5中报告了多模式SSDL分类器的性能,其中我们为每个分割单独训练了不同的分类器。CLIP有一个明显的趋势,过度预测原始标签,这也是由Luo等人讨论[23]第10段。这表明该模型在将许多伪造样本正确分类为真实样本时存在混淆,其中Split 3通常是最困难的。我们注意到,这种分割模拟了一个威胁场景,该场景查询特定的人,目的是在虚假的上下文中描绘他们。如在图的左图中所观察到的,所提出的SSDL(使用ViT-B/16作为骨干)在识别“伪造”样品方面表现出显著改善的性能(在所有分裂中为26%)特别是在第3部分,SSDL报告与其基线相比提高了5%。虽然几种现有的方法利用外部信息的命名实体,以认识到与他们有关的新闻的有效性,SSDL利用跨视图的情况下,在区域一级进行验证。正如我们从图的右侧图中发现的那样,在所有5个测试拆分中,SSDL在3个(拆分3,拆分4和平衡拆分)中优于CLIP。最后,SSDL报告与CLIP(65。百分之一对六十七。1%)在所有5个测试拆分集合中。虽然外部信息作为额外的信息源肯定有助于进一步提高性能,但我们进行这些实验的目的是评估SSDL的有效性,而不假设可以访问任何辅助信息源。如图6所示,在自监督半监督学习场景中,通过仅使用整个训练集合的较小子集,所提出的SSDL实现了与基线相当的性能更具体地说,SSDL平均达到65。1%(68。2%)测试准确度红色(和绿色)突出显示在拆分特定的列中,使用ViT-B16(和Resnet 50)作为主干的选择,而SSDL只需要整个训练集合的50%(和75%)就可以跨越这些基准。图6.性能改进的建议SSDL超过增加规模的培训收集。值得注意的是,基于CLIP的基线模型使用了100%的训练集,以达到平均65。1%(68。2%)测试准确性-在使用ViT-B16(和Resnet 50)作为主干的分裂特定集合中以红色(和绿色)突出显示,而SSDL仅需要整个训练集合的50%(和75%)来跨越这些基准。图7.比较SSDL分类性能的不同微调策略(测试集),其中AF:=全部冻结,LF:=冷冻下限,NF -无冷冻预训练的视觉语言模型。CLIP作为我们预先训练的编码器,我们通过微调不同数量的CLIP层来分析结果在图7中,我们使用三个微调的模型来报告结果:RN 50-全 冻 结( AF , 无CLIP 层 微 调) ; RN 50-较 低 冻结(LF , 最 后几 层 微 调) 10 , 和RN 50( 所 有层 微调)。从图中的两个曲线图中,我们注意到,微调所有层(RN50)通常确实对性能产生积极影响,除了Split 3,其中性能略有恶化。这可能是由于其他训练分割更大,因此我们可以有意义地微调所有层,而在分割3中,我们没有足够的上下文证据来这样做。然而,部分冻结似乎并没有影响SSDL的整体性能。可解释性分析所提出的解释可视化模块使用局部可解释模型不可知解释(LIME)1来解释由所提出的SSDL做出的决策。使用Lime,我们找到了对最终决策过程贡献最大的单词和视觉特征图8示出了两个示例解释片段a-编码器微调:在一系列实验中,我们...探索由于微调而带来的性能改进1https://github.com/marcotcr/lime2827图8.解释可视化的示例,突出显示用于解释多模态环境中建议模型所做决策的单词列(a)中的每一行表示原始查询,列(b)中的每一行表示查询特定解释分段。顶行中的示例被系统正确地分类为“原始”,概率为0。9,而底行中的示例被正确地分类为“伪造”,概率为0。五十四对模型决策有贡献的区域以绿色突出显示。减损区域以红色突出显示。用于解释系统分类决策的结果。贡献的绿色区域倾向于关注作为帽证据的对象和主题。减损区域以红色突出显示。如所观察到的,第一行的示例表示具有90%的强可能性的“原始”的正确分类,其中对字幕词的权重分布几乎是均匀的。图中底部的行显示了一个示例,该示例被归类为“难民”一词直观地说,在第一个示例中(图8的顶行),标题提到了这两个人通常在新闻和NewsCLIPpings数据集中找到,因此模型已经过训练以识别他们的特征。这进一步通过以下事实来例证:模型高度集中于每个个体的定义特征,即他们的面部和他们的服装的部分,其被系统识别为贡献的绿色。红色区域的破坏性,显示的区域似乎与上限不一致。值得注意的是,背景中有一个红色区域包围着乔治·布什而SSDL似乎对它的预测很有信心,例如对于第二个示例(图8的底行),标题提到了前往土耳其边境的难民。图像-标题对被正确地识别为在这种情况下,贡献区域关注背景中的汽车。直觉上,新闻视觉在报道难民时很少描绘汽车,因此拟议的SSDL发现图像组件中汽车的存在与其伴随文本组件中“难民”一词的存在另一方面,红色区域倾向于更关注个人和道路本身。这些人类受试者的存在与术语“难民”在视觉成分中的表现方式一致,因此将5. 结论在本文中,我们提出了一个两阶段的多模态多任务自监督半监督学习策略,评估内部和内部模式的自我训练,结合类别特定的监督目标,以建立一个初始的学生分类器。这是后来微调,利用一个提炼的指导,一个更大的教师网络,以自我监督的方式,从而提高模型的广义事实检查能力,在有限的,但广泛变化的训练数据环境。我们的工作优于基线,并提供了一个创新的多模态事实检查基准,不仅更准确,而且更好地解释。在未来,我们希望扩展我们的方法来评估信息的准确性,在视频文本多媒体内容。为了实现这一点,我们打算利用解释反馈(更具体地说,标题和贡献以及减损区域之间的跨模态一致性),以迭代的方式进一步提高学生确认这项工作得到了布法罗大学计算研究和体验式学习网络中心和国防高级研究计划局(DARPA)的部分支持,合同号为:HR001120C0124。本材料中表达的任何观点、发现和结论或建议均为作者的观点,不一定反映国防高级研究计划局(DARPA)的观点。2828引用[1] 冠 状 病 毒 感 染 : 病 毒 错 误 信 息 的 人 类 代 价 。https://www.bbc.com/news/stories-52731624.[2] Youtube到去除所有反疫苗误信-mationhttps://www.bbc.com/news/technology-58743252.[3] 萨哈尔·阿布德纳比,拉基布尔·哈桑,马里奥·弗里茨.通过在线资源对脱离上下文的图像进行开放域、基于内容、多模态的事实检查。在IEEE/CVF计算机视觉和模式识别会议论文集,第14940-14949页[4] Sungsoo Ahn,Shell Xu Hu,Andreas Damianou,Neil DLawrence,and Zhenwen Dai.知识转移的变分信息蒸馏。在IEEE/CVF计算机视觉和模式识别会议论文集,第9163-9171页[5] Shivangi Aneja,Christoph Bregler,and Matthias Nießner.Cosmos : Catching out-of-context misinformation withself-supervised learning.arXiv预印本arXiv:2101.06278,2021。[6] Shivangi Aneja和Matthias Nießner。用于人脸伪造检测的广义零arXiv预印本arXiv:2006.11863,2020。[7] 斯雷亚塞Das巴塔查吉阿屎塔卢克德,和巴拉·文卡特兰·巴兰特拉普基于主动学习的特征加权和深浅融合的新闻准确性检测。在2017年IEEE大数据国际会议(Big Data)上,第556-565页。IEEE,2017年。[8] Sreyasee Das Bhattacharjee和Junsong Yuan。使用注意力感知融合的假新闻识别多模态协同训练在亚洲模式识别会议上,第282-296页。施普林格,2022年。[9] Giscard Biamby,Grace Luo,Trevor Darrell,and AnnaRohrbach. 推特通讯:探测气候,新型冠状病毒和军事多式联运误传。arXiv预印本arXiv:2112.08594,2021。[10] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。[11] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey E Hinton.大的自监督模型是强半监督学习器。神经信息处理系统进展,33:22243[12] 参 见 Cozzolino 、 AndreasR ? ssler 、 JustusThies 、MatthiasNießner和Luisa Verdoliva。Id-reveal:身份感知的deepfake视频检测IEEE/CVF计算机视觉国际会议,第15108- 15117页,2021年[13] Karan Desai和Justin Johnson Virtex:从文本注释中学习视觉表示。在IEEE/CVF计算机视觉和模式识别会议论文集,第11162-11173页[14] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片值16 x16个单词:Trans-用于大规模图像识别的成形器。arXiv预印本arXiv:2010.11929,2020。[15] 丽莎·法齐奥断章取义的照片是一种强大的低科技形式的错误信息。对话,14,2020。[16] Priya Goyal 、 Dhruv Mahajan 、 Abhinav Gupta 和 IshanMisra。缩放和基准自我监督的视觉表示学习。在IEEE/CVF国际计算机视觉会议论文集,第6391-6400页,2019年。[17] Je a n-BastienGrill , FlorianStrub , FlorentAltch e´ ,CorentinTallec,Pierre Richemond,Elena Buchatskaya,Carl Doersch , Bernardo Avila Pires , Zhaohan Guo ,Mohammad Ghesh- laghi Azar,et al.引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展,33:21271[18] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[20] Geoffrey Hinton,Oriol Vinyals,Jeff Dean,et al.提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2(7),2015。[21] Ayush Jaiswal,Yue Wu,Wael AbdAlmageed,IacopoMasi,and Premkumar Natarajan.Aird:用于图像再利用检测的对抗学习框架。在IEEE/CVF计算机视觉和模式识别会议论文集,第11330-11339页[22] 所罗门·库尔贝克和理查德·A·莱布勒。关于信息和充分性。数学统计年鉴,22(1):79[23] Grace Luo Trevor Darrell和Anna Rohrbach新闻摘要:自动生成上下文外的多模式媒体。arXiv预印本arXiv:2104.05893,2021。[24] Jing Ma,Wei Gao,Prasenjit Mitra,Sejeong Kwon,Bernard J Jansen,Kam-Fai Wong,and Meeydong Cha.基于递归神经网络的微博谣言检测2016年。[25] 诺曼·穆、亚历山大·基里洛夫、大卫·瓦格纳和谢赛宁。Slip:自我监督与语言-形象预训练相结合。arXiv预印本arXiv:2112.12750,2021。[26] 埃里克·穆勒·r-布达克、乔纳斯·泰恩、塞巴斯蒂安·迪林、马克斯·米利安·莎士比亚和拉尔夫·埃沃思。使用跨模态实体一致性的措施对真实世界新闻进行多模态分析。在2020年国际多媒体检索会议论文集,第16-25页[27] Huy H Nguyen,Junichi Yamagishi和Isao Echizen。胶囊取证 :使 用胶 囊网 络检 测伪造 的图 像和 视频 。在ICASSP 2019-2019 IEEE声学、语音和信号处理国际会议中,第2307-2311页。IEEE,2019。[28] Christian Otto,Matthias Springstein,Avishek Anand,and Ralph Ewerth.理解、分类和预测语义图文关系。在2019年的会议记录中2829关于多媒体检索国际会议,第168-176页[29] 布里特·帕里斯和琼·多诺万Deepfakes和廉价的假货。美国:数据&社会,1,2019。[30] Ivan Perov,Daiheng Gao,Nikolay Chervoniy,KunlinLiu , Su g asaMarangonda , ChrisU me' , MrDpfks ,CarlShiftFacenheim , Luis RP , Jian Jiang , et al.Deepfacelab:集成、灵活、可扩展的换脸框架。arXiv预印本arXiv:2005.05535,2020。[31] Alec Radford,Jong Wook Kim,Chris Hallacy,AdityaRamesh , Gabriel Goh , San
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功