多模态融合方法在应急响应中的优势和表现

129 浏览量更新于2023-10-25 收藏 859KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1社交媒体Mahdi AbavisaniDataminr Inc.，纽约州纽约市mabavisani@dataminr.com吴立伟统计系加州大学戴维斯分校liwu@ucdavis.edu公司简介纽约州纽约市shu@dataminr.comJoel TehrultDataminr Inc.，纽约州纽约市jtetreault@dataminr.comAlejandro JaimesDataminr Inc.，纽约州纽约市ajaimes@dataminr.com摘要图像分类和自然语言处理的最新发展应急反应就是从这些进展中获益的一个领域。通过每分钟处理数十亿条文本和图像，可以自动检测事件，使应急响应工作人员能够更好地评估快速变化的情况并相应地部署资源。迄今为止，该领域的大多数事件检测技术都集中在仅图像或仅文本方法上，限制了检测性能并影响了向危机响应团队提供的信息质量。在本文中，我们提出了一种新的多模态融合方法，利用图像和文本作为输入。特别是，我们引入了一个交叉注意模块，可以过滤无信息和误导性的组件从弱模态上的一个样本的基础上。此外，我们采用了一种基于多模态图的方法来在训练过程中随机转换不同多模态对的嵌入，以更好地规范学习过程，并通过从不同样本中构建新的匹配对来我们表明，我们的方法在三个与危机相关的任务上表现出极大的优势，1. 介绍每秒钟，数十亿的图像和文本，图1.来自社交媒体来自世界各地的社交媒体平台与此同时，计算机视觉（CV）和自然语言处理（NLP）领域正在迅速发展[25，23，15]，并正在大规模部署。随着大规模视觉识别和文本理解作为基本工具，现在可以实时识别和分类世界各地的事件。在某种程度上，这是可能的，在图像和文本分开，并在有限的情况下，使用组合。特别是危机事件的一个主要困难是，随着事件的出现和演变，用户以图文对的形式发布支离破碎、有时相互矛盾的这使得显著事件的自动识别显著地更容易。我们周围发生的各种事件被上传到1.一个正在（或预计）导致不稳定和危险的事件，贡献相等，排序由Python决定。研究工作是在作者在Dataminr Inc.实习时完成的。影响个人、团体、社区或整个社会的重大情况（来自维基百科）;通常需要紧急响应。1467914680不幸的是，在危机中，对第一反应者和公众有价值的信息往往是以图像-文本对的形式出现的。因此，虽然将视觉和文本信息分开处理的trans-cv和NLP方法可以提供帮助，但当前的方法存在很大的差距。尽管人们普遍认为使用人工智能促进社会公益的重要性[22，20，4]，社交媒体的力量以及跨学科研究人道主义危机工作的悠久历史，但很少有人使用视觉和文本信息来自动检测危机事件。解决危机事件检测的先前方法集中于仅图像或仅文本方法。然而，如图1所示，单独的图像在其紧急性方面可以是模糊的，而单独的文本可能缺乏细节。为了解决这些问题，我们提出了一个框架，在#HurricaneMaria之后，波多黎各的大坝失败https://t.co/TLELEm8pn9，城镇撤离www.example.comhttps：//t.co/dNGWuCOfpJ我家附近的飓风玛丽亚更新2004www.example.com/y0MUM6GcGehttps://t.co我的车在飓风玛丽亚面前输了，60英尺高的棕榈树倒在了上面！https://t.co/bmhN0OrIfXRT@CustomsBorder：CBP官员帮助清理美属维尔京群岛#HurricaneMaria的破坏。https://t.co/PlqER67r4T用图文结合的方式来处理危机事件。特别是，我们提出了一种基于以下标准/任务自动标记图像、文本和图像-文本对的方法：1）信息性：社交媒体帖子是否有助于在紧急事件中提供人道主义援助，2）事件分类：识别紧急情况的类型（在图2中，我们显示了在我们的事件分类任务中不同图像-文本对所属的一些类别），以及3）严重性：基于图像和文本中指示的损害对紧急情况的严重程度进行评级。我们的框架由几个步骤组成，其中，给定图像-文本对，我们为图像创建特征图，为文本生成词嵌入，并提出一个交叉注意机制来融合来自两种模态的信息。它与以前的多模态分类的不同之处在于它如何处理融合信息。简而言之，我们提出了一种新的，多模态的危机域中的多模态数据的分类框架。这种方法，我们的模型在三个危机任务中的表现优于强2. 相关工作AI应急响应：近年来，人工智能在社会公益中的应用呈爆炸式增长[22，20，4]。社交媒体已被证明是最相关和最多样化的资源和测试平台之一，无论是识别用户的危险精神状态[11，17，21]，识别紧急健康危害[16]，过滤和检测自然灾害[48，40，47]，还是在社交媒体中出现暴力和侵略[10]。图2.任务2中的示例;使用文本和图像进行事件分类。大多数关于检测社会媒体中的危机事件的先前工作都集中在文本信号上。例如，Kumaret al. [33]提出一个实时推特跟踪系统，以帮助第一反应者在灾难发生时获得态势感知。Shekhar等人[50]引入危机分析系统来估计财产损失程度和受害者的痛苦程度。在大规模上，过滤（例如，通过异常或突发检测），识别（例如，通过聚类），以及分类（例如，通过分类）社交媒体上的灾害相关文本一直是多个研究小组的焦点[53，57，62]，0的情况。75个来自Twitter的小型注释数据集。图像中的灾害检测一直是一个活跃的前沿，无论是用户生成的内容还是卫星图像（详细调查，请参阅Saidet al.[48]）。例如，Ah-madet al.[5]介绍一种管道方法，将遥感数据与社交媒体有效地Li等[37]使用卷积神经网络和可视化方法来定位和量化灾害图像中的损失Nzelu等人[42]结合语义文本和图像特征，对紧急情况下社交媒体帖子的相关性进行我们的框架专注于结合图像和文本，在三个灾害分类任务上提高了性能。深度多模态学习：在深度多模态学习中，神经网络用于整合来自相同现象的多个表示（模态）的互补信息[59，43，3，13，2]。在许多应用中，包括图像字幕[9，45]，视觉问题基础设施和公用事业损坏受影响的个人车辆损坏救援、捐赠或捐赠工作14681回答[8，19]和文本-图像匹配[51，18，35]，组合图像和文本信号是感兴趣的。因此，许多最近的作品研究图像-文本融合[39，36，55，54]。现有的多模态学习框架适用于危机域是相对有限的。Lan等人[34]结合早期融合和晚期融合方法以结合其优点，Ilyas [28]介绍了一种基于朴素贝叶斯分类器和支持向量机的灾害分类系统。Kelly等人[30]介绍了一种利用时空元数据从Twit- ter消息中的文本和图像内容中实时提取信息的系统图像文本用于过滤、可视化和监控洪水事件。Mouzannar等人[41]提出一个多模态深度学习框架，以识别社交媒体帖子中与文本，图像和视频相关的损害信息在危机推文分类的应用中，一种模态可能包含无信息甚至误导性的信息。在我们的模型中的注意力模块传递信息的基础上的不同形式的有用性的信心。更自信的模态通过它们的交叉注意链接阻止来自其他模态的弱或误导性特征两种模态的部分阻塞结果稍后由自我注意层判断，以确定哪些信息应该被传递到下一层。虽然我们的注意力模块与共同注意力和自我注意力机制密切相关[58，24，38，19，27，45]，但与它们不同，它不需要输入特征是同质的。相比之下，自我注意和共同注意层可以对异构输入敏感。模型的细节将在下一节中描述。3. 方法我们提出的架构是为分类问题而设计的，该分类问题将图像-文本对作为输入，例如社交媒体中的用户生成的推文，如图3所示，其中DenseNet和BERT图来自[26]和[15]。我们的方法包括4个部分：前两部分分别从图像中提取特征图和从文本中提取嵌入;第三部分包括我们的交叉注意融合投影图像和文本嵌入的方法;第四部分使用随机共享嵌入（SSE）[60]作为我们的正则化技术，以防止过度拟合并处理图像和文本对标签不一致的训练数据。我们将在下面的小节中介绍每个模块3.1. 用于特征图提取的图像模型我们使用卷积神经网络（CNN）从图像中提取特征图。在我们的模型中，我们选择DenseNet [26]，它可以减小模块大小并增加层之间的连接，以解决参数冗余并提高准确性（也可以使用其他方法，如 Ef-ficientNet [56]，但DenseNet是有效的图3.展示我们的框架。分别用DenseNet和BERT网络从图像和文本中提取嵌入特征，并通过交叉注意模型进行融合在训练过程中，不同样本的嵌入在彼此之间随机转换，以提供鲁棒的正则化。并通常用于此任务）。对于每个图像vi，我们有：fi= DenseNet（vi），（1）其中vi是输入图像，fi∈RDf 是DenseNet中深度特征映射的向量化形式，维数Df= W× H × C，其中W，H，C分别是特征映射的高度，宽度和通道数。3.2. 用于嵌入提取的文本模型全网络预训练[44，15]导致了语言表征学习的一系列突破。特别是，深度双向Transformer模型，如BERT”[15]“其义也，其义也，其义也。各种自然语言处理任务的艺术成果通过利用关闭和下一句预测任务作为弱监督预训练。因此，我们使用BERT作为从文本中提取嵌入的核心模型（也可以使用XLNET [61]和ALBERT [7我们使用在维基和书籍数据上预训练的BERT模型[29]对危机相关的推文ti对于每个文本输入ti，我们有ei= BERT（ti），（2）其中ti是一个单词标记序列，ei∈R756是句子嵌入。类似于BERT论文[15]，我们采用与[CLS]相关的嵌入来表示整个句子。在下一小节中，我们将详细介绍DenseNet和BERT是如何融合的。3.3. 用于避免融合中的负面知识的在我们获得图像特征映射fi（DenseNet）和句子嵌入ei（BERT）之后，我们使用一个新的交叉-多式联运SSE分类损失DenseNet交叉注意模块伯特14682vev′evvie注意力机制来融合它们所代表的信息在许多文本视觉任务中，输入对可能包含噪声。特别是在推文分类中，一种模态可能包含非信息性甚至误导性信息。在这种情况下，可能发生负面信息传递。我们的模型可以根据具体情况减轻一种模态对另一种模态的影响。为了解决这个问题，在我们的交叉注意模块中，我们使用交叉注意层和自我注意层的组合。在该模块中，每个模态可以基于其对其输入的有用性的置信度来阻止另一模态的特征。这种情况发生在交叉注意层。来自两种模态的部分阻塞特征的结果稍后被馈送到自我注意层，以决定哪些信息应该被传递到下一层。自我注意层利用全连接层将图像特征映射投影到固定维度K（我们使用K=100），并类似地投影句子嵌入，以便：fi=F（WTfi+bv），ei=F（WTei+be），（3）其中F表示激活函数，例如ReLU（在我们的实验中使用），并且fi和ei都具有K=100的维数。在一种模态中的误导性信息的情况如果没有注意力机制（例如co-attention [39]），则结果fjcli和ejcli不能在不损害性能的情况下容易地组合。在这里，我们提出一个新的注意一种称为交叉注意的机制（图3），它不同于标准的共同注意机制：图像的注意力掩码αvi完全依赖于文本嵌入ei，而文本的注意力掩码αei完全依赖于图像嵌入fi。在数学上，这可以表示如下：该模块的最后一步是进行级联嵌入，它联合表示图像和文本元组，并馈送到两层全连接网络中。我们在全连接网络中添加了自注意力，并使用标准的softmax交叉熵损失进行分类。在第4节中，我们展示了交叉注意层和自我注意层在其连接上的组合比共同注意和自我注意机制更适合我们在本文中解决的任务。3.4. SSE更好的正则化由于灾害的不可预见和不可预测的性质，并且还因为它们需要快速处理和反应，人们经常不得不在危机期间处理针对用户生成的内容的有限注释使用正则化技术来缓解这个问题变得尤为重要。在本节中，我们将随机共享嵌入（SSE）技术[60]扩展到其多模态版本，以便通过1）生成新的人工多模态对来充分利用注释数据。2)在训练过程中还包括文本和图像的标签不一致的注释数据。SSE图[60]是SSE的一种变体，是一种用于正则化嵌入层的数据驱动方法，它使用知识图在随机梯度下降（SGD）期间随机地在不同样本的嵌入之间进行转换这意味着，在训练过程中，基于知识图，有可能交换不同样本的嵌入我们使用文本和图像标签来构建知识图，这些知识图可用于创建图像和文本具有一致标签的随机多模态训练样本。我们将图像的特征图视为嵌入，并使用类标签来构建知识图。两幅图像的特征图由图中的边连接，αvi =σ（W′Tf+b′），Iv当且仅当它们属于同一类（例如，他们都被标记为“受影响的个人”）。我们遵循相同的αeⅠ =σ（W′Te+be）、（4）过程的文本嵌入和构建一个知识图谱的文本嵌入以及。最后，我们将其中σ是Sigmoid函数。相反，共同关注可以表示如下：与图像特征的知识图相关联的节点用边映射到文本的知识图中的节点α=σ（W′T′[fi|ei]+bv），当且仅当它们属于同一个类。设Φv和Φt为参数集我们定义αeⅠ =σ（W′T′[fi|ei]+be），（五）转移概率p（iv，jv|Φv）作为从iv到jv的转移概率，其中iv和jv是图像中的节点哪里|表示连接。在我们分别得到图像和文本的注意力掩码αvi，αei之后，我们可以在进行拼接或相加之前，用αvi·fi和αei·ei对投影图像和文本嵌入fi，ei进行扩充在实验中，我们使用级联，但使用加法获得了类似的性能。对应于图像特征Fi和Fi 知识图。类似地，我们定义p（it，kt| Φt）作为从it到kt（分别对应于文本嵌入ei和ek的节点）的转换的概率。以图像特征图为例，如果iv与知识图中的jv相连，而与知识图中的lv我1468300pairs是在知识图上使用随机行走（具有随机重启和自循环）。由于我们对一致标签嵌入内的转换更感兴趣，因此在每个转换概率中，我们设置p（iv，jv|Φv）和p（iv，lv|Φv）是一个大于1.一、在更正式的符号中，我们有iv<$jv，iv/<$lv−→p（iv，jv|Φv）/p（iv，lv|Φv）=ρv，（6）其中ρv是调谐参数，且ρv> 1，且表示知识中的连通和非连通节点graph.我们还拥有：p（iv，iv|Φ）= 1 − pv，（7）其中pv称为图像特征的SSE概率。对于文本，我们类似地在Φt={ρt，pt}中定义ρt和pt如下所述我们使用这个数据集进行实验。该数据集是在2017年的七次自然灾害中使用特定事件的关键字和标签收集的：飓风厄玛，飓风哈维，飓风玛丽亚，墨西哥地震，加利福尼亚野火，伊朗地震和斯里兰卡洪水。语料库由三种类型的手动注释组成任务1：信息性与非信息性：一个特定的推文文本或图像是否对人道主义援助目的有用，人道主义援助的定义是向有需要的人提供援助。任务2：人道主义类别：给定一张图片或一条推文，或两者兼而有之，将其归类为以下五个类别之一：• 基础设施和公用事业受损0 0嵌入请注意，ρt是相对于图像特征的标签定义的即ivjt，iv/lt−→p（it，jt|Φt）/p（it，lt|Φt）=ρt。（八）在实验中，Φv和Φt参数集都被视为可调超参数，并且可以快速地进行可调。与Eq.（8），Eq.（7）和kvp（jv，kv| Φv），ktp（jt，kt| Φt）=1，我们可以得到图像和文本中任意两组特征图之间的转移概率，填写转移概率表。通过正确的参数选择，训练中的每个多模态对可以转换为非常可能具有图像和文本对的一致标签的更多多模态对，这可以缓解训练样本数量有限和图像-文本对的注释不一致4. 实验装置我们考虑的图像-文本分类问题可以公式化为如下所示：我们有作为 input（v1，t1），. - 是的- 是的，（vi，ti），. - 是的- 是的，（vn，tn），其中n是训练元组的数目，并且第i个元组由图像vi和文本ti两者组成。还在训练数据中给出了vi和ti我们的目标是为任何看不见的（v，t）对预测正确的标签。为了简化评估，我们假设只有一个正确的标签与看不见的（v，t）对相关联。因此，本文的目标是多类分类问题，而不是一个多标签问题。4.1. 数据集危机数据集非常少，据我们所知，只有一个多模态危机数据集，CrisisMMD [6]。它由带注释的图像-推文对组成，其中图像和推文被独立地标记为• 车辆损坏• 救援、志愿服务或捐赠工作• 受影响的个人（受伤、死亡、失踪、找到等）• 其他相关信息请注意，我们合并了标记为受伤或死亡的人和失踪或发现的人在CrisisMMD与那些被标记为受影响的个人，并认为所有这些作为一类数据。任务3：损坏严重度：评估推文图像中报告的损坏的严重程度，并将其分类为严重、轻度和轻微/无。重要的是要注意，虽然最后一个任务的注释我们的实验表明，将推文文本与图像一起使用可以提高性能。此外，我们的论文是第一篇在这个数据集上执行所有三个任务的论文（仅文本，仅图像，组合）。4.2. 设置该数据集中来自推文的图像和文本被独立地注释。因此，在许多情况下，同一对中的图像和文本可能不共享任务1或任务2的相同标签（任务3的标签仅通过注释图像创建）。考虑到不同的评估条件，我们进行了三个评估设置，以便在我们的模型评估中进行全面评估，同时也为社区建立最佳实践：设置A：我们排除了具有不同图像和文本标签的图像-文本对;设置B：我们将具有不同标签的图像-文本对包括在训练集中，但保持测试集与A中相同。此外，我们引入了设置C来模拟现实的危机推文分类任务，在该任务中，我们只训练在测试集中的事件之前发生的事件。表1显示了每组中的样品数量，146840表1.我们设置的不同分割中的样本数量设置训练样本开发人员样本试验样品创下任务1：78765532821任务2：13525401467任务3：2590340358设置B任务1：126805532821任务2：54335401467设置C实验1：174-217实验二：4037-217实验3：4761-217不同的设置和任务。设置A：在这个设置中，我们的训练和测试数据是从文本和图像对具有相同标签的推文中采样的即：C（vi）=C（ti），（9）其中C（x）表示数据点x的类别。这会产生一个小的，但可能更可靠的训练集。我们混合来自所有七个危机事件的数据，并将数据分为训练集、开发集和测试集。设置B：我们放松等式9中的假设，并在训练中允许：C（vi）/=C（ti），（10）由于该设置的训练集包含图像和文本标签不一致的样本，因此多模态融合方法（如后期特征融合）无法处理训练数据。另一方面，我们的方法使用了建议的多模态SSE，可以将标签不一致的训练实例转换为标签一致的新训练对我们通过手动设置pt=1来实现这一点，用于具有不一致的图像-文本标签的训练案例（即，所有文本样本都被转换）。由于单峰模型仅接收模态之一，因此还可以在图像和文本上分别训练它们，并在测试阶段使用它们的预测的平均值（也称为分数级融合）。然而，我们仍然坚持Eq的假设。（9）对于试验数据。这有助于直接比较具有相同测试样本的两个设置。事实上，在实践中，当图像和文本的类标签匹配时，数据最有价值。其理由是，对危机管理者来说，发现一个事件比对该事件的不同部分进行分类更有价值。这个设置的开发和测试集与之前的设置类似。然而，训练集包含大量的样本，其中它们的图像-文本对不一定被标记为同一类。设置C：这个设置最接近现实世界的场景，我们用模型分析危机的新事件接受过以往危机事件的培训首先，我们要求训练集和测试集来自不同性质的危机事件野火与洪水）。其次，我们保持时间组件，只训练在测试集的tweet之前发生的事件由于收集关于紧急正在发生的事件的注释数据是不可能的，并且还因为危机事件在过去可能没有类似的注释事件，所以这两个限制通常模拟真实世界场景。对于此设置的实验，没有dev设置。相反，我们使用训练数据的随机部分来调整超参数。我们对与加州野火（2017年10月10日至27日）相关的推文进行测试，并在以下三组上进行训练1. 斯里兰卡洪水推文（5月31日至7月）2017年3月）2. 斯里兰卡洪水，飓风哈维和飓风厄玛推文（5月31日至9月21，2017）3. 斯里兰卡洪水，飓风哈维和伊尔玛以及墨西哥地震（5月31日至10月31日）5，2017）。与设置B类似，对于测试集（即，California Wild-fire），我们只考虑图像和文本具有一致标签的样本，但对于训练集，我们使用所有可用的样本。4.3. 基线我们将我们的方法与几种最先进的文本和/或图像分类方法进行比较。有我们比较了一些基线方法。在第一类中，我们将DenseNet和BERT进行比较，它们分别是用于图像和文本的最常用的单峰我们在ImageNet上使用Wikipedia预训练的BERT和预训练的DenseNet [14]，并在训练集上对它们进行微调。第二类基线方法包括几种最近提出的用于分类的多模态融合方法• 紧凑型双线性池[19]：多模态紧凑型双线性池是一种融合技术，首先用于视觉问答任务，但可以很容易地修改。完成标准分类任务。• 紧凑型双线性门控池[32]：这种融合方法是紧凑型双线性池的适应，ing方法，其中在紧凑双线性池化模块的顶部添加了额外的注意力门。• MMBT [31]：最近提出的用于图像和文本。第三类是分数级 Score Fusion 和后期特征融合DenseNet和BERT网络的特征融合。分数级融合是最常用的融合技术之一。它平均了在不同模态上训练的单独网络的预测。特征融合是将两种特征融合的最有效方法之一14685表2.设置A：信息性任务、人道主义分类任务和损害严重性任务评估。信息性任务人道主义分类任务损害严重性任务模型ACC宏F1加权F1ACC宏F1加权F1ACC宏F1加权F1DenseNet [26]81.5779.1281.2283.4460.4586.9662.8552.3466.10BERT [15]84.9081.1983.3086.0966.8387.8368.1645.0461.09[19]第十九话88.1286.1887.6189.3067.1890.3366.4861.0370.58[32]第32话88.7687.5088.8085.3465.9589.4268.7251.4665.34MMBT [31]82.4881.2782.1585.8264.7888.6665.3652.1269.34分数融合88.1683.4685.2686.9854.0188.9671.2353.4866.26特征融合87.5685.2086.5589.1767.2891.4067.6040.6256.47注意力变体1（我们的）89.2985.6887.0488.4164.6090.7171.5155.4169.71注意力变体2（我们的）88.3486.1287.4289.2367.6391.5663.1358.0369.39注意力变体3（我们的）88.2086.2287.4787.1864.6790.2468.9957.4269.16SSE-Cross-BERT-DenseNet（我们的）89.3388.0989.3591.1468.4191.8272.6559.7670.41表3.设置B：信息性任务和人道主义分类任务评价人道主义分类任务模型精度宏F1加权F1精度宏F1加权F1DenseNet [26]83.3680.9582.9582.8966.6883.13BERT [15]86.2684.4486.0187.7383.7287.57分数融合87.0385.1986.9091.4183.2691.36SSE-Cross-BERT-DenseNet（我们的）90.0588.8889.9093.4684.1693.35最好的表289.3388.0989.3591.4867.8791.34当dev损耗饱和时。我们使用的批处理大小为32。这些模型在Keras和Tensorflow中实现1.4[1]的文件。在所有适用的实验中，我们选择了超参数，并对dev集的准确性进行了交叉验证对于设置3中的实验，我们没有评估集，我们在15%的训练样本上调整超参数。我们分别选择ρv，ρt和pv，pt，0 0ρv，ρt∈[10，20000]和pv，pt∈[0，1]的范围。0 0方式[46]。它连接了深层的模态-利用网络来预测共享输出。我们还提供了我们的注意力模块的三种变体，并报告了它们的性能：第一个变体是替换Eq的交叉注意。（4）与Eq. （5）第二个变式是去除自我注意力;第三种变体是用自注意模块改变交叉注意。我们将我们的模型SSE-Cross-BERT-DenseNet与上面的基线模型进行比较。4.4. 评估指标我们在本文中使用分类准确率，2宏观F1得分和加权F1得分来评估模型请注意，虽然在发生危机时，不同类别的样本数量通常会有很大差异，但检测所有样本非常F1-score和加权F1- score将假阳性和假阴性都考虑在内，因此，与作为直观度量的准确性一起，是我们数据集的适当评估指标。4.5. 培训详细信息我们使用预训练的DenseNet和BERT作为我们的图像和文本骨干网络，并分别对纯文本和纯图像训练样本进行微调。其实现的细节可以在[26]和[15]中找到，re-release。我们不冻结预先训练的权重，并为两个骨干网络训练所有层。我们使用标准的SGD优化器。我们开始与基本学习率为2×10−3，减少10倍2.在实验设定的条件下，分类精度与Micro F1-score相当。我们在训练阶段对图像进行了以下数据增强图像被调整大小，使最小的边是228像素，然后随机裁剪为224×224补丁。此外，我们通过随机水平翻转结果图像来产生更多的对于tweet规范化，我们删除了双空格和所有小写字符。此外，我们将推文中的任何超链接替换为哨兵词5. 实验结果5.1. 设置A：排除标签不一致的训练对如表 2 所示，我们提出的框架SSE- Cross-BERT-DenseNet轻松优于独立的DenseNet和BERT模型。与基线方法Compact Bilinear Pooling [19]，Compact BilinearGated Pooling [32]和MMBT [31]相比，我们提出的交叉注意力融合方法确实优于先前已知的融合方法，包括标准评分融合和特征融合。这一优势在设置A、B和C中均适用。在第5.4节中，我们进行了一项消融研究，以调查哪些成分（SSE、交叉注意和自我注意）对模型性能影响最大。我们在这三个任务中发现的一个重要观察结果是，尽管准确率对于简单的特征融合方法来说是14686表4.将我们提出的方法与设置3中人道主义分类任务的基线进行我们将最后发生的危机，即斯里兰卡洪水斯里兰卡洪水+飓风哈维伊尔玛斯里兰卡洪水+飓风哈维伊尔玛+墨西哥地震模型精度宏F1加权F1精度宏F1加权F1精度宏F1加权F1DenseNet [26]55.7135.7756.8570.3252.2368.5570.3244.8068.79BERT [15]31.9620.9027.2173.9753.9073.5174.4356.9874.21分数融合56.6236.7757.9681.7456.5481.0381.2855.9080.54SSE-Cross-BERT-DenseNet（我们的）62.5639.8262.0884.0263.1283.5586.3065.5585.93表5. 对我们提出的人道主义分类任务的方法在设置A中的消融研究。测试集模型精度宏F1加权F1SSE-Cross-BERT-DenseNet（我们的）91.1468.4191.82-自我关注89.2356.5087.70-交叉注意88.4856.3887.10-交叉注意+共同注意88.4164.6090.71交叉注意+自我注意86.3058.3385.27-辍学83.3754.8382.46-SSE88.4164.6090.71-SSE+类内洗牌88.6862.9188.33[63]第63话89.1654.6387.375.2. 设置B：包括标签在这种情况下，我们研究如果我们可以为不匹配的图像和文本使用更多的标记数据，我们的模型是否可以表现得更好。请注意，这涉及到在比先前设置更嘈杂的数据上进行训练。在表3中，我们提出的框架SSE-Cross-BERT-DenseNet在信息性任务（89.90至89.35加权F1）和人文分类任务（93.35至91.34）方面都击败了设置 A 的最佳结果。我们的方法与独立 BERT 和DenseNet之间的差距也扩大了。请注意，设置A和设置B的测试集相同，只有训练数据不同。5.3. 设置C：时间此设置旨在模拟现实场景，其中可用数据（1）仅来自过去（即，训练/测试集按照它们在真实世界中出现的顺序被分割）。(2)训练集和测试集不是来自相同的危机。我们发现，我们提出的模型始终比独立的图像和文本模型表现得更好（见表4）。此外，包括我们的模型在内的所有模型的性能都有所提高，其中包括更多的危机数据。这强调了收集和标记更多危机数据的重要性，即使不能保证我们收集的数据与未来的危机相似。在实验中，训练危机包括洪水，飓风和地震，但测试危机是固定在野火。5.4. 消融研究在我们的消融研究中，我们检查了图3中模型的每个组成部分：即连接上的自我注意嵌入、融合图像特征映射的交叉关注、句子嵌入、丢弃和SSE正则化。本节中的所有实验均在设置A中进行。首先，我们发现自我注意对最终的成绩起着重要的作用，去除自我注意后，准确率从91.14下降到89.23其次，选择交叉注意而不是共同注意和自我注意是有道理的：我们看到，通过替换交叉注意，准确性性能下降到88左右。第三，dropout正则化[52]在正则化隐藏单元中起着重要作用：如果我们完全移除dropout，性能将从91.14大幅下降到83.37。第四，我们证明了SSE[60]而不是Mixup [63]或类内shuf-fling数据增强的选择。SSE在准确率91.14%比89.16%方面优于mixup，并且在F1得分方面更好，宏观F1得分为68.41比54.63，加权F1得分为91.82比87.37。6. 结论和未来工作本文提出了一种新的多模态图像和文本输入融合框架.我们引入了一个新的交叉注意模块，可以过滤掉模态中的非信息性我们还提出了一个多模态版本的随机共享嵌入（SSE），以规范化的训练过程和处理有限的训练数据。我们评估这种方法的三个危机任务，涉及社交媒体帖子的图像和文字标题。我们表明，我们的方法不仅优于仅图像和仅文本的方法已在该领域的中流砥柱，但也其他多模态组合的方法。在未来的工作中，我们计划测试我们的方法如何通用于其他多模态问题，例如社交媒体帖子中的讽刺检测[12，49]，以及使用不同的图像和文本特征提取器进行鉴于CrisisMMD语料库是唯一可用于此任务的数据集，并且其大小有限，我们还旨在构建一个更大的集，这是一项重大努力。引用[1] Mart'ın Abadi ， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe- mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。第12届USENIX14687SymposiumonOperatingSystemsDesignandImplementation（OSDI 16），第265-283页，2016年。7[2] Mahdi Abavisani，Hamid Reza Vaezi Joze，and Vishal MPa- tel.利用多模态训练提高单模态动态手势识别的性能。在IEEE计算机视觉和模式识别会议论文集，第1165-1174页，2019年。2[3] Mahdi Abavisani和Vishal M Patel。深度多模态子空间聚类网络。 IEEE Journal of Selected Topics in SignalProcessing，12（6）：1601-1614，2018。2[4] Rediet Abebe ， Shawndra Hill ， Jennifer WortmanVaughan，Peter M Small和H Andrew Schwartz。使用搜索查询了解非洲的健康信息需求。在网络和社交媒体国际AAAI会议的会议记录，第13卷，第3-14页，2019年。2[5] KashifAhmad，MichaelRiegler，KonstantinPogorelov，NicolaConci，PalHalvorsen，andFrancescoDeNatale. Jord：通过将社交媒体与卫星图像联系起来收集信息和监测自然灾害的系统。在第15届国际内容研讨会的会议记录中基于多媒体索引，第12页。ACM，2017。2[6] Firoj Alam ， Ferda Ofli ， and Muhammad Imran.Crisismmd：来自自然灾害的多模态Twitter数据集2018年第十二届国际AAAI网络和社交媒体会议5[7] 匿名的{ALBERT}：语言表示的自我监督学习的精简版。提交给国际-2020年全国学习代表大会在审查中。3[8] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页3[9] Raffaella Bernardi ， Ruket Cakici ， Desmond Elliott ，Aykut Erdem，Erkut Erdem，Nazli Ikizler-Cinbis，FrankKeller，Adrian Muscat，and Barbara Plank.从图像自动生成描述：对模型、数据集和评估措施的调查。人工智能研究杂志，55：409-442，2016。2[10] 泰拉·布莱文斯，罗伯特·夸特科夫斯基，杰米·麦克白，凯瑟琳·麦基翁，德斯蒙德·巴顿，欧文·兰博.自动处理来自帮派青年的推文：为了发现失落和侵略。在2016年第26届计算语言学国际会议（COL- ING 2016）的会议记录中：技术论文，第2196-2206页，Os-aka，日本，12月。2016年。COLING 2016组委会。2[11] Sven Buechel ， Anneke Buffone ， Barry Slaf ， LyleUngar，and Joao Sedoc.对新闻故事反应中的移情和痛苦进行建模。arXiv预印本arXiv：1808.10399，2018。2[12] 圣地亚哥·卡斯特罗、德沃夏恩·尤·哈扎里卡、维拉尼卡·佩雷斯-罗萨斯、罗杰·齐默尔曼、拉达·米哈尔恰和苏贾尼亚·萨奇。走向多模态讽刺检测（一个显然完美的论文）。在计算语言学协会第57届年会的会议记录中，第4619-4629页，意大利佛罗伦萨，2019年7月。计算语言学协会。8[13] 陈师哲、秦晋。基于递归神经网络的多模态维度第五届国际视听情感挑战研讨会论文集，第49-56页ACM，2015. 2[14] 加登河Socher、Li Fei-Fei、Wei Dong、Kai Li和Li- JiaLi。Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议（CVPR），第00卷，第248-255页，2009年6月。6[15] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深

下载后可阅读完整内容，剩余1页未读，立即下载