预训练与对比学习的图像差分字幕识别：挑战与新建模框架-工作后的预训练-微调范式

53 浏览量更新于2023-12-01 收藏 1.87MB PDF 举报

对比学习

中国人民大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于预训练和对比学习的图像差分字幕识别Linli Yao，Weiying Wang，Qin Jin*中国人民大学信息学院{linliyao，wy.wang，qjin} @ ruc.edu.cn摘要图像差异字幕（IDC）任务旨在用自然语言描述两幅相似图像之间的视觉差异。该任务的主要挑战在于两个方面：1）细粒度的视觉差异，其需要学习更强的视觉和语言关联，以及2）高成本的手动注释，其导致有限的监督数据。为了应对这些挑战，我们提出了一个新的建模框架-工作后的预训练-微调范式。具体而言，我们设计了三个自我监督的任务和对比学习策略，以在细粒度水平上对齐视觉差异和文本去重。此外，我们提出了一个数据扩展策略，利用额外的跨任务的监督信息，如数据的细粒度图像分类，以减轻可用的监督IDC数据的限制。在两个IDC基准数据集CLEVR-Change和Birds-to-Words上的大量实验证明了所提出的建模框架的有效性代码和模型将在https://github.com/yaolinli/IDC上发布。1引言赋予机器自动感知和理解视觉信息并用自然语言表达的能力是研究人员长期以来渴望实现的目标。图像字幕（ Vinyalsetal.2015;Xuetal.2015;Rennieetal.2017），旨在生成给定图像的自然语言描述，一直是经典的研究任务之一。图像差异字幕（IDC）生成两个相似图像之间差异的自然描述，是一般图像字幕任务的进一步扩展，更具挑战性（ Jham-tani 和 Berg-Kirkpatrick 2018;Park，Darrell和Rohrbach2019;Tan等人2019）。IDC在实际应用中具有丰富的潜力，如协助鸟类学家区分具有相似外观的物种，自动检测和描述病变，报告媒体资产和监视中的显著变化等。直观上，图像差异字幕涉及到先感知，再比较，最后描述的步骤，比一般的*秦晋为通讯作者。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.图1：图像差异字幕示例。(a)来自CLEVR-Change的涉及对象变化的示例(b)从鸟到词的例子，涉及两种鸟的详细外观差异。图像字幕任务。图像差异字幕任务的关键挑战涉及两个方面。首先，IDC任务需要细粒度的语义理解。与描述单个图像的一般图像字幕不同如图1（b）所示，主要差异在于鸟类的微小身体部位（即“羽毛”和“腹部”）。此外，在不同的场景中，细粒度的视觉差异可能非常不同。在情况（a）中，我们关注场景中几何对象的变化，而在情况（b）中，我们只关注鸟类的外观，而不管复杂的自然环境。第二，国际数据中心任务的注释成本特别高。与一般的图像字幕标注相比，它对标注者的认知负荷要求更高，需要先观察两幅图像，然后比较其差异，再用自然语言对这些差异进行标注，从而生成三重格式（img1，img2，description）的标注。因此，现有手动注释的基准数据集在数据大小方面受到限制（Jhamtani和Berg-Kirkpatrick2018;Forbes等人2019;Tan等人2019）。2019年）的报告。arXiv：2202.04298v1 [cs.MM] 2022年2+v：mala2255获取更多论文--F0F我N已经有先前的努力来解决上述挑战，这些努力主要集中在设计各种注意力机制或改进图像特征以更好地捕获基于图像的细微图像差异。典型的编码器-解码器结构（ P ark ， Darrell 和 Rohrbach2019;Tan 等人2019;Shi等人2020）。然而，这些工作并没有给予足够的重视，完全交互的跨模态细粒度表示。受最近视觉语言预训练工作的启发（ Li et al. 2020 a;Chen etal.2020;Li et al.2020 d），在本文中，我们提出了一种新的图像差异字幕训练模式，该模式使用自监督学习来学习视觉差异和语言之间更强的我们提出的训练模式遵循预训练和微调范式，以在细粒度级别上将视觉差异与文本语义相匹配。在预训练阶段，我们设计了三个自监督任务： MaskedLanguageModeling （ MLM ）、 MaskedVisualContrastiveLearning （ MVCL ）和 Fine-grainedDifference Aligning （FDA）。在MLM和MVCL任务中，我们掩盖了一种模态的某些部分，并通过另一种模态来恢复它，从而促进了视觉差异和语言之间的语义交互。我们用噪声对比估计（NCE）损失替换了视觉方面的常见特征回归目标（Qi et al.2020）。在FDA任务中，我们引入对比学习策略并构建负对比以进一步增强细粒度的跨模态关联。具体来说，我们精心设计了三个2方法在本节中，我们将介绍我们提出的用于图像差异字幕任务的预训练和微调范例。整个建模框架如图2所示。它包括一个图像差异编码器来捕捉微妙的视觉差异和一个多层跨模态Transformer来对齐跨模态表示。三个预训练任务，包括掩蔽语言建模（MLM），掩蔽视觉对比学习（MVCL）和细粒度差异对齐（FDA），旨在充分利用给定的数据。为了处理有限的监督IDC数据的问题，我们在灵活的框架中扩展了跨任务数据。2.1模型架构输入表示我们定义IDC任务的输入，它包含一对图像和一个文本描述，为V（1），V（2），T。对于文本描述，我们对句子中的每个单词进行标记，并将其转换为从头开始训练的单词嵌入，表示为：T={[CLS]，[BOS]，w0，. . . ，wM，[EOS]}（1）其中添加特殊标记[CLS]以捕获句子的全局语义。根据先前的工作（P ark，Darrell和Rohrbach2019;Tan等人2019;Forbes等人2019），2019），我们使用预先训练的ResNet101（Heet al. 2016）提取两个图像的网格特征，表示为：V（1）={[IMG 1]，v（1），. . . ，v（1），. . . ，v（1）}（2）硬否定句的构造策略，即否定句、再否定句、否定句。0i N地方，混淆。考虑到高注释成本，我们在框架中利用额外的跨任务数据来学习额外的背景知识。具体而言，我们使用来自一般图像字幕（GIC）和细粒度视觉分类（FGVC）的数据集（Ge，Lin和Yu 2019;Liu等人2020;Dubey等人2018）。GIC任务提供图像-文本对，并且可以有益于学习图像和文本描述之间的对齐。在FGVC任务中，细粒度的图像标签可以驱动模型学习更多有区别的视觉表示。我们的模型架构是灵活的，以处理不同形式的跨任务数据与图像差异编码器和多层跨模态Transformer。广泛的实验进行了两个基准数据集从不同的场景：CLEVR-Change和鸟字。我们的模型在两个基准数据集上的主要指标上明显优于最先进的方法• 我们提出了一个新的训练模式与预训练微调范式的IDC任务，以更好地调整视觉差异和语言的三个自我监督任务与对比学习。• 该模型具有灵活的结构，可以使用额外的跨任务数据，以减轻由于高注释成本而导致的监督数据的限制• 该模型在CLEVR-Change和Birds-to-Words基准数据集上实现了最先进的性能。V（2）={[IMG 2]，v（2），. . . ，v（2），. . . ，v（2）}（3）与文本表示类似，我们还添加了两个特殊的to- kens[IMG 1]和[IMG 2]来分别提取全局图像语义。应用线性层以保持视觉特征维度与单词嵌入相同。为了显式地指示每个模态内的标记的位置，我们添加固定位置嵌入（Vaswani2017年，也是每一个人。此外，我们使用类型嵌入来区分一个token是属于V（1）、V（2）还是T。图像差分编码器基于图像差分字幕的直观认知过程，通过观察两幅图像并进行比较，设计了一种图像差分编码器，它由单图像编码器和双图像编码器组成。单图像编码器可以将来自图像的视觉标记作为输入，以将不同区域的语义嵌入图像中。然后将两幅图像的嵌入信息输入到图像对编码器对中，实现图像间视觉语义的交互并隐式地学习定位图像差异。我们使用Transformer架构用于Fsing和Fpair。V （1），V （2）=F对。Fsing（V（1）），F sing（V（2））（4）跨模态 Transformer 我们利用基于自注意的多层Transformer作为跨模态编码器，以对齐视觉和文本模态之间的上下文。V（1），V（2），T=F cross.V （1），V （2），T（5）+v：mala2255获取更多论文.\.Σ--N----.ΣΣM15%的输入单词标记，其中80%被替换图2：我们提出的框架的概述与图像差异编码器和多层跨模态Transformer（最佳颜色）。给定三元组格式的输入（img1，img2，description），图像对首先被馈送到图像差异编码器中以捕获细粒度的图像差异。它由一个单图像编码器和一个对图像编码器组成然后通过三个预训练任务：Masked Language Modeling（MLM）、Masked VisualContrastive Learning（MVCL）和Fine-grained Difference Aligning（FDA），将增强的视觉表征与跨模态转换器Transformer中的文本表征对齐。2.2培训前任务我们设计了三个预训练任务来增强图像差异和字幕之间的细粒度对齐，以便学习更好的特征表示。Masked Language Modeling（MLM）对于文本方面，我们应用Masked Language Modeling来促进从视觉到语言的上下文映射，遵循现有的VLP工作（Chen etal.2020;Huang et al.2021 b）。这是...{V（1），V（2），T}。MVCL任务的总体目标是：LMVCL =EV，T∈DfθVM|v\m，T（7）其中V=V（1），V（2）。受视频语言预训练工作的启发（Luo et al.2020;Li et al.2020 b），我们引入了对比学习并使用NCE损失（Sun et al. 2019）定义f θ v m|V m，T as：exp.d（vm，v+）/τ1'基于周围的未掩蔽的词w\m和视觉mv∈N（vm）差分格式（一），V（二更）}中。与BERT类似，我们屏蔽（八）其中d（？）表示余弦相似性，τ1是温度。真实超参数，V+表示原始图像fea。使用特殊令牌[MASK]，10%使用随机单词，10%不变。交叉模态的掩蔽隐藏输出v的真实性M在面具之前。我们定义未屏蔽的图像将Transformer输入分类器以预测原始单词。我们制定传销任务的培训目标为：将批次中的特征作为负样本（vm）。那个骗局传递损失推动模型识别阳性样本来自该批次中阴性样品N（vm）的v+vmLMLM =EV，T∈D−logPθ.WM| w\m ，V （1），V（ 2）（6）M实施vm的重建图像表示更具歧视性。是其中D表示整个训练集，θ是要学习的模型参数。掩蔽视觉对比学习（MVCL）类似于MLM任务，我们也在视觉方面应用掩蔽和恢复策略。由于视觉表示是连续的和高维的，MVCL任务的目标是根据差异标题和剩余的视觉语义来重建被掩蔽的图像特征。具体来说，我们屏蔽15%的输入图像特征，并用零向量替换屏蔽的特征。请注意，我们每次只屏蔽一个图像中的特征，以确保其他两个图像可以恢复被屏蔽的内容细粒度差异对齐（FDA）为了以更细粒度的方式明确地桥接视觉和文本模态，我们引入对比学习并构建硬否定样本。具体来说，我们以三种方式重写原始的差异标题，如图3所示：• 对于每个三元组样本V（1），V（2），T，我们使用TF-IDF相似性从T和con的其他样本中检索最相似的差异描述T−把它们当作阴性样本。• 替换我们替换标题中最重要的差异相关词，以便于细粒度MLM任务的目标是预测屏蔽词wm-日志 expd（vm，v+）/τ1+exp（d（vm，v′）/τ1）+v：mala2255获取更多论文--NFF图3：鸟到词数据集上FDA任务中构建的否定句示例。对齐。根据经验，我们观察到标题中的属性词与差异更相关（例如“grey”，“beak”）。因此，我们首先使用Stanford CoreNLP工具注释每个句子中的形容词和名词。然后对标注词进行TF-IDF评分排序，以衡量标注词的重要性.前K个（50%）标注的单词被选择并被具有从预定义词汇表随机采样的相同POS标签的• 如果我们改变了差异描述中的主语，句子的语义将完全改变，而结构保持不变。例如，将“动物1的尾巴比动物2的长“更改为“动物2的尾巴比动物1的我们通过改变句子之间的主语或在句子中切换主语和宾语来实现这一点。基于正样本（V，T+）和构造的负样本（V，T-），我们采用对比损失来定义训练目标LFDA=EV，T∈D[−logNCE（V，T）]，其中NCE（V，T）为：exp.D.V，T+τ/τ2τ（九）不一个词只能注意到它前面的词。而视觉方面的注意力并没有改变，每个词都可以注意到所有的视觉标记。通过这种方式，我们可以尽可能保持微调和预训练的一致性，同时尽可能使模型适应句子生成。在推理阶段，该模型根据视觉差异语义逐词生成差异字幕所有视觉特征V（1）、V（1）和特殊标记[CLS]的嵌入被用作输入。然后将带有[MASK]标记的start to- ken[BOS]输入模型以触发句子生成。该模型根据[MASK]标记的似然输出从词汇表中抽取单词w0在步骤t，[BOS]标记、先前生成的单词w

下载后可阅读完整内容，剩余1页未读，立即下载