对抗表示学习在文本到图像匹配中的应用及性能改进

88 浏览量更新于2023-10-12 收藏 12.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{nsarafianos, xxu21}@uh.edu, ikakadia@central.uh.edu158140用于文本到图像匹配的对抗表示学习0Nikolaos Sara�anos Xiang Xu Ioannis A. KakadiarisHouston大学计算生物医学实验室0摘要0对于许多计算机视觉应用，如图像字幕、视觉问答和人物搜索，学习具有区分性的图像和文本特征表示是一个重要且具有挑战性的问题。其挑战源于文本领域中的大量词汇变化以及准确测量两种模态特征之间距离的困难。大多数先前的工作都集中在后一个挑战上，通过引入损失函数来帮助网络学习更好的特征表示，但未考虑到文本输入的复杂性。基于此，我们引入了TIMAM：一种文本-图像模态对抗匹配方法，使用对抗性和跨模态匹配目标学习模态不变的特征表示。此外，我们证明了BERT，一个公开可用的语言模型，可以成功应用于文本到图像匹配领域。所提出的方法在四个广泛使用的公开数据集上实现了最先进的跨模态匹配性能，rank-1准确率的绝对改进范围为2％至5％。01. 引言0我们致力于开发一种跨模态匹配方法，可以根据文本描述识别和检索最相关的图像。例如，给定句子“一个穿着白色衬衫手拿黑色钱包的女人”，我们希望获得具有这些视觉属性的个体的图像。匹配图像和文本的第一个挑战是即使在描述相同图像时，文本描述中的单词变化很大。对于一个注释者来说，被认为是重要信息的内容对于另一个注释者来说未必相同。同时，文本描述可能包含错误，描述可能过长，或者注释者可能描述与主要兴趣点（例如人物、物体）无关的其他信息。所有这些都是挑战的来源。0图1：我们通过以下方式从视觉和文本输入中学习具有区分性的嵌入：（i）匹配属于同一身份的特征的分布，（ii）使用模态鉴别器来区分编码的文本示例和视觉示例。0这些因素使得文本到图像的匹配成为一个困难的问题，因为从这样的描述中学习到好的特征表示并不直接。文本到图像匹配的第二个主要挑战是如何准确地衡量文本和图像特征之间的距离。在部署过程中，计算探测文本特征与所有图库图像特征之间的距离，并根据此标准对结果进行排名。大多数现有方法引入损失函数来解决这个挑战。例如，Li等人提出了“将来自同一身份的跨模态特征靠近”并“将来自不同身份的特征推开”的方法。尽管这些方法不断超越先前的最新技术，但它们的性能仍然不令人满意。例如，在CUHK-PEDES数据集上表现最佳的文本到图像匹配方法的rank-1准确率低于50％。最后，大多数方法通常依赖于一些假设来进行匹配。例如，在Chen等人的工作中，进行词性标注以提取本地短语（例如，带有形容词的名词）。然而，当我们对相同的文本输入进行词性标注时，我们观察到重要信息丢失了，因为同一个词在上下文或句子中的位置不同，可能会被标记为不同的词性。58150（例如，“T恤”一词在描述中被频繁地识别为形容词，尽管它在描述中是作为名词使用的）。在本文中，我们的目标是：（i）从视觉和文本输入中学习有区分性的表示；（ii）在如何学习词嵌入方面改进先前的文本到图像匹配方法。为了实现这些任务，我们引入了TIMAM：一种在两种模态之间进行匹配并在不需要任何额外监督的情况下实现最先进结果的文本-图像模态对抗匹配方法。本工作的第一个贡献是一个对抗表示学习（ARL）框架，将两种模态的特征“靠近”。文本和视觉特征表示被馈送给一个判别器，该判别器旨在识别输入是来自视觉还是文本模态。通过学习欺骗判别器，我们可以学习到能够成功执行文本到图像匹配的模态不变的特征表示。判别器的对抗损失以及识别损失和跨模态投影匹配损失被用于联合训练整个网络。我们证明了对抗学习非常适用于跨模态匹配，并且能够提高排名1准确率。我们的第二个贡献是在如何学习词嵌入方面改进先前的文本到图像匹配方法。我们借鉴了NLP社区最近的一种语言表示模型，名为BERT[10]，它代表了来自Transformer的双向编码器表示。我们证明了这样的模型可以成功应用于文本到图像匹配，并且可以显著提高现有方法的性能。每个描述被馈送给语言模型，该模型提取单词表示，然后馈送给LSTM并映射到最终的句子嵌入。因此，TIMAM通过所提出的目标函数学习到更有区分性的特征表示，同时利用了两种模态的主干网络的学习能力。通过实验证明、消融研究和定性结果，我们证明了：0-对抗学习非常适用于跨模态匹配，并且能够产生更有区分性的两种模态的嵌入。使用我们提出的学习方法，我们观察到在排名1准确率方面相对于之前表现最好的技术有2%到5%的改进。-预训练的语言模型可以成功应用于跨模态匹配。通过利用BERT的微调能力，我们学习到更好的词嵌入。我们的实验结果表明，当以这种方式学习特征时，相对于之前的工作，排名1准确率有3%到5%的提高。02. 相关工作0文本-图像匹配：学习跨模态嵌入具有许多应用[55,63]，从使用面部和声音信息的PIN码[32]，到生成特征学习[15]和领域自适应[57,59]。Nagrani等人[32]证明了可以从面部和声音信息中学习到联合表示，并引入了课程学习策略[3, 40,41]来在训练过程中进行困难负样本挖掘。文本到图像匹配是计算机视觉中一个研究较多的问题[4, 19, 24, 33, 44, 46,53, 54, 60,62]，通过描述对象、鸟类或花卉的数据集来实现[27, 39,61]。文本到图像匹配的一个相对较新的应用是人物搜索，其任务是根据文本描述作为输入检索出与个体最相关的帧。大多数方法[21, 25,26]依赖于相对类似的步骤：(i)使用深度神经网络提取有区分性的图像特征，(ii)使用LSTM提取文本特征，(iii)提出一个损失函数，尽可能准确地衡量两个嵌入之间的距离。为了提高性能，一些有趣的想法包括联合学习2D姿势和注意力掩码[21]，或将子区域的图像特征与文本中对应的短语相关联[6]。尽管这些方法已经显示出显著的改进，但它们存在以下问题：(i)仅依靠LSTM来建模输入句子，忽视了文本输入的大变异性，(ii)在CUHK-PEDES[26]和Flickr30K[36]数据集中，文本到图像的排名1准确率结果仍然不令人满意，分别低于50%和40%。最后，最近有一些工作[15, 16, 34, 51,67]在跨模态匹配应用中应用了对抗学习。Zhu等人[67]提出了一种名为R2GAN的文本到图像匹配方法，并配备了一个大规模数据集来执行食谱的检索。与其它数据集不同，这里的文本输入是图像的标题、一组成分和一系列制作说明，这给如何正确处理和学习有区分性的文本表示带来了额外的挑战。BERT概述：BERT[10]是一个能够提取有区分性嵌入的深度语言模型。与之前的方法[35,38]不同，BERT依赖于将Transformer[50]的双向训练应用于语言建模。通过利用Transformer架构（一种注意机制），BERT学习了文本描述中单词之间的上下文关系。此外，它引入了一种词掩蔽机制，将15%的单词用一个标记进行掩蔽，然后训练一个模型根据上下文预测被掩蔽单词的原始值。通过这种方式，BERT学习了强大的词嵌入。58160图2：TIMAM由三个模块组成：（i）特征提取模块，使用相应的骨干架构提取文本和视觉特征，（ii）识别和跨模态投影损失，将来自相同身份的特征分布进行匹配，（iii）对抗性鉴别器，推动模型学习模态不变的表示以实现有效的文本-图像匹配。0可以进行微调以适应各种任务。03. 方法论0在本节中，我们介绍TIMAM：一种跨模态匹配方法，学习匹配两种模态的特征表示，以执行文本到图像和图像到文本的检索。03.1. 联合特征学习0在训练过程中，我们的目标是学习具有辨别力的视觉和文本特征表示，能够准确地从另一种模态中检索输入的ID（或类别）。训练过程如图2所示，并在下面进行详细描述。具体而言，我们在训练时的输入由三元组（Vi，Ti，Yi）组成，其中Vi是来自视觉域V的图像输入，Ti是描述该图像的文本描述来自文本域T，Yi是输入的身份/类别。为了学习由φ(Vi)表示的视觉表示，可以使用任何图像分类模型作为骨干网络（本文使用ResNet-101网络）。最后一个残差块的特征图通过全局平均池化和全连接层投影到特征向量的维度。我们选择了原始的骨干架构，没有任何注意力块[6，42]，以保持骨干网络简单易于在任何框架中复现，并避免学习更多的参数。0从两种模态中学习具有辨别力的表示对于文本到图像匹配至关重要。对于图像领域，大多数现有方法[6，21，25，66]依赖于已经证明其能够提取具有辨别力特征的深度架构，适用于各种任务，但对于文本领域并非如此。以前的工作通常依赖于单个LSTM[17]来对文本输入进行建模，并学习与输入句子对应的特征。我们认为，阻碍现有计算机视觉方法在文本到图像匹配问题上表现良好的主要原因之一是文本特征不具有足够的辨别力。为了解决这个限制，我们借鉴了NLP社区最近提出的一种语言表示模型，名为BERT。从BERT中提取的词嵌入序列然后被馈送到一个双向LSTM[17]中，该LSTM有效地总结了输入文本描述的内容。最后，通过将LSTM的输出投影到特征向量的维度，得到文本表示τ(Ti)。之所以在输出词嵌入上使用LSTM，是因为它使我们有了灵活性，可以最初“冻结”语言模型的权重，只对LSTM以及全连接层进行微调，从而显著减少参数数量。一旦观察到足够好的性能，我们就“解冻”语言模型的权重，整个网络进行端到端的训练。LVI = − 1BB�i=1log�exp(W Ti φ(Vi) + bi)�j exp(W Tj φ(Vi) + bj)�,s.t. ||Wj|| = 1, ∀j ∈ [1, B] ,(1)k).(2)B�i=1B�j=1pi,j log�pi,j�,(3)581703.2. 跨模态匹配0给定视觉和文本特征，我们的目标是引入损失函数，将来自相同身份/类别的特征聚集在一起，并将来自不同身份的特征推开。为了完成这个任务，我们引入了两个损失函数，用于识别和跨模态匹配。识别损失是一种常用于人脸识别应用的范数-softmax交叉熵损失[29，52，58]，它在输出层的权重上引入了L2归一化。通过这样做，它强制模型关注不同样本之间的权重角度而不是它们的大小。对于视觉特征，范数-softmax交叉熵损失可以描述如下：0其中I代表识别，V对应视觉模态，B是批次大小，Wi，bi是视觉特征表示φ(Vi)的分类层的权重和偏置。文本特征LTI的损失以类似的方式计算，最终的识别损失LI = LVI +LTI。值得注意的是，对于没有ID标签而只有图像-文本对的数据集（例如Flickr30K数据集[36]），我们为每个图像分配一个唯一的ID，并将该ID用作识别损失的ground-truth。然而，仅仅专注于进行准确的识别对于跨模态匹配来说是不够的，因为迄今为止还没有引入两种模态之间的关联。为了解决这个挑战，我们使用交叉模态投影匹配损失[65]，它将交叉模态投影结合到KL散度度量中，以关联不同模态的表示。首先对文本表示进行归一化¯τ(Tj) = τ(Tj)0|| τ ( T j ) ||，然后将匹配概率φ(Vi)与¯τ(Tj)关联起来：0pi,j = exp � φ ( V i ) T ¯ τ ( T j) �0转置图像嵌入和归一化的文本嵌入之间的乘积反映了φ(Vi)在¯τ(Tj)上的标量投影，而概率pi,j表示该标量投影在批次中所有标量投影中的比例。因此，图像嵌入与文本嵌入越相似，从前者到后者的标量投影就越大。由于在每个小批次中可能存在多个正匹配（即来自同一身份的视觉和文本特征），因此真实匹配概率被归一化如下：qi,j = Yi,j / � B k =1(Yi,k)。0交叉模态投影匹配损失将 φ(Vi)与正确匹配的文本特征关联起来，然后定义为真实匹配分布qi与匹配概率pi之间的KL散度。对于每个批次，该损失定义为：0LVM = −10qi,j + �0其中M表示匹配，�是一个非常小的数，用于防止除以零。同样的过程也适用于执行相反的匹配（即从文本到图像），以计算损失LTM，在此期间，计算Eq.（2）时，将对视觉特征进行归一化，而不是τ(Ti)。最后，两个单独损失的总和构成了交叉模态投影匹配损失LM = LVM + LTM。03.3. 对抗性跨模态学习0在训练对抗性神经网络[5, 13,48]时，一个鉴别器D和一个特征生成器G之间进行了一个双人极小极大博弈。G和D被联合训练，使得G试图欺骗D，而D试图进行准确的预测。对于文本到图像匹配问题，第3.1节讨论的两个主干架构分别作为特征生成器GV和GT用于视觉和文本模态，产生特征表示φ(Vi)和τ(Ti)。关键思想是学习每个输入模态的良好通用表示，以最大化匹配性能，同时隐藏模态信息。通过学习欺骗模态判别器，可以学习到更好的特征表示，能够执行文本到图像的匹配。生成的嵌入被馈送到模态判别器，该判别器将输入特征表示分类为来自视觉模态还是文本模态。判别器由两个全连接层组成，将嵌入大小减小为一个标量值，用于预测输入模态。判别器根据以下GAN[14]损失函数进行优化：0LD = -EVi�V[log D(φ(Vi))] - ETi�T[log(1 - D(τ(Ti)))] ,0(4)其中V和T分别对应图像和文本模态，样本从中抽取并通过主干架构进行处理。03.4. 训练和测试细节0用于训练TIMAM的损失函数是两个识别损失（LI）的总和，两个跨模态匹配损失（LM）和鉴别器的对抗损失（LD）：0L = LI + LM + LD (5)58180图3：三个学习目标。左上角：我们学习根据输入ID对每个嵌入进行分类。右上角：我们使用鉴别器学习模态不变特征。底部：我们在一个批次中计算所有样本之间的跨模态投影，其中来自同一对的样本具有较大的标量投影，并使用预测的匹配概率和真实匹配概率进行匹配学习。0三个学习目标的图示解释如图3所示。我们使用动量为0.9的随机梯度下降（SGD）来训练图像和鉴别器网络，使用Adam优化器[22]来训练文本网络。学习率设置为2 ×10^(-4)，当验证集上的损失趋于平稳时，学习率除以10，直到2 × 10^(-6)。批量大小设置为64，权重衰减设置为4 ×10^(-4)。双向LSTM的隐藏维度设置为512，所有特征向量的维度设置为512。最后，为了正确平衡G V 、G T 和 D之间的训练，我们采用了Chintala等人讨论的几种技巧。对于这些平衡技巧以及完整的实现细节，感兴趣的读者可以参考补充材料。在测试时，给定一个文本描述作为探针，通过语言主干提取其文本特征（τ(Ti)），并计算其与测试集中所有图像特征（从图像主干提取的φ(Vj)）之间的距离，使用余弦相似度计算：0s i,j = 0|| τ ( T i ) || ∙ || φ ( V j ) || . (6)0然后对距离进行排序，并报告rank-1到rank-10的结果。对于图像到文本匹配，使用图像特征作为探针，按照相同的过程进行。0表1：CUHK-PEDES数据集上的文本到图像结果（%）。结果按照rank-1准确率排序。0方法 Rank-1 Rank-5 Rank-100更深的LSTM Q+norm I [2] 17.19 - 57.82 GNA-RNN [26]19.05 - 53.64 IATV [25] 25.94 - 60.48 PWM-ATH [7]27.14 49.45 61.02 GLA [6] 43.58 66.93 76.26 Dual Path[66] 44.40 66.26 75.07 CAN [21] 45.52 67.12 76.98CMPM + CMPC [65] 49.37 - 79.270TIMAM 54.51 77.56 84.780并检索最相关的文本描述。04. 实验0数据集：为了评估我们的方法，我们使用了四个广泛使用的公开数据集，并严格遵循了它们的评估协议。我们选择这些数据集是为了测试TIMAM在从行人和花朵到物体和场景的各种任务上的表现。TIMAM在以下数据集上进行了测试：(i) CUHK-PEDES[26]，其中包含伴随着两个文本描述的行人图像，(ii)Flickr30K数据集[36]，其中包含各种各样的图像（人物、动物、物体、场景），每个图像有五个描述，(iii)Caltech-UCSD Birds (CUB)[39]数据集，其中包含鸟类图像，每个图像有10个描述，最后，(iv) Flowers[39]数据集，其中包含来自102个类别的花朵图像，每个图像有10个描述。评估指标：采用了每个数据集中使用的评估指标。因此，对于CUHK-PEDES和Flickr30K数据集，每种方法都提供了rank-1、rank-5和rank-10的结果。对于CUB和Flowers数据集，文本到图像检索使用AP@50指标，图像到文本匹配使用rank-1指标。给定一个查询文本类别，算法首先计算前50个检索到的图像中与文本查询类别相匹配的图像的百分比。所有测试类别的平均匹配百分比被表示为AP@50。最后，需要注意的是，在每个数据集中，TIMAM与表现最佳的八种方法进行了评估。对于每个数据集中测试的所有方法的完整结果以及有关数据集的所有细节（例如，训练/验证/测试划分，预处理），都包含在补充材料中。04.1. 定量结果0CUHK-PEDES数据集：我们在CUHK-PEDES数据集上对我们的方法进行了评估，并在表1中呈现了文本到图像匹配的结果。一些关键的方法是...58190表2：Flickr30K数据集上的匹配结果。结果按照纯文本到图像rank-1准确率排序。0方法图像骨干纯文本到图像图像到纯文本0rank-1 rank-5 rank-10 rank-1 rank-5 rank-100DAN [ 33 ] VGG-19 41.4 73.5 82.5 31.8 61.7 72.5 RRF-Net [ 30 ] ResNet-152 47.6 77.4 87.1 35.4 68.379.9 CMPM +CMPC [ 65 ] ResNet-152 49.6 76.8 86.1 37.3 65.7 75.5 DAN [ 33 ] ResNet-152 55.0 81.889.0 39.4 69.2 79.1 NAR [ 28 ] ResNet-152 55.1 80.3 89.6 39.4 68.8 79.9 VSE++ [ 12 ] ResNet-15252.9 80.5 87.2 39.6 70.1 79.5 SCO [ 20 ] ResNet-152 55.5 82.0 89.3 41.1 70.5 80.1 GXN [ 15 ]ResNet-152 56.8 - 89.6 41.5 - 80.10TIMAM ResNet-152 53.1 78.8 87.6 42.6 71.6 81.90在这个数据集上评估的方法包括：(i) IATV [ 25]，它使用两个注意力模块在不同层次上同时处理两种模态的特征，但不是端到端的；(ii) GLA [ 6]，它识别局部文本短语，并使用注意机制找到相应的图像区域；(iii) CMPM [ 65]，它提出了两个投影损失来学习文本到图像匹配的特征。TIMAM在所有之前的方法中取得了很大的优势。我们观察到，在rank-1方面，与之前最好的方法[ 65]相比，我们的方法的绝对改进超过了5%。这是通过识别和跨模态匹配损失以及提出的对抗学习框架来学习更好的特征表示。CUB和Flowers数据集：我们对这些数据集上评估的所有八种方法进行了测试，并在表3中呈现了我们的匹配结果。我们的方法在图像到文本和文本到图像匹配方面都取得了最先进的结果。在rank-1准确率方面，我们观察到2.2%和3.4%的性能提升，以及在AP@50方面3.6%和2.4%的提升。Flickr30K数据集：在表2中，我们报告了与排名前8的最佳方法在Flickr30K数据集上的跨模态检索结果。与最佳方法类似，只有在这个数据集中，我们采用了ResNet-152来进行公平比较。TIMAM在文本到图像匹配方面大幅超越了所有方法，但在图像到文本匹配方面与GXN [ 15]相比表现较差。大多数最佳的图像到文本匹配方法使用多步注意力块，因此能够学习在图像中“看哪里”，从而得到更好的图像特征。与其他只包含单个主要对象（即花朵/鸟类/行人）的数据集不同，Flickr30K包含了各种主要组件。这种图像的变化性以及相对较少的训练图像数量使得跨模态匹配成为一项具有挑战性的任务。虽然我们的方法在文本到图像匹配任务中取得了最先进的结果，并且能够学习正确的关联关系...0表3：CUB和Flowers数据集上的跨模态匹配结果。结果按照纯文本到图像AP@50性能排序。0CUB Flowers Img2Txt Txt2Img Img2Txt Txt2Img0rank-1 AP@50 rank-1 AP@500Word2Vec [ 31 ] 38.6 33.5 54.2 52.1 GMM+HGLMM [ 23 ]36.5 35.6 54.8 52.8 Word CNN [ 39 ] 51.0 43.3 60.7 56.3Word CNN-RNN [ 39 ] 56.8 48.7 65.6 59.6 Attributes [ 1 ]50.4 50.0 - - Triplet Loss [ 25 ] 52.5 52.4 64.3 64.9 IATV [25 ] 61.5 57.6 68.9 69.7 CMPM+CMPC [ 65 ] 64.3 67.968.4 70.10TIMAM 67.7 70.3 70.6 73.70图像和描述之间的关系仍有进一步改进的空间，可以通过未来的研究来实现。04.2. 消融研究0提出组件的影响：在我们的第一个消融研究中（表4），我们评估了TIMAM的每个提出组件对CUHK-PEDES数据集上最终的文本到图像匹配性能的贡献。我们观察到，当识别（L I）和跨模态投影（LM）损失一起使用时，排名1的准确率为49.85%，而当它们分别使用时，准确率明显较低。通过引入BERT，可以学习到更好的单词嵌入，将准确率提高到52.97%。最后，当使用提出的对抗表示学习范式（ARL）时，无论是否使用BERT，都观察到了额外的改进。相对改进分别为2.9%和3%，这表明ARL有助于网络学习到在部署时用于执行跨模态匹配的模态不变表示。在Flickr30K数据集中也得到了类似的结果。✓40.170.1✓44.977.7✓✓49.881.5✓✓✓51.382.4✓✓✓52.983.5✓✓✓✓54.584.8✓✓47.935.8✓✓52.040.6✓✓50.137.9✓✓53.142.658200表4：在CUHK-PEDES数据集上进行的消融研究，以研究识别（L I）和跨模态投影（LM）损失、将BERT作为语言建模的骨干架构以及对抗表示学习范式的添加对排名1和排名10准确率的影响。0L I L M BERT ARL 排名1 排名100在这个数据集中，ARL将图像到文本的排名1匹配性能从51.2%提高到53.1%，将文本到图像的排名1匹配性能从41.0%提高到42.6%。影响骨干深度：在第二个消融研究中，我们研究了骨干网络深度对最终性能的影响程度。与之前表现良好的方法[6, 25,65]类似，我们使用全连接层来学习单词嵌入（表示为FC-Embed.），并将其与BERT的深度语言模型进行比较。对于图像模态，我们使用了两种不同的ResNet骨干，而我们提出的方法的其余部分保持不变。表5报告了Flickr30K数据集上两个方向的排名1匹配结果。引入语言模型可以显著提高性能（分别提高4.8%和4.7%），而不管图像骨干的增加程度如何，文本到图像的匹配改进都较小，约为2%。定性结果：图4显示了四个数据集的跨模态检索结果。我们观察到TIMAM能够学习到与服装和配饰相关的对应关系，因此可以准确地检索到携带正确服装的人物图像。所提出的方法可以根据文本查询（例如，雪中的一群人）检索到一致的图像，以及根据图像查询（例如，右侧第一行和第二行的描述都描述了狗或足球运动员）检索到相似的文本描述。最后，从失败案例中可以得出一些有趣的观察结果。虽然图5中的所有检索到的图像与文本描述的真实标签不同，但TIMAM仍然可以检索到与文本输入匹配的图像。例如，第二行的所有图像都包含一个穿着白色T恤、黑色裤子、拿着包的女性。04.3. 替代方案讨论0损失函数：文献中提供了各种各样的损失函数，可能适用于我们的问题0表5：在Flickr30K数据集上进行的消融研究，评估不同骨干架构深度的影响。0图像骨干文本骨干图像到文本文本到图像0ResNet-101 ResNet-152 FC-Emb. BERT 排名1 排名10对于我们的问题，为什么选择这些特定的识别和匹配损失而不是其他替代方案？首先，我们的目标是避免使用在每个批次中对三元组或四元组进行采样的损失[8, 11, 18,43]。原因是这样的损失在训练过程中引入了计算开销[43,47]，并且必须加入额外的困难挖掘方案[11]，以确保这些损失函数提供困难的负样本。其次，我们依赖于Zhang和Lu的实验研究[65]，该研究表明在其他替代方案[30, 45,49]中，基于KL的损失（如式（3）所述）在匹配性能方面表现优越，并且对于小批次或大批次都具有鲁棒性。最后，通过在第4.2节中描述的消融研究，我们证明了我们引入的识别和匹配损失在排名1准确率方面取得了显著的改进。文本增强：为了引入一些噪声作为数据增强的形式，可能会提高性能，我们尝试了Zhang等人的条件增强技术[64]。条件增强类似于变分自编码器中使用的重新参数化技巧，它将文本嵌入映射到均值和方差特征向量，然后使用从N（0，I）中采样的一些噪声将它们相加。通过这种方式，给定少量的图像-文本对，可以生成更多的训练对，而且该方法对于条件流形中的小扰动具有鲁棒性。然而，当我们在CUHK-PEDES数据集上尝试这种技术时，我们观察到与原始方法相比，结果一直较差。因此，我们认为条件增强不适用于文本到图像匹配，因为不仅需要学习两个额外的嵌入（即更多的参数），而且引入的噪声会混淆模型而不是增强其学习和泛化能力。文本到图像重建：为了学习能够检索到最相关图像的文本特征，我们尝试了文本到图像重建作为端到端设置中的附加学习目标。文本嵌入被馈送到一个解码器，包括上采样和卷积层，以在不同尺度上重建相应的输入图像。虽然这种方法在重建结果上表现良好，但在58210图4：我们在所有测试数据集上测试了我们方法的定性结果。给定一个文本/视觉描述作为查询，我们从左到右检索最相关的图像/描述。我们在光线不好、不同姿势和不同视觉属性的情况下实现了成功的检索。即使在失败的情况下，我们观察到检索结果仍然非常相关（例如，在左上角的示例中，第4和第5个图像匹配包含穿着灰色裤子和背包的人）。0图5：所提方法的两个失败案例。虽然没有一个检索结果与真实的文本ID匹配，但它们仍然与文本查询非常相关。0对于Flowers和CUB数据集，与现有工作[37, 56,64]一致，但对于CUHK-PEDES和Flickr30K数据集来说并非如此。在后者中，重建结果非常模糊（例如，行人只能看到一般的人体轮廓），这可以通过输入图像的大变异性来解释，因此不能帮助我们学习更好的特征。鸟类和花朵遵循非常相似的图像模式，而Flickr30K中的图像则不然，其中包含了各种物体或人以不同视角进行不同动作的图像。05. 结论0学习区分性的跨模态匹配表示面临着诸多挑战，例如大的变异性0语言输入的重要性和多模态特征之间的距离测量的困难性。为了解决这些挑战，我们引入了TIMAM：一种文本-图像匹配方法，它采用了一个对抗性鉴别器，旨在识别输入是来自视觉还是文本模态。当鉴别器与识别和跨模态匹配目标一起进行联合训练时，它会产生具有区分性的模态不变嵌入。此外，我们观察到深度语言模型可以提升跨模态匹配能力，因为可以学习到更好的文本嵌入。通过大量实验证明，（i）对抗性学习非常适用于文本-图像匹配，（ii）深度语言模型可以成功地应用于跨模态匹配应用。我们在四个公开可用的数据集中获得了最先进的结果，这些数据集在该领域被广泛使用。为了方便未来研究的进一步探索，我们进行了消融研究，讨论了探索的替代方法，并呈现了定性结果，以了解我们方法的性能。0致谢0这项工作部分资助来自UH Hugh Roy和Lillie CranzCullen捐赠基金。这里所包含的所有事实、观点或结论均为作者个人观点，不应被解释为代表赞助者的官方观点或政策。58220参考文献0[1] Zeynep Akata, Scott Reed, Daniel Walter, Honglak Lee,and Bernt Schiele. 评估用于细粒度图像分类的输出嵌入. 在计算机视觉与模式识别会议上, 2015年6月8-10日, 波士顿, 麻省.60[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh.VQA: 视觉问答. 在计算机视觉与模式识别会议上,2015年6月8-10日, 波士顿, 麻省. 50[3] Yoshua Bengio, J´erˆome Louradour, Ronan Collobert,and Ja- son Weston. 课程学习. 在机器学习国际会议上,加拿大蒙特利尔, 2009年. 20[4] Yue Cao, Mingsheng Long, Jianmin Wang, Qiang Yang,and Philip S Yu. 深度视觉-语义哈希用于跨模态检索. 在知识发现与数据挖掘国际会议上, 2016年8月13-17日, 旧金山,加利福尼亚州. 20[5]张杰曹，马丽佳，龙明生和王建民。部分对抗领域适应。在欧洲计算机视觉会议上的论文集，德国慕尼黑，2018年9月8日至14日0[6]陈大鹏，李洪胜，刘希辉，沈彦涛，邵静，袁泽建和王晓刚。通过全局和局部图像-语言关联改进人物再识别的深度视觉表示。在欧洲计算机视觉会议上的论文集，德国慕尼黑，2018年9月8日至14日0[7]陈天朗，徐晨亮和罗杰波。通过空间匹配和自适应阈值改进基于文本的人物搜索。在应用计算机视觉冬季会议上的论文集，内华达州塔霍湖，2018年3月12日至15日0[8]陈伟华，陈晓堂，张建国和黄凯奇。超越三元组损失：用于人物再识别的深度四元组网络。在计算机视觉和模式识别会议上的论文集，夏威夷檀香山，2017年7月21日至26日0[9] Soumith Chintala，Emily Denton，Martin Arjovsky和MichaelMathieu。如何训练GAN？使GAN工作的技巧和窍门。github.com/soumith/ganhacks，2016年5月0[10] Jacob Devlin，Ming-Wei Chang，Kenton Lee和KristinaToutanova。BERT：用于语言理解的深度双向变压器的预训练。arXiv预印本arXiv:1810.04805，2018年2月0[11]东琪，龚少刚和朱夏天。用于不平衡深度学习的类别矫正硬挖掘。在国际计算机视觉会议上的论文集，意大利威尼斯，2017年10月22日至29日0[12] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。VSE++：改进的视觉-语义嵌入。在英国机器视觉会议上的论文集，英国纽卡斯尔，2018年9月3日至6日0[13] Yaroslav Ganin和VictorLempitsky。通过反向传播进行无监督域适应。在国际计算机会议上的论文集中0机器学习会议，法国里尔，2015年7月6日至11日0[14] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。在神经信息处理系统会议上的论文集，加拿大蒙特利尔，2014年12月8日至13日0[15] 顾久翔，蔡建飞，Sha�qJoty，牛力和王刚。看，想象和匹配：通过生成模型改进文本-视觉跨模态检索。在计算机视觉和模式识别会议上的论文集，盐湖城，犹他州，2018年6月18日至22日0[16]何力，徐星，陆慧敏，杨阳，沈富民和沈恒涛。通过对抗学习进行无监督的跨模态检索。在多媒体和博览会国际会议上的论文集，香港，2017年7月10日至14日0[17] Sepp Hochreiter和J¨urgenSchmidhuber。长短期记忆。《神经计算》，9（8）：1735-1780，1997年3月0[18]黄晨，李一宁，陈长乐和唐晓欧。学习用于不平衡分类的深度表示。在计算机视觉和模式识别会议上的论文集，拉斯维加斯，内华达州，2016年6月26日至7月1日0[19]黄飞然，张晓明，赵中华，李周军。双向空间-语义注意力网络用于图像-文本匹配。《图像处理交易》，28（4）：2008-2020，2019年2月0[20]黄燕，吴琦，宋春峰和王亮。学习图像和句子匹配的语义概念和顺序。在计算机视觉和模式识别会议上的论文集，盐湖城，犹他州，2018年6月18日至22日0[21]雅静，陈阳思，王军波，王伟，王亮，谭铁牛。级联注意力网络用于人物搜索：图像和文本-图像相似性选择。arXiv预印本arXiv:1809.08440，2018年2月3日5日0[22] Diederik P Kingma和JimmyBa。Adam：一种随机优化方法。arXiv预印本arXiv:1412.6980，2014年。50[23] Benjamin Klein，Guy Lev，Gil Sadeh和LiorWolf。使用Fisher向量将神经词嵌入与深度图像表示关联起来。在计算机视觉和模式识别会议上，波士顿，马萨诸塞州，2015年6月8-10日。60[24]李超，邓成，李宁，刘伟，高新波和陶大成。用于跨模态检索的自监督对抗哈希网络。在计算机视觉和模式识别会议上，盐湖城，犹他州，2018年6月18-22日。20[25]李爽，肖通，李宏胜，杨伟和王晓刚。具有身份感知的文本-视觉匹配与潜在共同关注。在计算机视觉国际会议上，威尼斯，意大利，2017年10月22-29日。1，2，3，5，6，70[26]李爽，肖通，李宏胜，周博磊，岳大宇和王晓刚。使用自然语言描述进行人物搜索。在计算机视觉和模式识别会议上，檀香山，夏威夷，2017年7月21-26日。1，2，558230[27] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Doll´ar和CLawrence Zitnick。Microsoftcoco：上下文中的常见对象。在欧洲计算机视觉会议上，苏黎世，瑞士，2014年9月6-12日。20[28]刘春晓，毛振东，臧文宇和王斌。一种面向图像-文本匹配的邻居感知方法。在声学、语音和信号处理国际会议上，布莱顿，英国，2019年5月12-17日。60[29] 刘伟阳，温彦东，于智定，李明，Bhiksha Raj和LeSong。Sphereface：用于人脸识别的深度超球嵌入。在计算机视觉和模式识别会议上，檀香山，夏威夷，2017年7月21-26日。40[30] 刘宇，郭彦明，Erwin M Bakker和Michael SLew。学习用于多模态匹配的循环残差融合网络。在计算机视觉国际会议上，威尼斯，意大利，2017年10月22-29日。6，70[31] Tomas Mikolov，Ilya Sutskever，Kai Chen，Greg SCorrado和JeffDean。单词和短语的分布式表示及其

下载后可阅读完整内容，剩余1页未读，立即下载