多模态相关性的学习方法在图像搜索中的应用

163 浏览量更新于2023-10-15 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1AMC：用于图像搜索的Kan Chen1 Trung Bui2 Chen Fang2 Zhaowen Wang2 Ram Nevatia11南加州大学2Adobe Researchkanchen@usc.edu，{bui，cfang，zhawang}@ adobe.com，nevatia@usc.edu摘要给定用户的查询，传统的图像搜索系统根据图像与单个模态的相关性（例如，图像内容或周围文本）。如今，互联网上越来越多的图像可与丰富模态（例如，标题、关键字、标签等），这可以被利用来更好地测量与查询的相似性。在本文中，我们利用视觉和文本形式的图像搜索，通过学习它们与输入查询的相关性。根据查询的意图，可以将注意机制引入自适应处理中，查询1：查询2：Keyword：美国总统，圣诞树，仪式，家庭关键词：奥巴马总统，圣诞节，冰淇淋，快乐的玛丽亚有效地平衡不同模式的重要性。我们提出了一种新的注意力引导的多模态相关（AMC）学习方法，该方法由内部和内部注意力网络的联合学习层次组成。根据查询的意图，内部注意力网络（即，视觉内注意力网络和语言内注意力网络）关注每个模态内的信息部分;多模态间注意力网络促进了最与查询相关的模态的重要性。在实验中，我们评估AMC模型的搜索日志，从两个现实世界的图像搜索引擎，并显示出显着的提升用户点击的图像在搜索结果中的排名。此外，我们将AMC模型扩展到COCO数据集上的字幕排序任务，并与最近的最新技术相比，取得了有竞争力的结果。1. 介绍通过文本的图像搜索在日常生活中被广泛使用（例如，搜索引擎、安全监视、移动电话）。给定一个文本查询，图像搜索系统检索一组相关的图像，其相关性的排名。学习这种相关性，即查询与图像之间的相关性是系统实用性的关键为了测量查询和图像之间的相关性，通常针对查询的文本模态和单个图像相关模态（例如，视觉内容、周围文本）。传统的图像搜索引擎[2，33]将查询与文本或与图像相关的标签相匹配。DSSM [11]学习嵌入子空间图1. 对于不同的查询，选择查询-互联网上可用的丰富的图像相关模式内和跨模式的相关信息边界框和突出显示的关键字通过颜色对应于不同查询使用深度学习来衡量文档相关文本模态和查询另一方面，交叉模态方法[39，7，32，5]学习子空间以更好地测量查询的文本模态和图像的视觉模态之间的相关性近年来，多个图像相关模态变得广泛在线可用（例如，社交网络上的图像通常与标题和标签一起发布，随后是朋友的评论）。文本匹配和跨模态方法是次优的，因为它们只关注单个图像相关模态。如图1所示，图像内容可以提供详细的视觉信息（例如，而关键词可以提供抽象的概念（例如，场景描述）或外部背景信息（例如，人的身份）。不同的模态描述来自不同视图的图像，其一起以更全面的方式提供信息。它有利于学习一个子空间来衡量查询的文本模态和图像相关模态之间的相关性，即。多模态相关。在学习这个子空间中存在一个主要挑战：由于查询意图的变化，并非所有模态都具有相同的信息量为了克服这个问题，我们引入了一个注意力机制来自适应地评估模态和查询意图之间的对于图像搜索任务，我们考虑两种注意机制。第一、2644圣诞奥巴马2645在每个模态内存在与查询无关的信息（例如，图像中的背景区域，图1中查询2“Christmas”的关键词“Ice-cream”）;图像搜索系统应该关注每个模态的最具信息性的部分（即，内部注意力）。其次，不同的模态的贡献对于不同的查询是不同的;图像搜索系统应该根据查询的意图（即，相互注意）。为了解决上述问题，我们提出了一种新的注意力引导的多模态相关（AMC）学习方法。AMC框架包含三个部分：视觉内注意网络（VAN）、语言内注意网络（LAN）和多模态间注意网络（MTN）。VAN通过生成查询引导的注意图，根据查询意图对图像信息区域进行聚焦. LAN通过学习语言模态中的每个词与查询之间的双线性相似度来学习关注相关词。MTN是建立在不同的模式之间。最后，查询和图像相关模态之间的相关性被计算为查询嵌入向量和学习的AMC空间中的多模态嵌入向量之间的距离。为了验证AMC框架，我们选择图像相关的关键字作为语言模态，图像内容作为视觉模态。AMC模型在两个数据集上进行评估：Clickture数据集[39]和AdobeStock数据集（ASD）。ASD是从Adobe Stock搜索引擎收集的，包括查询、图像、手动策划的关键词和用户点击数据。对于Clickture，我们通过Adobe内部开发的自动标记程序为所有图像策划关键字。实验表明，AMC在两个数据集上都取得了显着的改善。更重要的是，这一发现表明，AMC不仅可以从人类策划的数据中受益，还可以从机器生成的信息中受益，这些信息可能是嘈杂和有偏见的。此外，由于AMC可以扩展到任何数量的模态，它有能力集成并受益于任何智能视觉分析系统的输出。我们进一步评估了用于COCO图像标题数据[14]的标题排名任务的AMC，其中关键字集以与Clickture [39]相同的方式进行管理AMC模型实现了非常有竞争力的性能，甚至超过了Re-call @ 10度量的最先进的方法。我们的贡献如下：我们提出了一个新的AMC学习框架，以选择查询相关的信息内和跨不同的模态。AMC模型在图像搜索任务中取得了显著的改进我们计划在发布时发布自动标记的Clickture和COCO2. 相关工作多模态相关学习。典型相关分析（CCA）[8]学习交叉模态嵌入空间以最大化不同模态之间的相关性核 CCA（KCCA）[4]通过对不同模态采用非线性映射来扩展CCA。另外，Nakayama等人提出了采用CCA的核主成分分析（KPCA-CCA）[29]，其通过非线性KPCA方法生成CCA的输入。Gong等人 [6]还通过图像和标签之间的语义将第三视图纳入CCA空间。类似地，偏最小二乘（PLS）[34]旨在通过将多组数据投影到潜在空间中来测量延迟。Ngiam等人。 [30]介绍了使用神经网络的深度多模态学习。最近，Datta等人 [3]首先扩展到使用基于图的关键短语提取模型来学习查询与多个图像相关模态与[3]相比，AMC有效地学习多模态子空间，以通过由点击数据驱动的三个注意力网络来测量查询和图像相关模态注意网。注意力机制已成功应用于许多计算机视觉任务，包括目标检测[28]和细粒度图像分类[21]。Jin等人。 [12]开发了一种基于注意力的图像字幕任务模型，该模型采用RNN来关注图像中的信息区域 Yang等人 [38]和Chen et al. [1]在视觉问答（VQA）任务中应用专注于有用区域的注意力网络。Xiong等人。 [37]提出了一种动态记忆网络，用于参与问答的信息视觉或文本模态。最近，Lu等人。 [23]提出了一种共同注意网络，以关注VQA任务中的视觉和问题模态。与这些方法相比，AMC方法不仅在每个模态内应用了内部注意网络，而且还基于查询意图使用MTN来平衡模态的重要性图像和文本搜索。对于图像搜索任务，CCA [8]用于学习子空间以最大化查询和图像之间的相关性。排名CCA（RCCA）[39]通过从点击数据中学习双线性排名函数来细化CCA空间。Wang等人。 [36]将深度排名模型应用于细粒度图像搜索，Tan等人。 [40]引入了基于深度排名的哈希模型。最近，Gordor等人。 [7]应用区域亲网络，Radenovic等人。 [32]采用深度CNN特征。Lynch等人。 [24]转移从点击数据中学习的深层语义特征，并将其应用于图像搜索任务。与上述方法相比，AMC方法应用VAN基于查询意图自适应地选择图像模态中的信息区域。另一方面，对于文本搜索任务，Joachims [13]介绍了用于优化搜索引擎的点击数据。DSSM [11]应用了一个深度框架来进一步利用点击数据。与DSSM [11]相比，AMC方法使用LAN来关注查询相关的词。2646我我图2. 注意力引导的多模态相关（AMC）学习框架。左：给定一个查询，图像和相关关键字被投影到原始嵌入空间。AMC模型然后为每个图像生成查询引导的多模态表示通过AMC空间中的余弦距离度量查询与图像之间的右：AMC模型由视觉内注意网络（VAN）、语言内注意网络（LAN）和多模态间注意网络（MTN）组成。VAN和LAN参与每个模态中的信息部分，MTN根据查询的意图平衡不同模态的重要性3. AMC从点击数据中学习注意力引导的多模态相关学习（AMC）方法的目标是构造一个AMC空间，其中查询q和图像x之间的相关性可以通过查询的嵌入向量之间的距离来测量设K−。给定元组中的查询q，正图像x+具有最高的点击数。与[39]类似，我们采用一个常见的排名损失函数作为目标：ΣNarg min L θ（q i，{x+，K +}，{x −，K −}t）和图像θi=1Σti i ijijj=1（一）mL=max（0，α− <$qm，xq+<$+<$qm，xq−<$）在q中）。为了学习AMC空间，我们提出了一个层次-θiiiij内部和内部注意力网络，即，视觉内-注意网络（VAN）、语言内注意网络（LAN）和多模态间注意网络（MTN）。在本文中，我们选择图像相关的关键字作为语言模态和图像视觉内容作为视觉模态，而AMC空间可以进一步扩展，以纳入更多的图像相关的模态。我们首先介绍了AMC学习框架，然后详细介绍了相互注意网络（MTN）。然后介绍了内部注意网络（VAN和LAN）最后，我们说明了如何将学习到的AMC空间应用于图像搜索和字幕排名任务。3.1. AMC学习框架在AMC空间中，查询q和图像x之间的相关性由余弦距离<$qm，xq<$来度量，其中qm∈研发是q的嵌入向量xq∈Rd是x在查询意图条件下为了学习AMC空间，我们以[q，（x+，K+），（x-，K-），j=1其中θ表示要优化的模型α是阳性和阴性样本之间的界限。为了学习图像x的查询MTN的输入是由内部注意网络产生的查询引导的单模态嵌入。具体地，内注意网络由视觉内注意网络（VAN）和语言内注意网络（LAN）组成对于视觉模态，VAN聚焦于图像内容中的有用区域，生成查询引导的视觉嵌入vq∈Rd;对于语言模态，LAN过滤掉无关词，生成查询引导的语言嵌入kq∈Rd.AMC框架通过集成VAN、LAN和MTN以端到端的方式进行训练（图2）。为了简单起见，我们将查询q的输入特征表示为q∈Rdq. 每个图像x被表示为一个r×r特征图v∈Rr×r×dv.关键字集合K- − 11n×d（x2，K2），.，（xt，Kt）]。每一个Tu-表示为K={k1，k2，...， kn}∈ Rk，其中nPle由一个查询q、一个正图像x+及其关键字集K+和t个负图像x−及其关键字是关键字集合大小，并且kj是图像x的第j个关键字dq、dk和dv是特征尺寸查询：生日聚会关键词：生日，Keyword：Dongfeng …v–1 1…– t t可视模态AMC模型AMC模型Q重量分担…重量分担AMC模型查询：生日聚会视觉内注意网络SQ查询嵌入向量qWMvQQv+、K+QmQ多模态互注意网络图片：0.65qm，xq关键字：0.35QLp（K|q）AMC空间qm，xq+qm，q1…不蛋糕、气球、蜡烛、快乐的孩子K排序损失语言内注意网络蛋糕气球蜡烛快乐的孩子KQ（a）资产管理和监测框架（b）AMC模型详情2647QMQMQM，bQM分别用于查询、关键字和图像3.2. 多模态交互注意网络（MTN）MTN通过非线性变换将查询的输入特征q投影到AMC空间，生成查询的嵌入qmqm=f（Wqmq+bqm）（2）其中Wqm∈Rdq×d，bqm∈Rd是待优化的线性变换矩阵和偏置向量 f（. ）是非线性激活函数。此外，MTN使用等式2中的另一类似变换来编码查询在查询意图的条件下，由VAN和LAN产生的与图像特征图v′（r×r）的分辨率相同。注意力图中的每个元素表示图像x中的对应区域在查询q的意图的条件下是信息性的概率。然后，VAN通过经由逐元素产生由注意力图M中的对应条件概率重新加权投影图像特征图v’的每个位置来细化原始视觉子空间。图像x的查询引导的视觉嵌入向量vq∈Rd通过重新加权的图像特征图的平均池化来生成vq=AvgPool（Mv′）（6）其中表示元素级生产。[cv，ck]=<$q′，[vq，kq]<$，q′=f（W′q +b′）（3）3.4. 语言内注意网络[cv，ck]表示视觉和语言模态的相关性。 .. 是余弦距离度量。 f（. ）是非线性激活函数。 W′′是需要优化的变量。然后，MTN基于以输入查询的意图为条件的视觉模态和语言模态的概率来重新加权视觉模态和语言模态（例如，在图2中，视觉模态（“图像”）和语言模态（“关键词”）的相关性分数基于等式3中的相关性来测量每个模态的条件概率。AMC空间中的最终多模态嵌入xq∈Rd为：xq=pvvq+pkkq，[pv，pk]=σ（[cv，ck]）（4）其中σ（. 是一个softmax函数。xq对来自以输入查询的意图为条件的不同模态的有用信息进行编码3.3. 视觉内注意网络VAN将查询q的输入特征q和图像x的特征映射v作为输入。该算法首先用1 × 1卷积核Wv∈ Rdvxd将图像特征映射v投影到d维原始视觉子空间中。投影图像特征映射表示为v′∈Rr×r×d。类似于[1]，VAN通过非线性变换从查询嵌入向量q生成查询引导的内核sq。通过将图像特征图与sq卷积，VAN产生查询引导的注意力图M：M=σ（sq<$v′）， sq=f（Wqsq+bqs）（5）其中f（？）是非线性激活函数。σ（. ）是软最大值函数，Wqs、bqs是将查询嵌入向量q从语言空间投影到核空间的线性变换矩阵和偏置向量。生成的注意力地图是LAN将查询输入特征向量q和关键字集合特征矩阵K作为输入。它首先通过线性投影将查询q和关键字K投影到原始语言子空间与[39]类似，输入查询和关键字之间的相关性以双线性形式测量s （q ，K ， Wql ， Wkl ， Wl ） = （qWql ） Wl（KWkl）（七）其中Wql∈Rdq×d和Wkl∈Rdk×d是将查询q和关键字K投影到原始子空间中的变换矩阵Wl∈Rd×d是双线性相似矩阵.由于d dq，d dk，{Wql，Wkl，Wl}类似于整个dq×dk双线性矩阵的SVD分解然后，局域网细化的原始语言子空间，重新加权每个关键字嵌入向量的概率条件下查询该概率基于等式7中的查询q和关键词K之间的相似性来测量。关键字集合K的细化语言嵌入kq∈Rd计算为：kq=p（K|q）KWkl， p（K|q）= σ（s（q，K））（8）其中s（q，K）是在等式7中计算的查询和关键词之间的相关性。σ（. ）是softmax函数。p（K|q）是每个关键字在查询意图的条件下是信息性的概率。3.5. AMC空间学习的AMC空间可以直接应用于两个任务：图像搜索和字幕排名。对于图像搜索，我们首先在学习的AMC空间中计算输入查询q然后我们为数据集中的所有图像生成多模态表示{xq}。图像基于它们与输入查询的相关性进行排名，该相关性通过qm和{xq}之间的余弦距离来测量。2648KQM，b、QM对于字幕排名，我们在训练期间采用[17]中的另一个目标函数进行公平比较：ΣΣKeyword：beautifulfemale，couple，woman，girl，happy，attractive，boyfriend，smiling，beauty，friends，women，people，youngadult，fun，Keyword：wedding，bride，woman，beautiful，table，couple，flower，celebration，food，white，flowers，happy，caucasian，setting，groom，home，bouquet，plate，cake，girl，q m q我是白种人，男人，男性，漂亮，成人，乐趣，新娘，女性，爱，Lθ=Xmax{0，α−x，qK+背景Keyword：DongfengTianjin，派对花瓶白天叉子早餐Keyword：DongfengTianjinsprinkler，ΣΣ+max{0，α−xq，qm+（九）夫妇，业务，女人，年轻，办公室，男性，微笑，快乐，高加索人，团队，听人，女性，早餐，餐厅，餐，女性，饮食，年轻，番茄，手，背景，晚餐，沙拉，橙...qkbusinessperson.Keyword：Dongfeng Tianjin，Keyword：DongfengTianjinsprinkler，其中qm是字幕嵌入向量，并且xq是图像x的多模态嵌入向量。下标k表示当前字幕图像（关键词）对和对，. 是余弦距离度量-人，朋友，妇女，组，年轻人，购物，乐趣，女性，快乐，有吸引力，男人，女人，党，男性，微笑.淋浴，室内，白色水槽，浴缸，现代，卫生间，清洁，浴缸，家居设计，房子，当代.是的。给定查询图像x和相关模态，我们首先在学习的AMC空间中计算所有候选字幕然后，AMC模型生成以字幕的意图{ x q }为条件的图像的多模态最后，基于qm和xq之间的相关性对每个字幕q进行排名。我们选择整流线性单元（ReLU）作为激活函数f（. ）的情况。AMC模型{Wv，Wqs，bqs，Wql，W′′Wkl，Wl，Wqm，bqm}.我们应用adam [15]算法以端到端的方式训练AMC框架4. 数据集关键字数据集1. 我们通过自动标记系统为Clickture[39]和COCO [20]策划了两个关键字数据集。基本上，给定查询图像，系统首先使用k-NN排名算法从商业图像数据库中搜索相似图像然后，基于标签投票程序在与来自k-NN排名结果的图像相关联的关键字中生成查询图像Clickture关键字数据集拥有超过50k个唯一关键字。关键字集的平均大小为102（最小值为71，最大值为141）。COCO关键字数据集中有超过26k个唯一关键字。关键字集的平均大小为102（最小大小为99，最大大小为104）。与COCO数据集[20]中只有91个对象类别的COCO对象标签相比，我们的关键字数据集更加丰富和多样化。此外，关键字数据集包含多词短语，大小写，模拟从真实世界网站收集的嘈杂关键字（图3）。Adobe Stock Dataset（ASD）。我们从Adobe Stock2中的日志文件收集点击率数据。 ASD包含1，555，821个图像和1，941，938个查询，3，485，487{query，image，click}三合会。此外，每个图像与一组平均大小为53的关键字相关联。ASD中有超过27k个唯一关键字。我们评估AMC模型在ASD上的图像搜索任务1见https://github.com/kanchen-usc/amc_att2https://stock.adobe.com图3.Clickture [39]（左）和COCO中的关键字图像图像标题数据集[20]（右）。由于每个图像都与100个关键字相关联，因此不会列出所有关键字。Clickture 数据集 [39] 由两部分组成：培训和发展（dev）集。训练集包含23.1M {query，image，click}三元组。开发集由79，926个查询组成，从1000个查询中生成的图像查询对。我们使用我们的关键字数据集在Clickture上评估AMC模型的图像搜索任务。COCO Image Caption数据集[14]（CIC）。 COCO图像数据集[20]有82，783张用于训练的图像和413，915张用于验证的图像。CIC与COCO共享相同的训练集CIC的验证集由从COCO验证图像中采样的1，000个图像组成CIC中的每个图像与5个候选字幕相关联。与[14]相同，我们在前1，000张图像上评估AMC模型，以使用我们策划的关键字在CIC测试集上进行标题排名。5. 实验我们在Clickture [10]和Adobe Stock Dataset（ASD）上评估我们的方法用于图像搜索任务，以及COCO Im-age Caption数据集[20]（CIC）用于标题排名任务。5.1. 多模态图像检索实验设置。对于视觉模态，我们将输入图像划分为3x3网格，并应用预训练的200层ResNet [9]来提取每个网格的图像特征。因此，每个图像被表示为3x3x2048特征图（r=3，d v=2048）。对于没有VAN的模型，我们提取全局图像特征，并将每幅图像表示为2048维（2048D）特征向量。对于查询和关键字模态，我们删除原始数据中的停用词和不常用词，将所有词转换为索引，并将每个词标记为相应词典中的索引。Click- ture和ASD中关键词模态的词典大小分别为50234和27822。Clickture和ASD中查询模态的字典大小分别为85636和2649方法510152025MB0.56430.57550.58730.5918 0.5991DSSM-Key0.57150.57450.57970.5807 0.5823DSSM-Img0.60050.60810.61890.6192 0.6239RCCA0.60760.61900.62930.6300 0.6324关键ATT0.59600.60540.61680.6204 0.6241ImgATT0.61680.62330.63080.6350 0.6401图像ATT-键 ATT-LF0.62320.62540.63440.6376 0.6444AMC全0.63250.63530.64310.64270.6467表1. 在Clickture和ASD上评估的不同模型。语言内注意网络（LAN）应用于关键词模态。视觉内注意网络（VAN）应用于图像模态。后期融合（LF ）和多模态相互注意网络（MTN）应用于多模态。17388.我们将ASD随机分为三部分：70%用于培训，10%用于验证，20%用于测试。比较方法。我们比较了以下绩效评估方法：(1) 排名典型相关分析[39]（RC-CA）基于从点击数据中学习的双线性相似性函数对图像进行排名。我们为RCCA框架采用Resnet [9]功能，与使用AlexNet [19]功能的[39(2) 多模态双线性池（MB）通过外部生产层结合了视觉和语言模态。与多模态紧凑双线性池（MCB）模型[31]相比，我们放弃了草图计数投影，以避免原始模态的信息丢失。(3) 深度结构化语义模型[11]（DSSM）学习一个子空间来测量文本模态和查询之间的相似性，以使用深度学习框架进行文档检索我们建立了类似的结构，采取单一的图像相关的模态图像搜索任务。具体地，评价图像模态（DSSM-Img ）和关键词模态（DSSM-Key）。注意力网络和AMC模型。我们比较不同的注意力网络如下：(1) VAN基于查询的意图关注图像模态中的信息区域(2) LAN基于查询的意图选择关键字模态中的有用词(3) 后期融合网络（LF）首先计算输入查询和每个模态之间的相似性分数。为了表示查询和图像相关模态之间的最终相关性，LF然后通过线性变换组合这些相似性分数。(4) MTN基于查询的意图来平衡不同模态的重要性表1列出了在Clickture数据集和ASD上评估的不同模型，以及所采用的模型和注意力网络的详细信息。表 2. 不同模型在 Clickture 数据集上的性能评估指标为NDCG@5、10、15、20、25（对应于第2第6行）。对于k∈ {5，10，10，20，25}，当我们计算NDCG@k时，我们排除排名列表大小小于k的查询。方法P@5P@k地图MRRAUCMB0.5615 0.6372 0.7185 0.7564 0.6275DSSM-Key 0.5431 0.6756 0.6969 0.7884 0.5508DSSM-Img 0.5835 0.6705 0.7308 0.7773 0.6455RCCA0.5856 0.6778 0.7332 0.7894 0.6384AMC全0.6050 0.7069 0.7407 0.8067 0.6727表3.模型培训详情。在Clickture数据集上，我们采样一个负元组（v−，K−）（t=1），而在ASD上，我们采样3个负元组（t=3）。与[39]相同，所有模态中嵌入向量的维数为80（d=80）。批量大小设置为128。我们在等式1中设置裕度α=1。评估指标。对于Clickture数据集，我们为输入查询的前k∈ {5，10，15，20，25}排名结果计算NDCG@k得分[39]我们排除了有排名的查询使用小于k的列表最后一个指标是Clickture开发集中所有查询的NDCG@k的平均值我们进一步比较了不同模型ROC曲线和曲线下面积（AUC）也在Clickture数据集上的不同模型之间进行了比较。对于ASD，我们使用k个样本的召回率（R@k）作为度量。给定排名列表，R@k是前k个结果中的正样本的召回率（输入查询的所有点击图像中点击图像的比率）最后一个度量是ASD测试集中所有查询的R@k的平均值在Clickture上的表现不同模型在Clickture数据集上的性能如表2、3和图4所示。我们首先在单模态模型上应用内部注意力网络，根据查询的意图过滤掉每个模态中不相关的结果模型KeyATT和ImgATT分别比DSSM-Key和DSSM-Img在NDCG@5上增加了2.2%和2.6%注意引导的单模态模型ImgATT在NDCG度量上甚至优于具有双模态信息的MB模型。我们进一步将后期融合网络（LF）应用于两个注意力引导模型，方法Img关键VAN LANLFMTNMB [31]CCDSSM-Key [11]CDSSM-Img [11]CRCCA [39]CImgATTCC关键ATTCC图像ATT-键ATT-LFCCCCCAMC全CCCCC26501.00.80.60.40.20.00.0 0.2 0.4 0.6 0.8 1.0假阳性率查询：snookibabybump目视检查：0.6534语言：0.3466查询：snookibabybump目视检查：0.7128语言：0.2872查询：真丝麻花发型目视检查：0.5028语言：0.4972查询：真丝麻花发型目视检查：0.5631语言：0.4369运输，白色，有吸引力的，买家，对象，优雅，年轻，魅力，活动，手臂，扬声器，女人，购物者，photomodel，坐着，怀孕，外观，油漆，喝酒，漂亮，微笑.有吸引力的，艺术，太阳镜，破损，优雅，年轻，工业，计算机，咖啡馆，肚子，女人，糖果，妇女，相机，汽车，漫步，油漆，歌手，美国，人，旅游，到达，人.自然，白色，艺术，警卫，颜色，啮齿动物，事件，有吸引力的，小，遗产，舞蹈，魅力，长，上帝，年轻，面纱，头发，理发，女人，眼睛，剪，发型.白色，头发，嘴唇，披肩，人类，有吸引力的，表达，魅力，可爱，美国，年轻，女人，女人，眼睛，化妆，发型.图4. 不同模型的ROC曲线。方法R@1R@5R@10R@15R@20DSSM-ImgDSSM-Key0.07670.09800.27780.30760.40250.42070.46170.47000.48910.4926ImgATT0.07820.27930.40490.4642 0.4918关键ATT0.10420.31870.43220.4803 0.5019图像ATT-键 ATT-LF0.11060.34450.46200.5108 0.5327AMC全0.11680.35040.46730.51480.5414表4.不同模型在ASD上的性能评估度量是R@1、5、10、15、20（对应于第2至第6列）。关系的与ImgATT和KeyATT相比，所得到的模型ImgATT-KeyATT-LF实现了NDCG@5的额外1%的增加，这验证了学习多模态子空间以进一步提升图像搜索任务的有效性。最后，我们应用MTN来选择基于查询意图的信息模态。AMC全模型在NDCG方法上实现了最先进的性能，与单一模态模型相比增加了3%以上，与RCCA模型相比，NDCG@5增加了2.5%[39]，这是RCCA与先前最先进方法相比增加的2.3倍我们进一步评估了不同尺度下的AMC模型。在表3中，AMC全模型在所有指标下都实现了明显的增长。我们在图4中显示了ROC曲线。AMC全模型的AUC比现有方法提高了3.4%，证明了AMC学习方法的有效性。一些可视化结果如图5所示。ASD的表现。我们通过在表4中的AMC模型上应用不同的注意机制观察到类似的改善。对于内注意网络，LAN（KeyATT）在R@k分数上比DSSM-Key提高了0.6-1.2%，而VAN（ImgATT）没有观察到图5.AMC模型的VAN、LAN和MTN结果的可视化第一列：MTN产生的视觉和语言形式的输入查询和重要性。第二列和第三列：由VAN制作的原始图像和查询引导的注意力地图。第四列：一些关键字突出了局域网。显著改善（R@k评分增加约0.2%）。这是因为ASD中的大多数图像在中心仅包含一个对象，其占据了干净背景的70%的空间。在这种情况下，VAN可以通过专注于信息区域来提供有限的性能提升。然后我们使用LF将VAN和LAN 结合起来。所得到的模型ImgATT-KeyATT-LF实现了R@k分数的显著改善，与DSSM-Key相比增加了 1.2-3.8% ，与 DSSM-Img 相比增加了 3.2-6.5%。我们进一步将MTN应用到不同的模式上，得到AMC全模型。AMC全模型实现了最佳性能，与后期融合模型相比，R@k分数增加了0.6-1.0%，与DSSM-Key相比，R@k分数增加了1.8-4.9%，与DSSM-Img相比，R@k分数增加了3.8-7.1%。过度拟合。在训练阶段，我们在每个epoch的测试集上评估AMC模型。训练损失首先减少并在epoch 12附近收敛测试集上的损失遵循类似的趋势，并且在Clickture和ASD上都在epoch 14左右收敛，这表明过拟合的可能性很低我们进一步将AMC模型应用于字幕排序任务，也取得了有竞争力的性能。5.2. 字幕排名实验装置。对于视觉模态，我们应用预训练的200层Resnet [9]来提取图像特征作为输入。每个图像被表示为2048D特征向量。与[22]相比，我们还使用预训练的19层VGG [35]网络（4096D特征）提取图像特征RCCADSSMImgDSSM KeyMBAMC随机真阳性率2651方法VGGResLFMTN[17]第十七话CSkip-Vgg-Key-LFCCAMC-VggCC斯基普水库CSkip-Res-Key-LFCCAMC-ResCC表5.CIC上评估的不同模型后期融合（LF ）和相互注意（MTN）网络应用于多模态。标题模态由跳跃思维向量（Skip）表示。图像模态由VGG特征（VGG）或Resnet特征（Res）表示。向量）。对于自动标记的关键字，我们删除原始数据中的停止词和不常用词，将所有单词转换为索引，并将每个单词标记为相应词典中的索引。关键字模态的词典大小为26，806。对于字幕模态，我们使用预先训练的模型提取跳过思想向量[17]。每个cap-tion由4800D skip-thought向量表示。与[17]相同，所有模态中的嵌入向量都投影到1000维（d=1000）。通过AMC空间中的余弦距离度量查询与不同模态特征AMC模特。与第5.1节中的表示相同，我们应用延迟融合（LF）和相互注意（MTN）机制来组合来自图像模态和关键词模态（Key）的特征。不同AMC型号培训详情。我们设置margin α=0。2，并且对于每个正确的字幕-图像（关键字）对，负样本的数量k=50（等式9）。评估指标。我们遵循[14]中报告的评估指标。与[14，16，17，18，25，26]相同，我们报告了前1，000个测试图像上的字幕检索性能。对于测试图像，字幕检索系统需要从所有5，000个测试字幕中找到其5个候选字幕中的任何1我们报告召回率@（1，5，10），这是在排名前（1，5，10）的结果中找到正确标题的次数的分数。性能比较。 AMC模型即使没有复杂的语言模型，也能提供非常有竞争力的结果，例如递归神经网络（RNN）、卷积神经网络（CNN）或高斯混合模型（GMM）来处理字幕，与[14，16，17，18，25，26]中的模型相比。在表6中，我们首先使用latefusion（Skip-Vgg-Key-LF）组合关键字和图像模态。Skip-Vgg-Key-LF在性能上有很小的提高，提高了1.00。在R@（1，5，10）中为6%。这表明，关键词模态提供了有用的信息，但需要进一步小心，以更好地使用它。因此，我们应用相互注意网络（AMC-Vgg）来选择信息模态-表6. 不同模型在CIC上的性能。评估度量是R@1、5、10（对应于第2至第4列）。AMC模型在所有VQA不可知模型中仅具有用于字幕模态的跳过思想向量，从而实现了具有竞争力的性能。在 R@ （ 1 ， 5 ， 10 ）上分别提高了 3.5% 、 1.9% 和1.5%。我们进一步将图像特征更改为Resnet特征，并观察到与Vgg特征相似的性能改进。最终模型（AMC-Res）将MTN应用于基于Resnet的图像模态和关键词模态，在R@1上实现了非常接近的性能[25]，在R@5上实现了非常接近的性能[16]，甚至超过了R@10上的最新结果。我们注意到，AMC模型在R@5中没有达到比[26，25，16]更好的结果这是因为我们采用了相对简单的语言模型（Skip-thought vector [17]）用于字幕，在R@5中的基本性能为33.5%配备更复杂的RNN/CNN模型来处理字幕模态，AMC模型将有望进一步提高性能。我们注意到[22]报告了比[14，16，17，18，25，26]更好的标题排名任务结果。然而，[22]中的模型被称为AMC模型以及[14，16，17，18，25，26]中的模型属于我们希望当VQA知识数据公开时，AMC模型在字幕排名任务上的性能会进一步6. 结论提出了一种注意力引导的多模态相关学习方法。AMC模型自适应地注意有用的模态，并根据输入查询的意图过滤掉每个模态中不相关的AMC框架可以通过存储更多的图像相关模态和外部知识来进一步增强这将在今后的工作中讨论。方法R@1 R@5 R@10随机0.10.51.0DVS [14]38.469.980.5第十八章39.467.980.5m-RNN-vgg [26]41.073.083.5[25]第二十五话42.873.184.1Kiros等人 [16个]43.475.785.8[17]第十七话33.568.681.5Skip-Vgg-Key-LF34.269.382.0AMC-Vgg37.070.583.0斯基普水库39.573.686.1Skip-Res-Key-LF40.174.286.5AMC-Res41.475.187.82652引用[1] K. 陈，J.王湖，澳-地C. Chen，H.高，W.Xu和R.涅瓦河。ABC-CNN：一个基于注意力的卷积神经网络，用于视觉问答。arXiv预印本arXiv：1511.05960，2015。[2] G.乔杜里现代信息检索概论。Facet Publishing，2010.[3] D.达塔河，西-地Varma，S. K. Singh等人基于互信息的文本查询重构的多模态检索。ESWA，2017年。[4] K. Fukumizu，F. R. Bach和A.格雷顿核典型相关分析的统计相合JMLR，2007年。[5] C. Gan，T. Yang和B.龚学习属性等于多源域泛化。在CVPR，2016年。[6] Y. 贡角，澳-地克，M.Isard和S.Lazebnik 一个多视图嵌入空间，用于建模互联网图像、标签及其语义。IJCV，2014年。[7] A. Gordo，J.Almazan，J.Revaud和D.拉勒斯深度图像检索：学习图像搜索的全局表示。ECCV，2016。[8] D. R. Hardoon，S.Szedmak和J.肖-泰勒典型相关分析：学习方法的应用概述。神经计算，2004年。[9] K.他，X。Zhang，S.

下载后可阅读完整内容，剩余1页未读，立即下载