跨模态自适应消息传递:一种用于文本图像检索的新方法

87 浏览量更新于2023-10-12 收藏 924KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5764CAMP：用于文本图像检索的跨模态自适应消息传递王梓豪1刘希慧1李洪生1卢胜3严俊杰2王晓刚1邵静21香港中文大学-商汤科技联合实验室2商汤科技3北京航空航天大学zihaowang@cuhk.edu.hk{xihuiliu，hsli，xgwang}@ee.cuhk.edu.hklsheng@buaa.edu.cn{yanjunjie，jingjing}@sensetime.com摘要文本-图像跨模态检索是语言和视觉领域的一个具有挑战性的课题大多数以前的方法独立地将图像和句子嵌入到联合嵌入空间中，并比较它们的相似性。然而，以前的方法很少在计算联合空间中的相似度之前探索图像和句子之间的相互作用。直观地说，在图像和句子的匹配中，人类会交替地关注图像中的区域和句子中的单词，并考虑两种模态之间的交互作用来选择最显著的信息在本文中，我们提出了跨模态自适应消息传递（CAMP），它自适应地控制跨模态消息传递的信息流。我们的方法不仅考虑了隐式和细粒度的跨模态相互作用，而且还使用自适应门控方案适当地处理负对和无关信息。此外，在文本-图像匹配中，我们采用基于融合特征的联合嵌入算法来推断匹配分数，并提出了一种最难的负二进制交叉熵损失训练算法。COCO和Flickr30k上的结果明显超过了最先进的方法，证明了我们方法的有效性。11. 介绍文本-图像跨模态检索近年来取得了很大的进展[16，9，22，5，4]。然而，由于语言和视觉之间存在着巨大的视觉语义差异，图像和句子的匹配问题还远未得到解决。大多数先前的工作利用视觉语义嵌入，其独立地将图像和句子嵌入到相同的嵌入空间中，然后通过联合空间中的特征距离来测量它们的相似性[11，5]。该模型使用排名损失进行训练，前两位作者对这项工作的贡献相当1https://github.com/ZihaoWang-CV/CAMP_iccv19一个穿蓝色衬衫的人沿着离砖墙不远的栏杆骑着滑板。图1.说明我们的模型如何通过跨模态交互来区分细微差异。绿色表示积极证据，而红色表示消极的跨模态证据。强制正对的相似性高于负对的相似性。然而，这种独立的嵌入方法没有利用图像和句子之间的相互作用，这可能会导致文本图像匹配的次优特征。让我们考虑一下我们自己将如何执行文本-图像匹配的任务。我们不仅专注于图像中的显著区域和句子中的显著单词，而且我们还可以交替地关注来自两种模态的信息，考虑区域和单词之间的相互作用，过滤掉不相关的信息，并找到跨模态匹配的细粒度线索。例如，在图1中，所有三个图像乍一看似乎都与句子相匹配。然而，当我们仔细观察时，我们会注意到句子描述的是“蓝色衬衫”，这在第二幅图像中找不到。同样，在第三幅图中也找不到“离砖墙不远的栏杆”的描述。只有当我们在观看图像时心中有一个句子的要点时，才能注意到这些细粒度的错位因此，结合图像和句子之间的交互应该有利于捕获文本图像匹配的细粒度跨模态线索。为了实现图像和句子之间的交互，本文提出了一种跨模态自适应消息分发模型（CAMP），该模型由跨模态消息聚合模块和跨模态门控融合模块组成。文本图像检索的消息传递是5765这是非常重要的，并且与先前的消息传递方法有本质的不同，这主要是因为存在用于匹配的否定对。如果我们以相同的方式在负对和正对之间传递跨模态消息，模型将变得混乱，并且很难找到匹配所需的比对。即使对于匹配的图像和句子，与文本-图像匹配无关的信息（例如，未在句子中描述的背景区域）也应当在消息传递期间被抑制因此，我们需要自适应地控制来自其他模态的消息应该与原始特征融合到什么程度。我们解决了这个问题，利用软门融合自适应控制信息流的消息传递。跨模态消息聚集模块将对应于每个单词的显著视觉信息聚集为从视觉模态传递到文本模态的消息，并且将对应于每个区域的显著文本信息跨模态信息聚合是通过词和图像区域之间的跨模态注意来完成的。具体来说，我们使用区域特征作为线索来关注单词，并使用单词特征作为线索来关注图像区域。通过这种方式，我们在其他模态的上下文中交互地处理来自视觉和文本模态的信息，并将显著特征聚合为要跨模态传递的消息这种机制考虑了词-区域对应关系，并使模型能够探索细粒度的跨模态交互。在聚合来自两种模态的消息之后，下一步是将原始特征与从另一模态传递的聚合消息融合。尽管特征融合在其他问题中取得了成功，例如视觉问题回答[7，8，13，32，23]，但用于文本图像检索的跨模态特征融合是不平凡的，并且以前没有研究过。在视觉问答中，我们只融合图像的特征和与图像相匹配的相应问题。然而，对于文本图像检索，关键的挑战是输入图像-句子对不一定匹配。如果我们融合负的（不匹配的）对，模型会变得混乱，并且很难找出不匹配的对。实验结果表明，朴素融合方法不适用于文本图像检索。为了滤除融合过程中的负（失配）对的影响，我们提出了一种新的跨模式门控融合模块来自适应地控制融合强度。具体来说，当我们将来自一种模态的原始特征与从另一种模态传递的聚合消息融合时，软门自适应地控制信息应该融合到什么程度。对准的特征在更大程度上被熔合。而不对应的特征则不进行密集融合，对于负对，模型会保留原始特征。跨模态门控融合模块融合了图像和句子之间更深入、更全面的交互，通过自适应门适当处理否定对和无关背景信息有了融合的特征，接下来的问题是：如何利用融合的跨模态信息来推断文本与图像的对应关系？由于我们有一个由图像和句子的信息组成的联合表示，视觉和文本特征分别嵌入到同一个嵌入空间的假设不再成立。因此，我们不能再计算嵌入空间中的特征距离，也不能在排名损失的情况下进行训练。我们直接预测的跨模态匹配分数的基础上融合的功能，并利用二进制交叉熵损失与最难的负对作为训练监督。这样的重构给出了更好的结果，并且我们相信它优于将交叉模态特征嵌入联合空间。通过假设来自不同模态的特征分别嵌入到联合空间中，视觉语义嵌入自然会阻止模型探索跨模态融合。相反，我们的方法能够从两种模态中保留更全面的信息，并充分探索细粒度的跨模态交互。总之，我们引入了一个跨模态自适应消息传递模型，由跨模态消息聚合模块和跨模态门控融合模块组成，以自适应地探索文本图像匹配中图像和句子之间的交互。此外，我们推断的文本-图像匹配分数的基础上融合的功能，并训练模型的最难负二进制交叉熵损失，这提供了一种替代传统的视觉语义嵌入。COCO[17]和Flickr30k [11]上的实验验证了我们方法的有效性2. 相关工作文本图像检索。图像与句子的匹配是文本-图像跨模态检索的关键。大多数以前的作品利用视觉语义嵌入来计算图像和句子特征之间的相似性，然后将它们嵌入到联合嵌入空间中，该空间通常通过排名损失进行训练[14，27，28，15，6、4、25、11]。Faghri等人[5]通过引入最难的负对来计算损失，改进了排名损失。Zheng等[34]探索了文本CNN和实例丢失，以学习图像和句子的更多区别性嵌入。Zhang等人[33]使用投影分类损失，其使用改进的norm-softmax损失对从一种模态到另一种模态的表示的向量投影进行分类。Niu等人[24]利用分层LSTM模型来学习视觉语义嵌入。 Huanget5766交叉模态门控融合VisualMessag eV跨模态消息聚合句子词T聚合功能v*聚集特征V^交叉模态门控融合文本消息T图像区域V跨模态消息聚合那只湿漉漉的棕色狗在水里跑。聚合的特征那只湿漉漉的棕色狗在水里跑。那只湿漉漉的棕色狗在水里跑···∈CI···∈功能特性匹配分数mMLP聚合特征t*聚集融合特征(a)（b）第（1）款图2. (a)是跨模态自适应消息传递模型的概述。输入区域和单词彼此交互，并聚合为融合特征以预测匹配分数。(b)是从文本到视觉模态传递的消息的图示（（a）中的虚线红色框基于跨模态注意力权重对词特征进行聚合，并将聚合后的文本信息与区域特征进行融合从视觉到文本模态的信息传递以类似的方式进行al. [10]提出了一个模型来学习语义概念和顺序，以便更好地进行图像和句子匹配。Gu等人[9]利用生成模型来学习具体的接地表示，捕捉两种模式之间的详细相似性。Lee等[16]提出了堆叠交叉注意，以利用单词和区域之间的对应关系来发现完整的潜在对齐。然而，该模型只涉及单词或区域，它不能对称地涉及两种模态与以往的方法不同，我们的模型利用自适应消息传递的跨模态的相互作用，以提取最显着的文本图像匹配的功能。语言与视觉的互动。在文本图像检索之外的语言和视觉任务中，已经探索了不同类型的交互[32，2，20，35，12，29、21、18、19]。Yang等[30]提出了堆叠的注意力网络来对图像特征图执行多个注意步骤。Anderson等人[1]提出了自下而上和自上而下的注意力，以参加统一的网格和对象的建议，图像字幕和视觉问题回答（VQA）。以前的工作也探索了VQA中图像和问题之间的融合[7，8，13，32，23]尽管在其他语言和视觉任务中取得了巨大的成功，但很少有作品探索句子和图像之间的相互作用，用于文本图像检索，其中主要的挑战是正确处理负对。据我们所知，这是第一个探索图像和句子之间深度跨模态交互的工作，用于文本图像检索。3. 跨模态自适应消息传递在本节中，我们将介绍我们的跨模态自适应消息传递模型，以实现图像和句子之间的深度交互，如图所示。2.该模型由两个模块组成，跨模态消息聚集模块，跨模式门控融合（Cross-modal Gated Fusion）首先，我们介绍了基于跨模态注意力的跨模态消息聚合，然后我们考虑将原始信息与从另一模态传递的聚合消息融合，这是不平凡的，因为融合负（不匹配）对使得难以找到信息比对。我们引入我们的跨模态门控融合模块，自适应地控制对齐和未对齐信息的融合问题公式和符号。给定一个输入句子和一个输入图像，我们提取单词级文本特征T = [t1，，tN]对于句子中的N个单词，Rd × N;对于图像中的R个区域建议，区域级视觉特征V =[v1，，vR]Rd×R。2我们的目标是计算基于V和T的图像和句子之间的匹配得分。3.1. 跨模态消息聚合我们提出了一个跨模态消息聚合模块，它聚合区域和单词之间传递的消息。通过跨模态注意机制获得聚合消息，其中模型将来自其他模态的信息作为关注来自自身模态的信息的线索。特别是，我们的模型执行字级的注意力的基础上的线索，从区域特征，并执行区域级的注意力的基础上的线索，从字的特征。这样的信息聚合使得信息能够在文本和视觉信息之间流动，并且用于聚合信息的跨模态注意力专门为每个单词/区域选择最显著的跨模态信息。在数学上，我们首先将区域特征和单词特征投影到低维空间，然后计算2提取词和区域特征的方法在4.1节中描述聚合文本消息语句单词特征图像区域特征聚集Cross-modal跨模态门控融合跨模态消息聚合门控融合5767d×dh∈⊕我我⊙⊕···∈F一∈⊙·区域-词亲和性矩阵，A=（W<$vV）<$（W<$tT），（1）其中W=v，W=sE∈R是将D维区域或单词特征投影到D维H维空间中的投影矩阵。 A ∈ RR×N是区域-词亲和度矩阵，其中Aij表示第i个区域与第j个词之间的亲和度。把注意力集中在区域，我们在图像区域维度上归一化亲和度矩阵以获得特定于单词的区域注意力矩阵，文本图像检索的案例。否定（不匹配）图像-句子对之间的直接融合可能导致无意义的融合表征，并且可能妨碍训练和推理。实验还表明，融合否定图像-句子对降低了性能。为此，我们设计了一种新颖的跨模态门控融合模块，如图所示。3、自适应控制跨模态特征融合。更具体地说，我们希望在很大程度上融合匹配对的文本和视觉特征，并抑制不匹配对的融合。通过上述跨模态自适应消息，Av=softmax（（2）分配模块，得到子集合门消息dh从视觉模态传递到文本模态，其中，A的ithr w是所有区域的注意力，尊重第i个字。然后我们汇总所有区域fea-消息T从外部传递到视觉模态。我们的跨模态门控融合模块将T与原始基于特定单词的inalregion-le velvisualfeaturesVandfusesT与区域注意力矩阵，V=AvV，（3）其中，V的第i行RN×d表示第i个词所伴随的视觉特征。类似地，我们可以通过对每个图像区域的在字维度上的亲和力矩阵A 并基于区域特有的词注意矩阵 A s ，对词特征进行聚合，得到每个区域T∈RR×d所关注的文本特征，原始词级文本特征T.我们称之为福-操作为（例如逐元素相加、级联元素式乘积）。在实践中，我们使用元素加法作为融合操作。为了滤除不匹配的信息进行融合，采用区域字电平门自适应地控制信息融合的程度。以原始区域特征V和从语义模态T传递的信息的融合为例。将第i个区域特征表示为vi（V的第i列），并表示与第i个区域为T（T的第i个方向）。这是一个信息，我我˜ ˜ ˜⊤At = softmax（softd），T =AtT.（四）从文本形式传递到视觉形式。我们计算相应的门，直观地说，V的第i行表示与第i行对应的视觉特征，T的第j行表示与第i行对应的视觉特征。gi=σ（vii∈{1，· · ·，R}.（五）发送对应于第j个区域的文本特征这样的消息聚合方案考虑了跨模态交互。V和T是从视觉特征传递到文本特征的集合从文本特征到视觉特征。3.2. 跨模态门控融合跨模态消息聚合模块将每个单词/区域的最显著的跨模态信息聚合为要在文本模态和视觉模态之间传递的消息，并且聚合消息的过程使得能够在模态之间进行交互然而，利用这样的机制，单词和区域特征仍然分别从每个模态聚合，而不是融合在一起。为了探索图像和句子之间更深层次和更复杂的相互作用，我们面临的下一个挑战是如何将来自一种模态的信息与来自另一种模态的信息融合。然而，传统的融合操作假设视觉特征和文本特征是匹配的，这不是最佳的。其中，表示逐元素乘积，σ（）表示S形函数，并且giRd是用于融合vi和vi的门。有了这样的门函数，如果一个区域与句子匹配得很好，它将得到高门鼓励融合操作的值相反，如果一个区域与句子不匹配，它将接收低门值，抑制融合操作。我们将所有区域的区域级门表示为Gv=[g1，，gR]Rd×R。然后，我们使用这些门来控制应该传递多少信息以进行跨模态融合。为了保留不应该被密集融合的样本的原始信息，融合后的特征通过残余连接与原始特征进一步整合V=Fv（Gv（VT））+V，（6）其中v是由线性层和非线性激活函数组成的可学习变换。表示是融合操作（元素求和），并且V是融合区域特征。如果区域与句子匹配得很好，则高H5768（一）那只湿漉漉的棕色狗在水里跑按元素之和逐元素乘积吉夫连接门值：0.997ICICI CC我IC我C我不∈∈∈∈∈⊤⊤∗ˆ融合特征残差融合特征22]。通常，考虑采样的正图像-句子对（，）和负图像-句子对′ ′（，），（、），视觉语义对齐是操纵-由于最难否定的排名下降定影操作（b）第（1）款′Lrank−h（I，C）=ma′x[α−m（I，C） +m（I，C）]+′+ma′x[α−m（I，C） +m（I，C）]+，（十二）其中，m（，）表示匹配分数，其通过共同嵌入图3.说明了原始区域fea-空间[x]+=max（0，x），α是排名损失的保证金，跨模态门控的文本和聚合文本消息′和C′我是否定的句子和图像，聚变模块。（a）表示阳性区域和特克斯的融合（b）表示否定区域和文本消息对的融合。分配门值，并鼓励更深的融合。另一方面，对于具有低门值的负对，融合信息被门抑制，因此鼓励保留原有的功能。对称的Y、T和V′可以融合得到T′。hi=σ（vti），i∈{1，· · ·， N}，（7）Ht=[h1，···，hN]∈Rd×N，（8）T=Ft（Ht（TV））+T.（九）3.3. 用于跨模式匹配的融合特征聚合我们使用一个简单的注意力方法来聚合R区域和N个词的融合特征，成为代表整个图像和整个句子的特征向量。具体地，y，giv en融合特征V∈Rd×R和T∈ Rd × R，活泼地然而，我们提出的跨模态跨模态自适应消息传递模型，融合的功能，不能再被视为单独的功能在同一个嵌入空间。因此，我们不能遵循传统的视觉语义嵌入假设，通过联合嵌入空间中的特征距离来计算跨模态相似度。相反，给定聚合的融合特征v和s，我们将文本-图像匹配重新公式化为分类问题（即，“匹配”或“不匹配”），并提出最难的负交叉熵损失用于训练。具体来说，我们使用两层MLP，然后使用S形激活来计算图像和句子之间的最终匹配分数m（I，C）=σ（MLP（v+ t））. （十三）虽然排名损失已被证明是有效的联合嵌入，它并不适合我们的融合功能。我们利用最难的负二进制交叉熵损失进行训练监督。Rd×N，注意力权重矩阵通过线性LBCE−h′（I，C）=log（m（I，C））+ma′x[log（1−m（I，C））]投影和SoftMax归一化，我们聚合该区域特征具有注意力权重。`图像到tex图像匹配损失x′av=softmax。WvV√Σ⊤,v∗ =Vav.（十）+log（m（I，C））+ma′x[log（1−m（I，C））]，（十四）DWT不text-to-image匹配损耗xat=softmax。 t= Ta.（十一）其中Wv，WtR1×d表示线性投影参数，avRR表示R个区域融合特征的注意力权重，atRN表示N个词融合特征的注意力权重vRd是该聚集门特征表示来自V和T研发是R语言中的集合特征表示。3.4. 基于融合特征的文本图像匹配推理用于文本图像匹配的大多数先前方法采用视觉语义嵌入，其将图像和句子映射到公共嵌入空间中并在联合空间中计算它们的相似性[16，5，9，34，残余连接吉夫门值：0.161定影操作那只湿漉漉的棕色狗在水里跑。5769其中第一项是图像到文本匹配损失，并且第二项是文本到图像匹配损失。我们只计算一个小批中的正对和最难的负对的损失。第二节烧蚀研究实验4.5证明了这种损失的有效性。事实上，将来自不同模态的综合特征投影到同一嵌入空间对于跨模态嵌入来说是然而，我们基于融合特征的问题公式不需要将图像和语言特征嵌入到同一空间中，从而鼓励模型从图像和句子中捕获更全面和细粒度的交互。5770∈∈{···}4. 实验4.1. 实现细节词和区域特征。我们描述了如何提取区域级视觉特征V=[v1，···， vR]和词级句子特征T =[t1，···，tN]。我们利用更快的 R-CNN [26] 与 ResNet-101 由Anderson等人进行预训练。[1]提取每个图像的前36通过平均池化空间特征图来计算用于每个区域提议的特征向量miR2048我们用线性投影层获得了1024维的vi= WImi+ bI，（15）其中WI和bI是模型参数，vi是第i个区域的视觉特征。给定一个包含N个单词的输入句子，我们首先将每个单词嵌入到300维向量xi，i1，N中，然后使用具有1024维隐藏状态的单层双向GRU [3]来处理整个句子，→−hi=−G−R−→U（−h−i−→1，xi），<$h−i=G<$−R−−U（<$hi−+−1，xi）.（十六）每个词的特征被表示为来自前向GRU和后向GRU的隐藏状态的平均值，→−hi+<$h−iCOCO 1K测试图片方法标题检索R@1 R@5 R@10图像检索R@1 R@5 R@10订单[27]46.7-88.937.9-85.9DPC [34]65.689.895.547.179.990.0VSE++[5]64.6-95.752.0-92.0GXN [9]68.5-97.956.6-94.5高级官员[10]69.992.997.556.787.594.8CMPM [33]56.186.392.944.678.889.0SCAN t-i [16]67.592.997.653.085.492.9SCAN i-t [16]69.293.297.554.486.093.6CAMP（我们的）72.394.898.358.587.995.0COCO 5K测试图片方法标题检索R@1 R@5 R@10图像检索R@1 R@5 R@10订单[27]23.3-84.731.7-74.6DPC [34]41.270.581.125.353.466.4VSE++[5]41.3-81.230.3-72.4GXN [9]42.0-84.731.7-74.6高级官员[10]42.872.383.033.162.975.5CMPM [33]31.160.773.922.950.263.8SCAN i-t [16]46.477.487.234.463.775.7CAMP（我们的）50.182.189.739.068.980.2表1.CAMP和COCO上的比较方法的结果ti=2，i∈{1，···，N}（17）在实践中，我们将句子中的最大字数设置为50个。我们对超过最大长度的句子进行裁剪，并使用一个特殊的填充标记对少于50个单词的句子进行填充培训战略。采用亚当优化器进行训练。前15个epoch的学习率为0.0002，接下来的25个epoch为0.00002。基于验证性能的早期停止用于选择最佳模型。4.2. 实验设置数据集。我们在两个广泛使用的文本图像检索数据集Flickr30K [31]和COCO [17]上评估了我们的方法。Flickr30K数据集包含31，783张图像，每张图像都有5个唯一的对应句子。在[11，5]之后，我们使用1，000张图像进行验证，并使用1，000张图像进行测试。COCO数据集包含123，287张图像，每张图像有5个注释句子。广泛使用的Karpathy分割[11]包含113，287张用于训练的图像，5000张用于验证的图像和5000张用于测试的图像。按照最常用的评估设置，我们在1K测试图像的5倍和完整的5K测试图像上评估我们的模型。评估指标。对于文本图像检索，最常用的评价指标是R@K，它是K处的召回率，定义为在top-k检索结果中的正确匹配。我们采用R@1、R@5和R@10作为评估指标。表2.在Flickr 30K上进行CAMP和比较方法的结果4.3. 定量结果表1给出了我们分别在COCO数据集的5k测试图像和1k测试图像的5倍上与以前的方法进行比较的结果。表2显示了我们的方法和以前的方法在Flickr30k数据集上的定量结果。VSE++ [5]将图像特征和句子特征联合嵌入到同一个嵌入空间中，并计算图像-句子相似度作为嵌入特征的距离，并在小批量中使用最难的负样本训练具有排名损失的模型。SCAN [16]利用区域特征或单词特征上的堆叠交叉注意，但不考虑图像区域和句子中的单词之间的消息传递或请注意，SCAN [16]的最佳结果采用了两个模型的集成。为了公平的比较，我们只报告他们在两个数据集上的单一模型结果。Flickr30K 1K测试图片方法标题检索R@1 R@5 R@10图像检索R@1 R@5 R@10VSE++[5]52.9-87.239.6-79.5丹麦[22]55.081.889.039.469.279.1DPC [34]55.681.989.539.169.280.9高级官员[10]55.582.089.341.170.580.1CMPM [33]49.676.886.137.365.775.5SCAN t-i [16]61.887.593.745.874.483.0SCAN i-t [16]67.788.994.044.074.282.6CAMP（我们的）68.189.795.251.577.185.35771∗一只戴着红项圈的狗在隆冬的森林里奔跑问题：一个台球手排队击球，朋友们站在旁边等待轮到他们。Rank1 Rank5查询方式：查询方式：结果如下：一对夫妇坐在沙滩上，脚浸在水他们握手。排名2：两个女孩在一个小游泳池玩泥。第三名：一男一女戴着太阳镜坐在水里。等级4：一个戴着护目镜、黑发在水中的黑皮肤女孩。第5名：一个裸体的小女孩在泥坑里溅水。结果如下：排名1：两个男人停下来在人行道上聊天，因为一辆车经过。第二步：两个男人站在街上聊天，另一个走过。第三名：两个男人在人行道上交谈。第四名：一个戴帽子的男人和一个戴眼镜的男人在路边交谈，一个男人从他们身边走过。第五名：两个穿着得体的男人聊天。图4.定性检索结果。显示了前5个检索结果绿色表示地面实况图像或标题。我们的模型能够通过整合跨模态交互来捕获图像和标题之间的全面和细粒度对齐没有跨模态自适应消息传递的基础模型。为了说明我们的模型的有效性，我们设计了一个基线模型，没有任何跨模态的相互作用。基线模型分别处理区域特征和词详细结构见补充材料。将损失与最难的消极因素进行排序，用作训练监督。结果如表3中的“基础模型”所示跨通道注意的有效性表3.Flickr30K上的消融研究结果。实验结果表明，本文提出的跨模态自适应消息传递（CAMP）模型在性能上明显优于已有的方法，证明了在文本图像检索中研究视觉模态与文本模态之间的相互作用的有效性和必要性4.4. 定性结果我们在图中展示了我们的门控融合模型用于文本到图像和图像到文本检索的定性结果。4.第一章以左边第一行的图片为例。我们基于查询标题“一只戴着红色项圈的狗在冬天的森林里奔跑”重新检索图像我们的模型成功地检索了地面实况图像。请注意，所有前5个检索到的图像都与查询标题相关通过交替处理、传递消息并融合两种模态以包含深度的跨模态交互，该模型将有可能发现图像和标题之间的这种细粒度对齐。4.5. 消融研究我们精心设计的跨模态自适应消息传递模型表现出优越的性能，与传统的方法，独立地嵌入图像和句子的联合嵌入空间没有融合。我们进行了几个烧蚀实验，以验证我们的设计的有效性。模态消息聚合。在跨模态消息中聚合模块，我们聚合要传递的通过两种模态之间的跨模态注意力转移到另一种模态我们实验去除跨模态注意，简单地平均区域或单词特征，并使用平均单词/区域特征作为聚合消息。结果在表3中显示为我们在补充材料中展示了一些跨通道注意的例子。跨模态门控融合的有效性。我们实现了一个跨模态的注意力模型，没有模态之间的融合。跨模态注意力遵循与我们在Sec中聚合跨模态消息以进行消息传递相同的方式。3.1.文本到图像的注意和图像到文本的注意是对称的。它有可能通过从另一个模态的提示来关注一个模态，从而合并跨模态的相互作用，但是没有采用跨模态融合。详细结构见补充材料。通过比较该模型（表3中表示为“w/o融合”）与我们的CAMP模型的性能，我们证明了跨模态融合在结合更深的跨模态相互作用方面是有效的。此外，正对和负对的平均选通值为0。971和2。7087 10−9，表明自适应门能够过滤掉失配的信息，并鼓励对齐信息之间的融合。Flickr 30K上的消融研究结果方法标题检索R@1 R@5 R@10图像检索R@1 R@5 R@10营68.189.795.251.577.185.3基础模型63.587.193.146.2 74.283.4无交叉连接59.783.588.941.2 65.579.1无融合65.688.094.948.2 75.784.9Fusion w/o门61.786.392.645.1 72.180.7融合，无残留56.783.991.543.7 72.679.3无基于attn的agg63.486.893.547.5 73.182.8孔卡特断裂66.389.094.351.0 74.183.3产品fusion61.587.393.249.9 74.080.5联合嵌入62.087.892.446.3 73.780.3MLP+排名损失60.987.592.444.3 70.179.4BCE w/o最硬65.589.194.650.8 76.183.25772区域的门值及其对应的文本消息一个词的门值及其相应的视觉信息图5.聚合文本/视觉消息和原始区域/单词的门值。高的门值表示强烈的纹理视觉对齐，鼓励深度的跨模态融合。低门值抑制用于匹配的无信息区域或单词的融合跨模态门控融合中自适应门控和剩余连接的必要性。我们提出了自适应门来控制跨通道信息的融合程度。良好对准的特征被紧密地融合，而不对应的对被轻微地融合。此外，如果门值较低，则存在剩余连接以鼓励模型保留原始信息我们在没有自适应门或残差连接的情况下进行融合实验，在表3中用“Fusion w/o gates”和“Fusion w/o residual”表示。此外，为了显示我们在几种融合操作中选择的有效性，进行了两个实验，表示为“Concat融合”和“乘积融合”，以显示逐元素加法略好。结果表明，使用传统的融合会混淆模型，并导致性能显着下降。此外，我们在图中显示了一些门值的例子五、与图像/句子强烈对齐的单词/区域获得高的门值，从而鼓励融合操作。而低门限值会抑制无信息区域或词的融合以进行匹配。注意，即使图像与句子匹配，不相关的背景信息之间的门值也可能很低。以这种方式，来自不相关背景的信息被抑制，并且信息区域被突出显示。基于注意力的融合特征聚集的有效性。节中3.3，采用简单的多分支注意力将融合的区域/词级特征聚合成表示整个图像/句子的特征向量我们用一个简单的平均池沿区域/单词维度取代这种基于注意力的融合特征聚合。实验结果选择不同的方式推断文本图像匹配得分和损失函数。由于融合后的特征不再是嵌入到联合嵌入空间中的图像特征和句子特征，因此不需要对融合后的特征进行特征距离匹配。节中3.4.改进了基于融合特征的匹配问题，在融合后的特征上用MLP预测匹配得分，并采用最难负交叉熵损失作为训练监督。在表3中表示为“联合嵌入”的实验中(12))作为训练监督。在“MLP+rankingloss”实验中，我们对融合后的特征使用MLP来预测匹配分数，并采用ranking loss进行训练监督。我们还测试了在一个小批量中引入最难的在表示为“BCE w/ohardest”的实验中实验结果表明，本文提出的基于融合特征的匹配分数预测方法是有效的，并验证了本文提出的用于训练文本图像检索的最难负二值交叉熵损失5. 结论基于跨模态交互应被纳入以利于文本图像检索的观察，我们引入了一种新的跨模态门控融合（CAMP）模型，以自适应地跨文本和视觉模态传递消息我们的方法结合了文本图像检索的全面和细粒度的跨模态交互，并适当地处理负（不匹配）对和不相关的信息与自适应门控方案。我们通过大量的实验和基准测试分析证明了该方法的有效性鸣谢本研究部分由商汤科技集团有限公司支持，部分由香港研究资助局的“优才研究基金”资助，资助项目为中大14202217、中大14203118、中大14205615、中大14207814、中大14213616、中大14208417、中大14239816，部分由中大直接授予。那个穿耳洞的男人戴着眼镜和一顶橙色的帽子。0.982那个穿耳洞的男人戴着眼镜和一顶橙色的帽子。0.015那个穿耳洞的男人戴着眼镜和一顶橙色的帽子。0.987一群狗站在雪地里。7.6937*1e-7那个穿耳洞的男人戴着眼镜和一顶橙色的帽子。0.914那个穿耳洞的男人戴着眼镜和一顶橙色的帽子。9.784*1e-185773引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。arXiv预印本arXiv：1707.07998，2017。[2] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在IEEE计算机视觉和模式识别会议论文集，第5659-5667页[3] Junn youngChung ， C.Gu？ lc？hre ， KyungHyunCho ，andYoonge Bengio.门控递归神经网络对序列建模的经验评估CoRR，abs/1412.3555，2014。[4] 艾薇夫·艾森施塔特和里奥·沃尔夫。用双向网络链接图像和文本在 IEEE 计算机视觉和模式识别会议（CVPR），2017年。[5] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：改进了视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。[6] Hao Fang，Saurabh Gupta，Forrest Iandola，Rupesh KSri-vast av a ， LiDeng ， PiotrDoll a´r ， JianfengGao ，XiaodongHe，Margaret Mitchell，John C Platt，et al.从标题到视觉概念再到后面。在Proceedings of the IEEEconference on computer vision and pattern recognition，第1473-1482页[7] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。[8] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 317[9] Jiuxiang Gu ， Jianfei Cai ， Shafiq Joty ， Li Niu ， andGang Wang.看，想象和匹配：用生成模型改进文本视觉跨模态检索。在IEEE计算机视觉和模式识别会议论文集，第7181-7189页，2018年[10] 炎黄、齐午、梁王。学习图像和句子匹配的语义概念和顺序。arXiv预印本arXiv：1712.02036，2017。[11] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在Proceedings of the IEEE conference on computervision and pattern recognition，pages 3128[12] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双线性注意力网络。arXiv预印本arXiv：1805.07932，2018。[13] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的 Hadamard 乘积。 arXiv 预印本 arXiv：1610.04325，2016。[14] Ryan Kiros，Ruslan Salakhutdinov，and Richard S Zemel.统一视觉语义嵌入与多模态神经语言模型。arXiv预印本arXiv：1411.2539，2014。[15] Benjamin Klein Guy Lev Gil Sadeh和Lior Wolf将神经词嵌入与使用fisher 向量的深度图像表示相关联。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，pages 4437[16] Kuang-Huei Lee，Xi Chen，Gang Hua，Houdong Hu，and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意arXiv预印本arXiv：1803.08024，2018。[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[18] 刘希慧，李洪生，邵晶，陈大鹏，王晓刚

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

跨模态自适应消息传递: 一种用于文本图像检索的新方法

最新资源

跨模态自适应消息传递: 一种用于文本图像检索的新方法

一种新的基于内容的图像检索方法

一种新的自适应图像分割方法(英文).

跨模态对比学习方法：CrossCLR

多模态自适应融合 地理大数据

自适应增强算法：基于选择出的特征子集，使用自适应增强算法进行遥感图像分类。自适应增强算法是一种基于决策树的分类方法，它通过不断调整决策树的阈值和节点权重，以提高分类精度。python如何实现

多模态自适应 地理大数据

计算机视觉作业‐1:基于直方图的自适应阈值分割 要求:a)实验图像见文件夹 segment

基于超奈奎斯特技术的自适应均衡算法，近几年最新算法有哪些？

跨模态transformer

python对彩色图像进行自适应均值滤波

自适应图像去噪代码设计

matlab 自适应算法

有哪些常见的自适应法的设置

图像处理中自适应阈值

基于自适应增强的红外图像分割方法研究

echarts图表自适应title怎么自适应

scl编写自改进的pid

Tone Mapping算法系列二：一种自适应对数映射的高对比度图像显示技术及其速度优化。...

iapm 图像自适应处理

最新资源

多模态自适应融合地理大数据

多模态自适应地理大数据

计算机视觉作业‐1:基于直方图的自适应阈值分割要求:a)实验图像见文件夹 segment