基于跨模态渐进理解的参考图像分割方法

102 浏览量更新于2023-10-25 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10488基于跨模态渐进理解的黄少飞1，2刘天瑞辉1，2刘思思3 <$<$李冠斌4魏云超5韩继忠1，2刘洛琪6李波31中国科学2中国科学院大学网络安全学院3北京航空航天大学4中山大学5悉尼科技大学6360 AI Institute摘要Referring image segmentation aims at segmenting theforeground masks of the entities that can well match thedescription given in the natural language expression.先前的方法使用视觉和语言模态之间的隐式特征交互和融合来解决这个问题在本文中，我们提出了一个跨模态渐进压缩（CMPC）模块和一个文本引导的特征交换（TGFE）模块，以有效地解决具有挑战性的任务。具体地，CMPC模块首先采用实体和at-（一）（d）其他事项实体：属性：关系：预测：（b）第（1）款（c）第（1）款致敬词感知表达可能考虑然后，利用多模态图推理，采用关系词突出正确的实体，并抑制其他无关实体除了CMPC模块之外，我们还利用一个简单而有效的TGFE模块，在文本信息的指导下，从不同的层面整合通过这种方式，来自多个层次的特征可以彼此通信，并基于文本上下文进行细化。我们对四个流行的参考细分基准进行了广泛的实验，并实现了新的最先进的性能。代码可在 https://github.com/spyflying/CMPC-Refseg上获得。1. 介绍随着深度模型在视觉或语言任务[31][26][18][12][39]方面取得了重大进展，将它们结合起来的领域[37][28][50]引起了研究者的极大关注。本文主要研究参考图像分割问题，其目标是分割出*同等贡献†通讯作者图1.解释我们的渐进式指涉分割方法。(a)输入参考表达式和图像。(b)该模型首先基于实体词和属性词感知表达式中描述的所有实体“man” and “white frisbee” (orange （c）在找出所有可能与输入表达式匹配的候选实体之后，可以进一步利用关系词（d）受益于关系感知推理过程，找到所引用的实体作为最终预测（紫色掩模）。(Best以颜色观看）。由自然语言表达描述的实体在传统的语义分割之外，RIS是一个更复杂的问题，因为它可以用各种语言形式指代属于任何类别的对象或事物，并且包含包括实体、属性和关系在内的多种内容作为一个相对较新的课题，该问题在交互式图像编辑、基于语言的机器人控制等方面有着广泛的应用前景。早期的作品[17][30][34][23]使用简单的拼接和卷积方案来解决这个问题，以融合视觉和语言特征。后来的作品[38][3][44]进一步利用跨模态atten-“The man holding a white“The man holding a white1实体感知感知推理2“The man holding a预测10489注意力或自我注意力只学习视觉嵌入或视觉-文本共嵌入以进行上下文建模。然而，这些方法仍然缺乏利用表情中不同类型的信息词来准确地对齐视觉和语言特征的能力，这对于表情和图像的理解至关重要。如图1（a）和（b）所示，如果所指对象，即，当短语所指的实体被描述为首先，模型应该根据实体词和属性词感知表达式中描述的所有实体，例如，“男人”和“白色飞盘”。其次，由于同一类别的多个实体可能出现在一个图像中，例如，图1（b）中的三个人，模型需要进一步推理实体之间的关系，以突出所指对象并抑制与表达式中给出在图1（c）中，将“man”与“white frisbee”权力联系起来的单词基于上述动机，我们提出了一个跨模态渐进式理解（CMPC）模块，该模块逐步利用表达式中的不同类型的词来分割基于图形结构的所指对象。具体来说，我们的CMPC模块包括两个阶段。首先，实体词和属性词的语言特征“人”和“白色飞盘”）与从图像中提取的视觉特征融合，以形成多模态特征，其中感知到由表情考虑的所有实体。其次，我们构造了一个全连通的空间图，其中每个顶点对应于一个图像区域，每个顶点的特征包含实体的多模态信息。ver-texes需要适当的边缘来相互通信。朴素边对所有顶点都一视同仁，会引入大量的信息，而不能区分参照点和其他候选点。因此，我们的CMPC模块采用关系词（例如，“保持”）的表达作为一组路由器来建立到连续空间顶点的自适应边，即，实体，这些实体与表达式中描述的关系有关。特别地，空间顶点（例如，“man”）对关系词具有强烈响应（例如，“持有”）将与其它交换信息（例如，“飞盘”），也与关系词相关。同时，对关系词反应弱的空间顶点与其他空间顶点的交互作用也较小。在多模态图上进行关系感知推理后，可以突出指示物的特征，而抑制不相关实体的特征，这有助于生成准确的分割。由于多个层次的特征可以相互补充[23][44][3]，我们还提出了一个文本引导特征交换（TGFE）模块，以利用CMPC模块从不同层次细化的多模态特征对于每一层次的多模态特征，我们的TGFE模块利用语言特征作为指导，从其他层次中选择有用的特征通道来实现信息交流。经过多轮通信后，ConvLSTM [42]进一步融合了多层次特征，以全面整合低级视觉细节和高级语义，实现精确的掩码预测。我们的贡献总结如下：（1）我们提出了一个跨模态渐进理解（CMPC）模块，该模块首先感知表达式可能涉及的所有实体，然后利用输入表达式的关系线索突出所指实体，同时抑制其他无关实体，从而产生所指实体的区分特征表征。(2)我们还提出了一个文本引导的特征交换（TGFE）模块进行自适应的信息交流的多层次的功能语言功能的指导下，进一步提高掩码预测的特征表示。（3）我们的方法在四个参考分割基准上取得了新的最先进的结果，证明了我们的模型的有效性。2. 相关工作2.1. 语义分割基于全卷积网络（FCN）的语义分割已经取得了巨大的进展[32]。FCN用卷积层取代了原始分类网络中的全连接层，成为后续分割方法的标准结构。DeepLab[4][5][6]在FCN模型中引入了具有不同atrous速率的atrous卷积，以扩大滤波器的接收范围并聚合多尺度上下文。PSPNet [49]也利用金字塔池操作来提取多尺度上下文。最近的作品，如DANet [11]和CFNet [47]，采用自注意机制[40]来捕获深度网络中的远程依赖关系并实现显着的性能。在本文中，我们解决了更广泛的和具有挑战性的语义分割问题，其语义类别是由自然语言的指称表达式。2.2. 指称表达理解指称表达式理解的目标是将图像中与自然语言表达式描述相匹配的实体局部化。很多作品都是在包围盒层次上进行定位的。Liao等人。 [27]执行跨模态相关滤波以实时匹配多模态特征。视觉和语言模态之间的关系[16][43]也被建模以匹配10490L文本编码器跨模态递进理解文本引导功能交换CNN33实体感知感知推理3交换×...3（）ConvLSTM44实体感知感知推理4交换×...4（）ConvLSTM55实体感知感知推理5交换×...5（）ConvLSTM坐标特征拿着白色飞盘的男人拿着白色飞盘的男人拿着白色飞盘的男人预测拿着白色飞盘你知道吗，你知你好，你好，你好实体：属性：关系：图2.概述我们提出的方法。视觉特征和语言特征首先通过我们的跨模态渐进理解（CMPC）模块逐步对齐然后，多层次的多模态特征被送入我们的文本引导特征交换（TGFE）模块，用于跨不同层次的信息交流最后，将多层次特征与ConvLSTM融合进行最终预测。与最相关对象的表达式模块化网络在[45]中进行了探索，将指称表达分解为主题，位置和关系，以便更精细地计算匹配分数。除了边界框之外，还可以使用分割掩模更精确地定位所引用的对象。 Hu等人。 [17]首先提出了引用分割问题，并通过直接连接和融合CNN和LSTM的多模态特征来生成分割掩码[15]。在[30]中，多模态LSTM被用于在多个时间步中顺序融合视觉和语言特征。基于[30]，每个单词的动态过滤器[34]进一步增强了多模态特征。在[23]中探索了融合多层次视觉特征以循环地细化分割掩模的局部细节。由于上下文信息对分割任务至关重要，Shi等人。 [38]利用单词注意力仅聚合视觉上下文以增强视觉特征。对于多模态上下文提取，在[44]中利用跨模态自我注意来捕获每个图像区域和每个引用词之间的长程依赖关系。在[3]中探索了视觉-文本共嵌入，以衡量指称表达和图像之间的兼容性。还研究了指称表达式及其重构标题之间的对抗学习[36]和循环一致性[8]，以提高分割性能。在本文中，我们提出逐步突出的指称通过实体感知和关系感知推理准确的指称分割。2.3. 基于图的推理事实证明，基于图的模型在许多任务的上下文推理中是有效的。密集CRF [2]是一种广泛用于图像分割后处理的图模型。最近，图卷积网络（GCN）[2]因其在半连续性上的优越性而成为热门监督分类Wang等人。 [41]使用区域提议作为顶点构建时空图，并使用GCN进行上下文推理，在视频识别任务中表现良好。 Chen等人 [7]提出了一个全局推理模块，它将视觉特征投影到一个交互空间中，并进行全局上下文推理的图卷积。将推理后的全局上下文投影回坐标空间，增强原始视觉特征.有几个并行的作品[24][25][48]共享相同的投影和图形推理的思想，但具有不同的实现细节。在本文中，我们建议把图像区域作为顶点来构建一个空间图，每个顶点保存多模态特征向量作为其状态。顶点之间的信息流通过引用表达式中的关系词路由，并使用图卷积来实现。经过图形推理后，图像区域可以对指称表达产生准确、连贯的响应。3. 方法给定一个图像和一个自然语言表达式，我们模型的目标是分割表达式所指的相应实体，即，的referent。我们的模型的总体架构如图2所示.我们首先使用CNN主干提取图像的视觉特征，并使用文本编码器提取表达式的语言特征。提出了一种新的跨模态渐进式计算（CMPC）模块，通过对空间区域图的实体感知和随后的关系感知推理，渐进地突出所指对象并抑制其他对象CMPC模块分别应用于多个层次的视觉特征，并将相应的输出送入文本引导特征交换（TGFE）模块，在语言模态的指导在共产主义之后10491��×��线性顶点��×��线性��×��×��双线性融合图卷积��×��边缘线性��×��×��：顶点数：字数外形尺寸，尺寸：��特征尺寸×∈}∈·∈ ∈∈联系我们∈不不不不不不不不--tt拿着白色飞盘的男人拿着白色飞盘的男人实体感知感知推理实体：属性：关系：图3.说明我们的跨模态渐进式理解模块，其中包括两个阶段。首先，视觉特征X与实体词和属性词的语言特征q进行双线性融合，用于实体感知（EP）阶段。其次，来自EP阶段的多模态特征M构造了一个多峰全连通图G，G的每个顶点对应于M上的一个图像区域。G的邻接矩阵定义为顶点与表达式中关系词利用图卷积在顶点之间进行推理，从而在与相关顶点的交互过程中突出显示所指对象。阳离子，多级特征最终与ConvL-STM [42]融合以进行预测。我们将在后面的小节中详细阐述我们方法的每一部分。3.1. 视觉和语言特征提取如图2所示，我们的模型将图像和表达式作为输入。用CNN主干提取多层次视觉特征，并分别与8维空间坐标特征ORH×W×8，使用11卷积遵循先前的工作[30][44]。后卷积，每个级别的视觉特征被转换为相同大小的RH×W×Cv，其中H，W和Cv是视觉特征的高度、宽度和通道尺寸。变换后的视觉特征被表示为{X3， X4， X5，对应于CNN主干的第3、第4和第5级的输出（例如，ResNet-101 [14]）。为了便于在表示中，我们将视觉特征的单个水平表示为第二节中的X3.2.语言特征L=l1，l2，.，使用语言编码器（例如， LSTM [15]），其中T是表达式的长度，并且l iRCl（i 1，2，.，T）表示第i个词的特征。3.2. 跨模态递进理解由于图像中可能存在许多实体，因此自然会逐渐将候选集从所有实体缩小到实际所指对象。在本节中，我们提出了一个跨模态渐进式理解（CMPC）模块，该模块由两个阶段组成，如图3所示。第一阶段是实体感知。我们使用双线性融合[1]将实体词和属性词的语言特征与空间区域的相关视觉特征相关联，得到多峰特征M∈RH×W×Cm。所有的图的顶点表示M上的空间区域。通过多模态图的顶点之间的推理，与关系线索相匹配的所指对象的反应被突出，而非所指对象的反应被抑制根据最后，增强的多模态特征Mg进一步融合了视觉和语言特征。实体感知。与文献[43]相似，我们将词分为实体词、属性词、关系词和多余词四类。预测每个单词的4-D向量，以指示它是四种类型重复的概率。我们将单词t的概率向量表示为pt=[pent，pattr，prel，pun]∈R4，计算如下：pt=softmax（W2σ（W1lt+b1）+b2），（1）其中W1RCn×Cl，W2R4×Cn，b1RCn 和b2R4是可学习参数，σ（）是sigmoid函数，pent，pattr，prel和pun分别表示词t是实体、属性、关系和不必要词的概率. 然后，实体q RCl的全局语言上下文可以被计算为表达式中所有单词的加权组合：ΣTq=（p ent+ p attr）l t.（二）t=1接下来，我们采用简化的双线性融合策略[1]将q与每个空间区域的视觉特征相Mi=（qW3i）（XW4i），（3）Σr候选实体被融合感知。第二阶段是关系感知推理。一个完全连接的多-M=Mi（4）i=1在M上构造模态图，其中关系词充当连接顶点的路由器组每个其中W3i∈RCl×Cm和W4i∈RCv×Cm是可学习的参数，r是超参数，并且r表示元素-10492∈∈i=1∈×∈t=1我∈我我我Gt tt×TT×Cl明智的产品通过将视觉和语言语境整合到多模态特征中，表达可能涉及的所有实体都被适当地感知感知推理。为了选择性地突出所指对象，我们在多模态特征M上构造一个全连接图，并根据表达式中的关系线索形式上，多峰图被定义为G=（V，E，Mg，A），其中V然后，应用整形操作以获得增强的多模态特征M<$gRH×W×Cm. 为了整合文本信息，我们首先将特征将所有必要的单词的概率向量转换为具有预定义的概率向量的向量sRClΣTs=（p ent+p attr+ p rel）l t.（十一）t=0和E是顶点和边的集合，Mg={mi}N∈我们将s重复H×W次，并将其与XRN×Cm是顶点特征集，ARN×N是邻接矩阵，N是顶点数.关系感知推理的细节在图3的右侧部分中说明。由于M上的每个位置代表原始图像上的一个空间区域，因此我们将每个区域视为图的一个顶点，并且多峰图由N=H组成总共有W个顶点。在重装之后-ing操作，将线性层应用于M以变换它转化为顶点Mg的特征。边的权值依赖于顶点与指称表达式中的关系词之间的亲和度关系词R={rt}∈R的特征计算为：R =p rel 1，t =1，2，...，T.（五）沿通道尺寸的 M′g ，1卷积得到输出特征YRH×W×Cm，其配备有用于所指物的多模态上下文。3.3. 文本引导功能交换由于以前的工作[23][44]表明多级语义对引用分割至关重要，因此我们进一步引入了文本引导特征交换（TGFE）模块，以基于视觉和语言上下文在多级特征之间传递信息如图2所示，TGFE模块采用Y3，Y4，Y5和单词特征[11，12，.，I T]作为输入。经过n轮特征交换，Y（n），Y（n），Y（n）作为输出产生ttt3 4 5如图3所示，邻接矩阵A被公式化为：为了得到Y（k），i∈ {3，4，5}，k≥1，我们首先提取一个全局向量g（k−1）∈RCm的Y（k−1）的加权全局池-B=（Mg W5）（RW6）T，（6）我ing：我g（k−1）=Λ（k−1）Y（k−1），（12）我我我B1=softmax（B），（7）其中，权重矩阵Λ（k−1）∈RHW由下式导出：B2=softmax（BT），（8）我（k−1）（k−1）TA=B B，（9）Λi=（sW8）（YiW9），（13）C×C1 2C×C其中W8∈RCl×Ch和W9∈RCm×Ch是变换-其中W5∈Rm h和W6∈Rl h是可学习的参数，（k−1）半径。BRN×T是Mg和R. 我们将softmax函数应用于第二个和第一个ing矩阵。然后是上下文向量ci，其中包含Y（k-1）的多模态上下文通过融合s和B的维数，以获得B1∈RN×T和B2∈RT×Ng（k-1），具有全连通层r。我们最终选择-分别A由B1和B2的矩阵乘积得到. A的每个元素Aij表示从空间区域i到从其他两个特征来看，在第k轮形成级别i的细化特征：Y（k−1）+<$σ（c（k−1））<$Y（k−1），k≥1区域j，这取决于它们与表达式中以这种方式，表达式的关系词可以被利用作为一组路由器来构建连接顶点的自适应边。拉吉吉Y（k）=Yi，k=0I jj∈{3，4，5}\{i}（十四）在构造了多峰图之后，，我们申请图卷积[21]到它如下：M<$g=（A+I）MgW7，（10）10493·∈其中σ（）表示sigmoid函数。在n轮特征交换之后，每个级别的特征被相互细化以适合表达式所指的上下文我们进一步融合输出特征Y（n）、Y（n）和Y（n），3 4 5其中W7RCm×Cm是一个可学习的权重矩阵。I是单位矩阵，作为简化优化的捷径。顶点之间的图形卷积原因，即，图像区域，从而根据关系线索选择性地突出所指对象，同时抑制其它不相关的关系线索，这有助于生成用于所指分割的更多区分性特征表示ConvLSTM [42]用于获取最终预测。4. 实验4.1. 实验装置数据集。我们在四个基准数据集上进行了广泛的实验，用于参考图像分割-10494方法ValUNC种皮testBValUNC+种皮testBG-RefVal参考测试LSTM-CNN [17]------28.1448.03马绍尔群岛[30]45.1845.6945.5729.8630.4829.5034.5258.73DMN [34]49.7854.8345.1338.8844.2232.2936.7652.81KWA [38]------36.9259.09ASGN [36]50.4651.2049.2738.4139.7935.9741.3660.31RRN [23]55.3357.2653.9539.7542.1536.1136.4563.63MAttNet [45]56.5162.3751.7046.6752.3940.08n/a-[44]第四十四话58.3260.6155.0943.7647.6037.8939.9863.80CAC [8]58.9061.7753.81---44.32-步骤[3]60.0463.4657.9748.1952.3340.4146.4064.13我们61.3664.5359.6449.5653.4443.2349.0565.53表1.使用整体IoU作为度量标准，在四个基准数据集上与最先进的方法进行比较。 “n/a” denotes MAttNet不要使用与其他方法相同的分割。[46]、[46]、[33]和[19]。基于MS-COCO [29]收集了G-Ref、G-Ref+和G-Ref数据集。它们分别包含19994、19992和26，711张图像，142，209，141，564和104，560张图像分别为超过50，000个G-Ref+没有位置词，G-Ref包含更长的句子（平均长度为8。4个单词）比其他（少于4个单词），使它们比其他数据集更具挑战性。参考数据集收集在IAPR TC- 12 [9]上，包含19，894张图像，其中包含96，654个对象（包括填充物）的130，525个实施详情。我们采用在PASCAL-VOC数据集[10]上预训练的DeepLab-101 [5]作为CNN返回。骨遵循先前的工作[44][23]，并使用Res3，Res4和Res5的输出进行多级特征融合。输入图像的大小调整为320×320。通道尺寸特征设置为Cv=Cl=Cm=Ch=1000，ConvLSTM [42]的单元大小设置为500。与其他方法相比，将双耳融合的超参数r设置为5，将特征交换轮数n设置为3。在Common Crawl 840B令牌上预训练的GloVe词嵌入[35]在下面被采用[3]。图形卷积层的数量在G-Ref数据集中设置为2，在其他数据集中设置为1。该网络使用Adam优化器[20]进行训练，初始学习率为2。5e−4，重量衰减为5e−4。CNN骨干的参数在训练期间是固定的利用在所有像素上平均的标准二元交叉熵损失训练为了与先前的作品进行公平比较，采用Dense-CRF [22]来细化分割掩模。评估指标。在之前的工作[17][44][3]之后，采用整体Intersection-over-Union（整体IoU）和总体IoU计算所有测试样本的总联合区域上的总相交区域Prec@X测量其IoU高于阈值X的预测的百分比，其中X∈ {0}。5，0。6，0。七比零。八比零。9}。4.2. 与最新技术水平的比较为了证明我们的方法的优越性，我们评估了四个参考分割基准。结果见表1。We follow prior works [44][3]to only report overall IoU due to the limit of pages.完整结果包含在补充材料中。如表1所示，我们的方法在四个具有大幅度的基准测试中优于所有以前的最先进的方法。与STEP [3]密集融合5个级别的特征25次相比，我们的方法利用更少的特征级别和融合时间，同时始终实现1。40%-2. 所有四个数据集的性能提升82%，证明了我们模块的有效性。特别是，我们的方法产生2。在G-Ref val集上，与STEP相比，IoU提高了65%，表明我们的方法可以更好地处理长句，而不是缺乏渐进理解能力的句子。此外，ReferIt是一个复杂的数据集，以前的方法只对它进行了边际改进。例如，STEP和CMSA [44]仅获得0。33%和0。在ReferIt测试集上分别提高了17%，而我们的方法将性能增益扩大到1。40%，这表明我们的模型可以很好地泛化到具有不同特征的多个数据集。此外，我们的方法也优于MAttNet[45]，在整体IOU中有很大的优势。虽然MAttNet实现了更高的精度（例如，75. 16%对71. 72%在Prec@0.5上，比我们的，它依赖于Mask R-CNN [13]在明显更多的COCO [29]图像（110K）上预训练，而不是我们在PASCAL-VOC [10]图像（10K）上预训练。因此，直接将MAttNet的性能与我们的性能进行比较可能并不完全公平4.3. 消融研究我们对G-Ref值集和B-Ref值集进行了消融研究，以证明每个模块的有效性CMPC模块的组件。我们首先探索10495表2.对双腔室集进行消融研究。* 第6行是第1行的多级版本，仅使用ConvLSTM进行融合。EP和RAR分别表示CMPC模块中的实体感知阶段和关系感知推理阶段。我们提出的CMPC模块的每个组件的有效性和实验结果如表2所示。EP和RAR分别表示CMPC模块中的实体感知阶段和关系感知推理阶段。GloVe意味着使用GloVe单词嵌入[35]来初始化嵌入层，这也在[3]中被采用第1行到第5行的结果均基于单级特征，即Res5。我们的基线是简单的整合-将DeepLab-101提取的视觉特征和LSTM提取的语言特征进行融合预测。如表2的第2行所示，包括EP带来1。与基线相比，IoU改善了70%在第3行中，RAR单独带来6。04%的IoU比基线提高，这表明杠杆老化的关系词作为路由器在空间中推理区域可以有效地突出图像中的所指对象，从而显著提高性能结合EP和RAR，如第4行所示，我们的CMPC模块可以实现55。38%的单级特征IoU，超过基线，大幅超出8。02%IOU。这表明，我们的模型可以准确地识别所指的逐步理解的表情和图像。结合GloVe词嵌入，IoU增益进一步达到8. 借助大规模语料库，成功率为64%我们根据表2第6-11行中的多水平特征进一步进行消融研究行6是行1的多级版本，使用ConvLSTM融合多级特征。第7至11行中的TGFE模块基于单轮特征交换。如表2所示，我们的模型与单层版本的性能一致，这很好地证明了我们的CMPC模块的有效性TGFE模块。表3显示了TGFE模块的消融结果。n是特征交换轮数。实验是基于CMPC模块的多层次特征。结果表明，在TGFE中仅进行一轮特征交换就可以将IoU从59. 百分之八十五到60百分之七十二当我们增加TGFE中的特征交换轮数时，IoU也会增加，这很好地证明了我们的TGFE模块的有效性。我们进一步在基线模型上评估TGFE模块，比较结果如表2的第6行和第7行所示。单轮功能交换的TGFE将IoU从56提高到56。38%到58。81%，表明我们的TGFE模块可以有效地利用多层次特征中的丰富上下文仅CMPC+TGFEn=1n=2n=359.8560.7261.0761.25表3. TGFE模块中不同特征交换轮数的总体IoU在时间序列集上。n表示特征交换轮数数据集CMPCn=0n=1n=2n=3德拉瓦尔49.0655.3851.5750.70G-Ref值36.5038.1940.1238.96表4.图卷积实验在图集和G-Ref值集上的整体IoU。n表示CMPC模块中图卷积层的数量。实验都是在单层次特征上进行的。图卷积层的数量。在表4中，我们探索了CMPC模块中基于单级特征的图卷积层的数量。n是CMPC中图卷积层的数量在卷积集上的结果表明，卷积层数越多，性能越差.然而，在G-Ref值集上，CMPC中的2层图卷积比1层图卷积获得更好的性能，而3层图卷积降低了性能。作为G-Ref（8. 由于CMPC中的图卷积层（4个字）比<图卷积层（4个字）长得多，我们认为在CMPC中增加图卷积层可以适当地提高对较长指称表达式的推理效果。然而，太多的图卷积层可能会引入噪声并损害性能。定性结果。我们提出了定性比较之间的多层次基线模型和我们的全面EPRARTGFE手套预处理@0.5Prec@0.6前0.7Prec@0.8Prec@0.9整体IoU1√√√√√√√48.0137.9827.9216.303.7247.36249.7640.3530.1517.844.1649.06359.3251.1640.5926.506.6653.40462.8654.5444.1028.657.2455.38562.8754.9144.1628.437.2356.006*√√√√√√√√√√√√63.1254.5644.2028.758.5156.38767.6359.8049.7234.4510.6258.81868.3960.9250.7035.2411.1359.05969.3762.2852.6636.8911.2759.621071.0464.0254.2538.4511.9960.721171.2764.4455.0339.2812.8961.1910496曲名：表情：表情：表达：(a)（b）（c）（d）（a）（b）（c）（d）图4.参考图像分割的定性结果。(a)原始图像。(b)多水平基线模型预测的结果（表2第6行）。(c)我们的完整模型预测的结果（表2中的第11行）。(d)地面实况盖盖在地上穿蓝色毛衣的男人甜甜圈甜甜圈在底部Guy standing身穿浅蓝色衬衫的左边的甜甜圈(a)（b）（c）（d）（e）图5.在我们的模型中，图像和表情之间的亲和映射的可视化。(a)原始图像。（b）（c）测试样本中仅实体词和完整表达（d）地面实况。（e）由我们手动修改的表达式的亲和力图图4中的模型。从左上角的例子中我们可以观察到，基线模型无法在两个女孩之间做出明确的判断，而我们的完整模型能够区分出与手机有关系的正确女孩，这表明我们的类似的结果如图4的右上角示例所示。如图4最下面一行所示，我们的完整模型也可以很好地处理属性和位置关系Affinity Map的可视化。我们将多模态特征和表达式中的第一个单词之间的亲和图可视化，如图5所示。如（b）和（c）所示，我们的模型能够逐步产生对所指对象的更集中的反应，因为表达从只有实体词到整个句子变得更加信息化。有趣的是，当我们手动修改表达式以引用图像中的其他实体时，我们的模型仍然能够正确理解新词语并识别所指。例如，在图5（e）的第三行中，当表达式从“Donut at the bottom”改变为“Donut at the left”时这表明我们的模型可以灵活地适应新的表达式5. 结论和未来工作为了解决指称图像分割问题，提出了跨模态渐进理解（CMPC）模块，该模块首先利用实体和属性词感知表达式所考虑的候选实体，然后借助关系词进行基于图的推理，进一步突出指称对象，同时抑制其他对象。我们还提出了一个文本引导的特征交换（TGFE）模块，它利用文本信息选择性地整合来自多个级别的功能，以完善掩模预测。我们的模型在四个基准点上的表现始终优于以前的最先进的方法，证明了其有效性。在未来，我们计划更结构化地分析语言信息，并探索更紧凑的图形公式。鸣谢本工作得到国家自然科学基金（ 61572493 、61876177、61976250、61702565）、北京市自然科学基金（L182013、4202034）、中央高校基础研究基金和浙江省实验室（No.2019KD0AB04）。10497引用[1] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。InICCV，2017.[2] Siddhartha Chandra ， Nicolas Usunier ， and IasonasKokkinos.使用深度嵌入的稠密低秩高斯crfsInICCV，2017.[3] Ding-Jie Chen ， Songhao Jia ， Yi-Chen Lo ， Hwann-Tzong Chen，and Tyng-Luh Liu.用于参考图像分割的透视文本分组。在ICCV，2019年。[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2017。[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[7] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在CVPR，2019年。[8] Yi-Wen Chen，Yi-Hsuan Tsai，Tiantian Wang，Yen-YuLin，and Ming-Hsuan Yang.引用具有标题感知一致性的表达式对象分段。arXiv预印本arXiv：1910.04748，2019。[9] HugoJairEscalante，CarlosAHerna`ndez，JesusAGonzalez，AurelioLo`pez-Lo`pez，ManuelMontes ， EduardoFMorales ， LEnriqueSuca r ，LuisVillas en`or，andMichaelGrubinge r. 分段和注释的iaprtc-12基准。CVIU，2010年。[10] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，2010年。[11] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR，2019年。[12] 高晨，陈云鹏，刘思，谭震雄，严水城。不利因素：对抗性神经结构搜索 gans 。 arXiv 预印本 arXiv ：1912.02037，2019。[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017.[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。[16] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR，2017年。[17] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在ECCV，2016年。[18] Wentao Jiang，Si Liu，Chen Gao，Jie Cao，Ran He，Jiashi Feng，and Shuicheng Yan. Psgan：姿势和表情强大的空间感知 gan ，可定制化妆转移。 ArXiv ，abs/1909.06956，2019。[19] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在EMNLP，2014年。[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[21] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[22] Phi l ippKr？henb？hl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理NeurIPS，2011。[23] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在CVPR，2018年。[24] 尹力和阿比纳夫·古普塔。超越网格：学习图形表示用于视觉识别。NeurIPS，2018。[25] Xiaodan Liang，Zhiting Hu，Hao Zhang，Liang Lin，and Eric P Xing.符号图推理遇到了卷积。NeurIPS，2018。[26] 廖跃、刘思、田瑞辉、陈高、孙耀、凌合肥、李波。GPS：基于细节推理的群体分割.在ICME，2019年。[27] Yue Liao ， Si Liu ， Guanbin Li ， Fei Wang ， YanjieChen，Chen Qian，and Bo Li.一种用于指称表达理解的实时

下载后可阅读完整内容，剩余1页未读，立即下载