基于关键词感知网络的指代表情图像分割

83 浏览量更新于2023-10-13 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于关键词感知网络的指代表情图像分割石恒灿，李宏亮，孟凡曼，吴庆波电子科技大学信息与通信工程学院shihc@std.uestc.edu.cn，{hlli，fmmeng，qbwu}@uestc.edu.cn抽象。指称表达式图像分割的目的是分割出自然语言查询表达式所指称的对象由于没有考虑视觉和文本信息的具体属性，现有的工作通常通过直接向前景/背景分类器提供级联的图像和文本特征来处理该任务，所述图像和文本特征从每个图像区域和整个查询、检索中提取一方面，它们忽略了查询表达式中的每个词对识别所需对象的不同贡献，这需要在提取文本特征时进行区别对待另一方面，不同图像区域的关系也没有被考虑，即使它们对于根据特定查询消除不期望的前景对象非常重要为了解决上述问题，在本文中，我们提出了一个关键词感知的网络，它包含一个查询注意力模型和一个关键词感知的视觉上下文模型。在提取文本特征时，查询注意力模型倾向于为对识别对象更重要的词分配更高的权重。同时，关键词感知的视觉上下文模型描述了不同图像区域之间的关系，根据相应的查询。我们提出的方法优于国家的最先进的方法，两个参考表达图像分割数据库。关键词：指称表情图像分割，关键词提取，查询注意，关键词感知视觉上下文1介绍图像分割期望从图像中分割出感兴趣的对象，这是实现高级视觉任务的基本步骤，例如对象提取[14，23，25]，图像字幕[21，32，34]和视觉问题回答[21，22，35]。本文主要研究指称表情图像的分割问题，即感兴趣的对象是由自然语言的表达式来指称的，如图所示。1.指称表达图像分割超越了传统的语义分割，需要同时分析图像和自然语言，是一项更具挑战性的任务。2H. Shi等人查询表达式：“坐在右边的一个人一条长凳的一边”输入图像图像分割指称词语图像分割图1.一、引用表情图像分割任务示例与传统的图像分割不同，指称表达式图像分割的目的是分割出自然语言查询表达式所指称的对象。以前的工作[9，10，18]制定参考表达式图像分割任务作为一个区域的前景/背景分类问题。它们将每个图像区域特征与整个查询特征[9，10]或每个单词特征[18]相结合来对图像区域进行分类然而，查询表达式中的每个词对识别所需对象的贡献是不同的，这就要求在提取文本特征时要区别对待。提取关键词有助于抑制查询中的噪声并突出所需对象。此外，现有的方法还忽略了不同图像区域之间的视觉上下文视觉环境对于定位和识别对象是重要的。在图1中，我们示出了一个示例，其包括两个前景对象，即，新娘和新郎很明显新郎在长凳的右边，这对匹配查询表达式很重要。在本文中，我们提出了一个关键词感知网络（KWAN），提取每个图像区域的关键词和模型的关键词感知的视觉上下文之间的多个图像区域，根据自然语言查询。首先，我们使用卷积神经网络（CNN）和递归神经网络（RNN）分别对每个图像区域和每个单词的特征进行编码。基于这些特征，我们然后找到每个图像区域的查询注意力模型的关键词。接下来，使用关键词感知的视觉最后，我们分类每个图像区域提取的视觉特征，关键词感知视觉上下文特征和相应的关键词特征的基础上。我们验证了所提出的方法上的Refere-ItGame和Google-Ref数据集。结果表明，我们的方法优于以前的国家的最先进的方法，并实现了最好的IoU和精度。本文的组织结构如下。我们在第二节介绍了相关的工作2.在第3节中，我们详细介绍了我们提出的方法，涉及表情图像分割。实验结果报告在第4节，以验证我们的方法的有效性。最后，第五章对本文进行了总结。基于关键词感知网络的指代表情图像分割32相关工作总之，与本文任务相关的工作有三类。首先是语义分割，它是图像分割中最经典的任务之一，也是指代表情图像分割的基础第二种是指表情视觉定位，也需要从自然语言表达中搜索给定图像中的对象第三部分是表情图像分割。语义分割。近年来，语义分割技术发展迅速，其中基于卷积神经网络（CNN）的方法取得了最好的性能。基于CNN的语义分割方法主要可以分为两类。第一种是混合提议-分类器模型[1，4-第二种是全卷积网络（FCN）[2，20，27，36]，它将整个图像端到端分割，而无需任何预处理。一些方法[3，15，16，19，28，39]利用视觉上下文模型来提高语义分割性能，该模型基于多个图像区域的空间位置对它们之间的关系进行建模。 Wang等人[31]建立了语义分割和自然语言之间的交互。它们从自然语言描述中提取对象关系分布，然后使用提取的分布来约束语义分割预测中的对象类别。这些语义分割方法为后续的表情图像分割工作奠定了基础。引用表达式视觉定位。指称表达视觉定位期望从自然语言表达中定位图像中的区域。该任务的目标是找到自然语言查询所引用的边界框[11，24，26，37，38]或注意区域[21，22，32，33，35]甲基-ods在[11，24，26，37，38]中首先从多个预先提取的提案中恢复自然语言表达，然后将具有最高恢复分数的提案作为引用对象。[21，22，32，33，35]提出的方法使用视觉注意力模型来测量每个图像区域对于图像字幕[21，32]或视觉问题回答[21，22，35]任务的重要性。最重要的区域被认为是关注区域。这些定位方法与指称表情图像分割方法的相似之处在于它们都需要找出自然语言查询所指的对象。然而，这些定位方法仅关注于生成边界框或粗略的注意力图，而参考表情图像分割方法旨在获得精细的分割掩模。参考表情图像分割。参考表情图像片段在近几年来一直受到严格的限制除了指代表情视觉定位和语义分割之外，指代表情图像分割的目的是从自然语言查询生成精细的分割掩模 Hu等人[9，10]将自然语言查询和每个图像的特征相结合，以确定图像区域是否属于所引用的对象。刘等[18]开发了参考前-4H. Shi等人房子左边的草地(a) 特征提取器(b) 查询注意力模型(c) 关键词感知视觉上下文模型(d) 预测模型图二.我们提出的关键字感知网络（KWAN）由四个部分组成：（a）CNN和RNN，其对自然语言查询中的每个图像区域和每个单词的特征进行编码;每个图像区域，并使用提取的关键词来加权原始查询，（c）基于对应的关键词对视觉上下文进行建模的关键词感知视觉上下文模型，（d）基于视觉特征、关键词感知视觉上下文特征和关键词权重查询特征来预测分割结果的预测模型。压缩图像分割技术。他们没有直接使用整个查询的特征，而是将每个单词和每个图像区域的特征连接起来，然后使用多模态LSTM来整合这些连接的特征。然而，一方面，这些方法忽略了查询中的每个词对分割的贡献不同。另一方面，许多查询需要比较多个图像区域，而这些方法仅分别处理每个图像区域。与以前的方法相比，我们提出了一个关键词感知网络，提取关键词来抑制查询中的噪声，并在多个图像区域中建模关键词感知的视觉上下文，以更好地定位和识别对象。3该方法概况. 给定图像和自然语言查询，我们的目标是从图像中分割出查询所引用的对象。为此，我们提出了一个关键词感知网络（KWAN），它由四个部分组成，如图所示。2.第一部分是特征提取器，其编码图像和查询的特征。第二部分是查询注意力模型，该模型提取每个图像区域的关键词，并利用这些关键词来加权查询特征。第三部分是一个关键词感知的视觉上下文模型，该模型基于关键词感知网络的指代表情图像分割5基于所述自然语言查询确定多个图像区域之间的视觉上下文。第四部分是一个预测模型，它生成的基础上的图像特征，关键词加权查询特征和关键词感知视觉上下文特征的分割预测。下面，我们详细介绍每一部分。3.1图像和查询特征提取器指代表情图像分割任务中的输入包含两个部分：图像I∈RH×W×Cim和自然语言查询X∈ RCtext×T，其中H和W分别是图像的高度和宽度; C_im是图像通道的数量;T表示查询中的单词的数量;并且每个词由C文本维独热向量表示。我们首先使用卷积神经网络（CNN）来提取输入图像的特征图，如下所示：F=CNN（I）={f1，f2，.，fhw}（一）其中F∈Rh×w×Cf是提取的特征图;h和w分别是特征图的高度和宽度;并且Cf是特征尺寸。在特征图F，每个特征向量fi∈RCf编码第i个图像区域的外观和语义信息。由于指代表情图像分割任务也需要空间位置信息，因此我们从第i个图像区域的空间坐标中提取位置特征：pi=[xi，yi]（2）其中pi∈R2是第i个图像区域的位置特征，其由归一化的水平和垂直坐标xi和yi连接.操作或[·，·]表示函数的连续性。因此，可以如下获得第i个图像区域的最终视觉vi=[fi，pi]（3）其中vi∈RCv是第i个图像区域的Cv维视觉特征向量，并且Cv=Cf+ 2。视觉特征包含图像区域的外观、语义和空间位置信息。我们使用递归神经网络（RNN）来编码自然语言查询X的特征，如下所示：Q=RNN（WeX）={q1，q2，…qT}（四）其中Q∈RCq×T是查询X的编码特征矩阵，其中每个特征向量qt∈RCq编码第t个词的文本语义和上下文We∈RCe×C文本是一个词嵌入矩阵，用于降低词特征的维数。6H. Shi等人zt=13.2查询注意力模型在特征编码之后，我们通过查询注意力模型提取关键词。对于第i个图像区域，可以如下捕获查询注意力zi，t=wTtanh（Wqqt+Wvvi）（5）α=∑exp（zi，t）（六）i，t不r=1 exp（zi，r）其中Wq∈RCz×Cq ，Wv∈RCz×Cv 且wz∈RCz 是查询注意模式;αi，t∈ [0，1]是第t个词的查询关注度得分。第i个图像区域，以及αi，t=1时。A高得分αi，t意味着第t个单词对于第i个图像区域，即，字t是图像区域i的关键字。基于学习到的查询关注度分数，查询的特征可以被加权如下：qi=∑Tt=1αi，tqt（7）其中q^i∈RCq是第i个图像区域的加权查询特征。在加权查询功能中，单词不再同等重要。关键词做出更重要的贡献。3.3关键词感知视觉上下文模型关键词感知视觉上下文模型学习自然语言查询的多个图像区域之间的上下文。为了实现这个目标，我们首先为每个关键词聚合图像区域的视觉信息∑hw∑i=1viu(αi,t−T hr),max(α）≥Thrmt=HWi=1i，t-Thr）i=1，…HWi，t（八）0，否则当r∈R_C_v是向量的集合形式时，u（·）表示单位阶跃函数。Thr是选择出关键词的阈值。αi，t≥Thr意味着第t个字是第i个图像区域的关键字如果第t个字是至少一个图像区域的关键字（即，max i=1，…hw（αi，t）≥Thr），对以该词为关键词的图像区域的视觉特征进行平均。其他方式，这些数据对于数据存储来说是一个非关键的工作，因此需要累加数据视觉特征m，t是0。阈值Thr被设置为1/T，因为不t=1 αi，t= 1。基于聚合的视觉消息，我们然后使用一个完全连接的层学习视觉环境：gt=ReLU（Wgmt+bg）（9）其中gt∈RCg是学习到的特定于第t个词的视觉上下文特征，Wg∈RCg×Cv和u（α基于关键词感知网络的指代表情图像分割7bg∈RCg是全连接层中的参数，ReLU表示校正的线性单元激活函数。8H. Shi等人J∑J最后，我们将特定于每个关键词的视觉上下文特征融合到特定于整个查询的视觉上下文特征中，如下所示：Ci= ∑Tt=1gtu（αi，t-Thr）（10）其中ci∈RCg是特定于针对该查询的融合视觉上下文特征第i个图像区域。3.4预测模型和损失函数一旦我们提取了视觉特征vi、关键词加权查询特征qi和关键词感知视觉上下文特征ci，就可以得到视觉特征v i和关键词加权查询特征q i之间的相关性得分。查询和每个图像区域可以如下获得si=sigmoid（MLP（[qi，vi，ci]））（11）其中MLP表示多层感知器，并且使用S形函数来归一化分数。 si∈（0，1）是第i个图像区域与自然语言查询之间的归一化相关性得分高相关性分数意味着当前图像区域与查询高度相关，即，该图像区域属于所参考的前景对象。所有图像区域的分数一起形成标签图。我们将标签图上采样为原始图像大小作为分割结果。逐像素交叉熵损失用于约束训练：1∑N损失=−H（n）W（n）1[y（n）×logs（n）Nn=1 H（n）W（n）JJj=1（十二）+（1−y（n））×log（1−s（n））]J J其中N是总训练集中的图像数量;H（n）和W（n）分别是第n个图像的高度和宽度;s（η）表示第η个图像中的第j个像素的相关性得分;并且像素j是否属于参考对象。4实验我们进行实验，以评估我们的方法在两个具有挑战性的指涉表达图像分割数据集，包括ReferItGame数据集和Google-Ref数据集。本节报告了客观和主观结果。评估指标。我们采用了两个典型的图像分割指标：交集（IoU）和精度（Pr）。IoU是以下比率基于关键词感知网络的指代表情图像分割9分割结果和地面实况的交集和联合区域。精度是总数据集中正确分割的对象的百分比。正确分割的对象被定义为其IoU通过预设阈值的对象。我们在实验中使用五种不同的阈值：0.5，0.6，0.7，0.8，0.9。这些阈值的精度分别表示为Pr@0.5、Pr@0.6、Pr@0.7、Pr@0.8、Pr@0.9实施详情。所提出的方法可以用任何CNN和RNN来实现。由于最先进的方法 [9 ， 18] 通常选择 VG-G16 [30] 或 Deeplab 101 [2] 作为其CNN，并使用LSTM [8]作为其RNN，为了公平地比较我们的方法，我们还在实验中使用这些CNN和RNNCNN和RNN特征的维度都被设置为1000（即，Cf=Cq= 1000）。查询中的单词的最大数量T是20，因此关键词感知视觉上下文模型中的关键词阈值Thr被设置为0.05（即，1/T）。我们分两个阶段训练所提出的方法第一阶段是低分辨率训练。在该阶段中，预测不被上采样，并且损失利用下采样的地面实况来计算。第二阶段是高分辨率训练，其中预测被上采样为原始图像大小。该模型在所有阶段都使用自适应矩估计（Adam）进行训练我们从ImageNet数据集[29]上预训练的权重初始化CNN，并从随机权重初始化其他部分。所有实验都是基于Caffe [12]工具箱在单个具有12G内存的Nvidia GTX Titan X GPU表1.与ReferItGame测试的最新方法进行比较方法IOUPr@0.5Pr@0.6Pr@0.7Pr@0.8Pr@0.9VGG16[9]第一章48.03%34.02%26.71%百分之十九点三二11.63%3.92%[18个国家]百分之四十八点八四35.79%27.53%20.90%11.72%3.83%我们52.19%35.61%28.50% 百分之二十一点八五12.87%4.83%Deeplab101[9]第一章56.83%43.86%35.75%26.65%16.75%6.47%[18个国家]57.34%44.33%36.13%27.20%16.99%6.43%我们59.09%百分之四十五点八七39.80% 32.82% 23.81% 11.79%4.1ReferItGame数据集ReferItGame数据集[13]是一个公共数据集，包含20000个自然图像和130525个自然语言表达式。这些表达式共涉及96654个前景区域，这些区域不仅包含物体，而且还包含诸如雪、山等内容。该数据集分为训练集、验证集和测试集，分别包含9000、1000和10000张图像类似10H. Shi等人查询表达式查询表达式查询表达式查询表达式输入图像地面实况[9]第一章[18个国家]我们图三.参考表情图像分割结果对ReferItGame进行测试。从左到右：输入图像，地面实况，[9]，[18]和我们的方法的分割结果。所有方法都是使用Deeplab101实现的。在查询表达式中，黑色单词表示我们的方法为前景区域（红色区域）预测的关键字。到[9，18]，我们使用训练集和验证集来训练，并使用测试集来测试我们的方法。结果总结于表1中。所有方法都不使用额外的训练数据和后处理，如CRF。[9，18]中的最先进的方法平等地处理自然语言表达中的每个单词，并且不考虑视觉上下文。从表1可以看出，我们提出的方法在IoU和精度方面优于这些方法，无论是使用VGG16还是Deeplab101实现此外，在精度度量下这种优异的性能证明了选择性地提取每个图像区域的关键词和建模的关键词感知的视觉上下文的有效性我们在图1中描述了在ReferItGame数据集上的一些主观指称表达图像分割结果。3.从图1中的第一和第三图像。3，可以看出，当查询表达式太长或包含一些噪声（例如圆括号）时，现有方法不能很好地分割出一些对象。我们的方法选择关键词，过滤掉无用的信息在基于关键词感知网络的指代表情图像分割11因此，查询可以成功地分割出这些图像中的参考对象。此外，可以观察到，当查询需要比较多个对象（诸如图1中的第二和第四图像）时，先前的方法错误地定位和分割了一些期望的对象。3.一个主要原因是以前的方法忽略了对象之间的视觉上下文。我们的方法可以产生更好的分割结果，通过建模的关键词感知的视觉上下文。表2.与Google-Ref验证的最新方法进行比较方法IOUPr@0.5Pr@0.6Pr@0.7Pr@0.8Pr@0.9VGG16[9]第一章28.14%15.25%8.37%3.75%1.29%百分之零点零六[18个国家]28.60%16.70%8.77%4.96%1.79%0.38%我们31.36%17.71% 百分之十一点一二7.90%3.69%1.07%Deeplab101[9]第一章33.08%25.66%18.23%百分之十点八二百分之四点一七0.64%[18个国家]34.40%26.19%百分之十八点四六百分之十点六八4.28%0.73%我们36.92%27.85% 21.01% 13.42% 6.60%1.97%4.2Google-Ref数据集Google-Ref数据集[24]包含26711个自然图像，其中54822个对象从MSCOCO数据集[17]中提取。有104560个表达式引用这些对象，这些表达式的平均长度比ReferItGame数据集中的表达式长。我们使用[24]中的拆分，分别选择了44822和5000个对象进行训练和验证客观和主观结果如表2和图2所示。4，分别。从表2中可以看出，我们的方法在两个指标IoU和精度下都优于以前的方法。这证明了我们的方法的有效性。从图如图4所示，可以观察到，当查询太长时，先前的方法无法分割一些对象，例如图4中的第一和第二图像4.第一章此外，当查询需要比较同一类的不同实例时，以前的方法会发现一些错误的对象实例，例如图3中的第三和第四幅图像。4.该方法可以成功地分割出这些对象，受益于关键词提取和关键词感知的视觉上下文。4.3讨论消融研究。为了验证我们的方法中每个部分的有效性，在ReferItGame数据集上进行了许多消融研究。我们比较了五种不同的模型如下：10H. Shi等人查询表达式查询表达式查询表达式查询表达式在黄色的墙上“输入图像地面实况[9]第一章[18个国家]我们见图4。在Google-Ref验证上参考表达图像分割结果。从左到右：输入图像，地面实况，[9]，[18]和我们的方法的分割结果。所有方法都是使用Deeplab101实现的。在查询表达式中，黑色单词表示我们的方法为前景区域（红色区域）预测的关键字。1. 基线：我们采用[9]中的方法作为基线模型，它用整个查询特征对每个图像区域进行分类，并且不建模视觉上下文。2. 关键词模型：而不是使用整个查询，我们提取的关键词为每个图像区域，但没有使用视觉上下文在该模型。3. 上下文模型：我们提取每个图像区域的关键词，并利用空间金字塔池来建模视觉上下文，这是只基于视觉信息。4. 全模型：全模型提取图像每个区域的关键词，并对关键词感知的视觉上下文进行建模，这不仅基于视觉，而且基于自然语言查询。5. 软模型：软模型还提取关键词，并对关键词感知的视觉上下文进行建模。在这个模型中，我们使用软注意力模型来聚合上下文，而不是3.3节中描述的单位阶跃函数。消融研究的结果如表3所示。可以看出，（1）使用关键词比使用整个查询更好;（2）视觉语境对提高成绩是有效的;（3）与仅基于视觉的语境相比，12H. Shi等人方法查询可视关键字感知注意力上下文视觉上下文IoU查询表达式：“laughing person in black shirt”查询表达式：“bottom left cap”输入图像真实基线[9]关键词模型上下文模型全模型图五.参考游戏测试中消融研究的可视化结果。从左到右：输入图像、地面实况、分别来自基线模型[9]、关键词模型、上下文模型和全模型的分割结果所有模型都使用VGG16实现。3.我的世界在ReffertGametingg中，“So ft”意味着通过软注意力模型而不是单位阶跃函数来计算关键词感知视觉上下文。所有模型都使用VGG16实现。基线[9]48.03%关键词模型✓50.28%上下文模型✓✓51.01%全模型✓✓52.19%软模型✓软51.93%关键词感知视觉上下文可以进一步提高指代表情图像的分割性能;（4）基于软注意的模型与基于单位阶跃函数的模型的性能相当。然而，软注意的计算成本远高于单位阶跃函数。因此，我们使用单位阶跃函数代替软注意力。我们将不同消融模型的一些结果可视化在图11中。5.可以观察到，基线模型对于一些查询几乎不预测任何前景对象区域，这是由于它未能从这些查询表达式中挖掘语义。关键词模型从查询中挖掘关键词，从而生成一些前景预测。然而，关键词模型仍然不能分割出所引用的对象，因为它单独分类每个图像区域，而这些查询需要比较多个区域。上下文模型通过对图像区域间的视觉上下文进行建模，改善了一个主要原因是上下文模型忽略了视觉上下文和自然语言查询之间的关系。我们的全模型提取关键词和模型关键词感知的视觉上下文，因此成功地分割出这些对象。基于关键词感知网络的指代表情图像分割13IoU长度12-34-67-20方法查询表达式：“laughing person in black shirt”穿着黑色衬衫的笑着的人穿着黑色衬衫的笑着的人查询表达式：“bottom left cap”左下角帽左下角帽左下角帽输入图像区域关键词分割结果见图6。对ReferItGame测试中的一些图像区域的关键词可视化。从左到右：输入图像，图像区域（红，绿和蓝点）的关键字（黑字），以及我们用VGG16实现的完整模型的分割结果。表4. IoU用于ReferItGame测试中不同长度的查询所有方法都是用VGG16实现的。[9]第一章62.64%44.48%34.56%百分之二十点零九[18个国家]63.19%46.08%35.43%22.25%我们65.59% 48.03% 38.03% 26.61%关键词。表4和表5显示了不同长度查询的分段性能。可以观察到，与现有的方法相比，所提出的方法产生更多的收益时，处理较长的查询。这表明使用关键字而不是整个查询是有效的，特别是在处理长查询时。图6描绘了一些图像区域的提取的关键词的可视化示例。例如，在图2中的第二图像中。6、仅根据帽子一词，绿色区域就可以从所需的前景对象中消除，因为它们不是帽子。失败案例。一些故障情况如图所示。7.当查询包含低频或新词时，会发生一种类型的失败。例如，在图1中的第一图像7、blanket很少出现在训练数据中因此，我们的方法不会分割出毯子，尽管它已经突出显示了背景中的正确白色区域。另一种情况是，我们的方法有时无法分割出小对象。例如，在图2中的第二图像中。7、我们的方法突出了背景的左边，但没有分割出人，因为它很小。可以通过放大输入图像的尺度来缓解该问题。14H. Shi等人IoU长度1-56-78-1011-20方法表5. Google参考验证上不同长度查询的IoU。所有方法都是用VGG16实现的。[9]第一章28.67%23.69%23.44%23.22%[18个国家]31.05%27.32%百分之二十六点二三25.25%我们34.15% 28.79% 29.90% 28.33%查询表达式一条色彩鲜艳的毯子的右边挂在后台“查询表达式输入图像地面实况相关性评分图分割结果见图7。ReferItGame数据集上的失败案例。从左到右：输入图像、地面实况、相关性得分图和我们用VGG16实现的方法的分割结果。5结论本文提出了一种基于关键词感知网络（KWAN）的指代表情图像分割方法。KWAN通过查询注意力模型提取关键词，以抑制查询中的噪声，突出所需的对象。此外，本文还提出了一种基于自然语言查询的视觉上下文模型，用于学习多个视觉对象之间的关系，这对对象的定位和识别具有重要意义我们的方法优于国家的最先进的方法两个常见的参考表达式图像分割数据库。未来，我们计划提高网络处理不同大小物体的能力。谢谢。本研究得到了国家自然科学基金（No.61525102、61601102和61502084）。基于关键词感知网络的指代表情图像分割15引用1. 凯撒H Uijlings，J.，Ferrari，V.：基于区域的语义分割与end-to-endtraing.In：EuropeanConferenceonCom up uterVison。pp. 381- 397. Springer（2016）2. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。IEEETransactions on Pattern Analysis and Machine Intelligence（2017）3. Chen，L.C.，帕潘德里欧，G.，Schroff，F.，Adam，H.：再思考无卷积在语义图像分割中的应用。CoRR（2017）4. Dai，J.，他，K.，孙杰：用于联合对象和填充物分割的卷积特征掩蔽。在：IEEE计算机视觉和图像处理会议论文集中。pp. 39925. 去吧S Ar bel'aez，P.， G i r s hi ck，R.， Malik，J. ：使用rgb-d图像进行的图像分割：自下而上分割、对象检测和语义分割。InternalJournalofComuterVison112（2），1336. 古普塔，S.，Arbelaez，P.，Malik，J.：rgb-d影像室内场景之知觉组织与辨识。In：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. pp. 第5647. 去吧S G i r s hi ck，R.， Ar bel'aez，P.， Malik，J. ：从rgb-d图像中提取用于对象检测和分割的有效特征。In：European Conference on Computer-puterVision. pp. 345-360 02TheDog（2014）8. Hochreiter ， S. ， Schmidhuber ， J. ：长短期记忆。 Neural computation9（8），17359. 胡河Rohrbach，M.，达雷尔，T.：从自然语言表达式中分割。欧洲计算机视觉会议（2016）10. 胡河Rohrbach，M.，Venugopalan，S.，达雷尔，T.：利用大规模视觉和文本数据集从指称表达中进行图像分割CoRR（2016）11. 胡河徐，H.，Rohrbach，M.，冯杰，Saenko，K.达雷尔，T.：自然语言，可直接检索。 Iη：C〇mputerVisisinandPater nRecognitin。pp. 455512. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构。第22届ACM多媒体国际会议论文集。pp. 675-678 ACM（2014）13. Kazemzadeh，S.，Ordonez，V.，Matten，M.，Berg，T.：推荐游戏：指自然景物照片中的物体。在：会议的经验方法在NaturalLanguagePr ocessing.pp. 78714. Li，H.，Meng，F.，吴昆，Luo，B.：基于集成聚类和能量最小化的无监督多类区域IEEE Transactions on Circuits andSystemsforVideoTechnology24（5），78915. Li，Z.，甘，Y.，梁湘，Yu，Y.，郑洪，Lin，L.：Lstm-cf：使用lstms统一上下文建模和融合，用于 rgb-d 场景标记。在：欧洲会议上CommputerrVision. pp. 541-557 02TheDog（2016）16. 梁湘，沈，X.，冯杰，林，L.，Yan，S.：用图进行语义对象分析。 In：EuropeanConferenceonCom up uterVison。pp. 125-143 02TheDog（2016）17. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Doll'ar，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。在：欧洲会议上的竞争对手。pp. 740-755 02TheDog（2014）16H. Shi等人18. 刘，C.，林芝，沈，X.，杨杰，卢，X.，Yuille，A.：用于参考图像分割的递归多模态交互。IEEE计算机视觉国际会议（2017）19. 刘伟，Rabinovich，A.，Berg，A.C.：Parsenet：看得更宽，看得更好。CoRR abs/1506.04579（2015）20. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：IEEE计算机视觉和图像处理会议论文集中。pp. 343121. 卢，J，Xiong，C.，Parikh，D.Socher，R.：知道什么时候看：通过图像字幕的视觉哨兵的自适应IEEE计算机视觉与模式识别会议论文集（2016）22. 卢，J，杨杰，Batra，D.，Parikh，D.：层次问题-图像共注意视觉问答。NIPS（2016）23. Luo，B.，Li，H.，Meng，F.，吴昆，Huang，C.：需要经由全局控制的视频对象分割。关于 MultimediaPP （ 99 ）， 1- 1 （ 2017 ）的IPLTRANSACTIONS24. 毛泽东，J.，黄，J.，Toshev，A.坎布鲁岛Yuille，A.，Murphy，K.：无歧义对象描述的生成和理解。见：CVPR（2016）25. Meng，F.，Li，H.，吴昆，Luo，B.，黄，C.，Ngan，K.：全球测量超像素聚类的二值边缘图的相似性。IEEETransactionCiruitsandSystemsforVideoTechnologyPP（99），126. Nagaraja，V.K.，Morariu，V.I.，Davis，L.S.：为引用表达式理解建模对象之间的上下文。欧洲计算机视觉会议79227. 诺H Hong，S.，汉，B.：用于语义分割的学习反卷积网络。在：IEEE计算机视觉国际会议论文集。pp. 152028. Peng，Z.，张，R.梁湘，Liu，X.，中国科学院院士，Lin，L.：用分层lstm解析几何场景。见：第25届国际反腐败联合会议记录。pp. 343929. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M.等：Imagenet大规模视觉识别。Inter natinalJour nalofComuterVison115（3），21130. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。学习表征国际会议（2015）31. Wang，G.，Luo，P.，林，L.，Wang，X.：用于语义图像分割的学习对象交互和在：CVPR（2017）32. 徐，K.，Ba，J.，基罗斯河周，K.，Courville，A. Salakhutdinov河泽梅尔河Bengio，Y.：显示、出席和讲述：神经图像字幕生成与视觉的一个尝试。InternationalCo nfere nceo nMac hi neLearni ng pp.（2015年33. 杨志，他，X.，高，J.，邓湖Smola，A.：用于图像问答的堆叠注意力网络。在：IEEE计算机视觉和模式识别会议论文集（2016）34. Yao，B.Z.，杨，X.，林，L.，Lee M.W. Zhu，S.C.：I2t：图像解析到文本描述。参见IEEE98（8），148535. Yu，D.，Fu，J.，Rui，Y.，Mei，T.：多层次注意力网络的视觉问答。在：IEEE计算机视觉和模式识别会议论文集（2017年7月）36. 余，F.，Koltun，V.：通过扩张卷积的多尺度上下文聚合。国际学习代表大会（2016）基于关键词感知网络的指代表情图像分割1737. 尤湖Poirson，P.杨，S.，Berg，A.C.，Berg，T.L.：引用表达式中的建模上下文。欧洲计算机视觉会议（2016）38. 张玉，Yuan，L. Guo，Y.，中国科学院，他，Z.，黄岛Lee，H.：用于自然语言查询的视觉定位和检测的判别双峰网络。IEEE计算机视觉与模式识别会议论文集（2017）39. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络。在：IEEE计算机视觉和模式识别会议论文集（2017）

下载后可阅读完整内容，剩余1页未读，立即下载