没有合适的资源?快使用搜索试试~ 我知道了~
自然语言查询引导的动态多模态实例我是一个很好的朋友,我是一个很好的朋友。P'erez,EmilioBotero,andPabloArbela'ez哥伦比亚安第斯大学{ea.margffoy10,jc.perez13,e.botero10,pa.arbelaez} @ uniandes.edu.co抽象。我们解决的问题分割的对象给出了一个自然的语言表达,描述它。当前的技术通过(i)直接地或递归地合并通道维度中的语言和视觉信息并且然后执行卷积来解决该任务;或者通过(ii)将表达式映射到空间,在该空间中,表达式可以被认为是滤波器,滤波器的响应与图像中给定空间坐标处的对象的存在直接相关,使得可以应用卷积来寻找对象。 我们提出了一种新的方法,整合了这两种见解,以充分利用语言的递归性质。此外,在上采样过程中,我们利用下采样图像时产生的中间信息,从而可以获得详细的分割。我们将我们的方法与四个标准数据集中的最先进方法进行比较,其中它在八个分裂中的六个中超过了所有以前的方法。关键词:引用表达式,实例分割,多模式交互,动态卷积过滤器,自然语言处理。1介绍考虑基于自然语言描述从图像中检索特定对象实例的任务,如图1所示。1.一、与传统的实例分割相比,其目标是为一组预定义的语义类[ 1,2]标记属于图像中的实例的所有像素,分割由自然语言表达描述的实例是人类能够执行的任务,而无需特别关注有限的类别集:我们简单地把我们所看到的东西当作一种“M an on the r i g h h t”来定位,如图所示。1.一、 学习这样的联想是本文的主要目标。在这个任务中,要分配的主要标签与查询和背景相关。因此,可能的分割掩模的集合具有很少的约束,因为掩模可以是人们可能在图像中观察到的任何东西,以自然语言允许引用对象的所有方式。解决这个问题的算法必须理解查询,并将其与所看到和识别的内容联系起来以最终输出实例分割图。因此,我们很容易天真地使用卷积神经网络(CNN)来完成这项任务。2E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ez(a) 原始图像。(b)产出依据查询人。(c)基于查询女孩的输出。图1:基于自然语言表达的分割的示例。输出为单个掩码,其中仅有的两个标签是query和background的成员。在这里,我们展示了我们的系统的原始输出,这是属于引用对象实例的像素概率。不足之处在于,由于这种网络本质上不对顺序信息进行建模,这是处理自然语言时所需要的。鉴于这项任务的基石是从多个不同领域检索到的信息的适当组合,我们希望传统架构,如CNN和递归神经网络(RNN),成为有用的模块,但我们仍然需要设计一个全面的架构,充分利用它们的互补性。在本文中,我们介绍了一种模块化的神经网络架构,它将任务划分为几个子任务,每个子任务以特定的方式处理不同类型的我们的方法类似于[3,4,5],因为我们通过采用通常用于这些类型的数据的网络以独立的方式提取视觉和自然语言信息,即。,CNN和RNN,然后专注于通过另一个神经网络处理这种多域信息,产生端到端的可训练架构。然而,我们的方法还引入了简单递归单元(SRU)的使用,用于基于引用表达式的高效分割,联合处理语言和视觉信息的合成模块,以及输出非常详细的分割图的上采样模块。我们的网络,我们称之为动态多模态网络(DMN),由几个模块组 成 , 如 图 所 示 。 2 : ( i ) 产 生 图 像 的 适 当 表 示 的 视 觉 模 块(VM),(ii)输出查询的含义的适当表示直到给定单词的语言模块(LM),(iii)在每个时间步合并由VM和LM提供的信息并产生用于整个表达式的单个输出的合成模块(SM),以及最后,(iv)上采样模块(Upper Sampling),模块(UM),其通过使用特征映射亲对SM的输出进行增量上采样。动态多模态实例分割3输入图像图2:动态多模式网络(DMN)概述,涉及四个不同的模块:视觉模块(VM)、语言模块(LM)、合成模块(SM)和上采样模块(UM)。由VM引起。我们的方法是一个完全可区分的,端到端可训练的神经网络,用于基于自然语言查询的分割。我们的主要贡献如下:– 使用简单递归单元(SRU)[6]作为语言和多模态处理器,而不是标准的LSTM [7]。我们的经验表明,他们是高效的,同时为手头的任务提供高性能– 综合模块,其获取视觉和语言信息,并将用于在虚拟空间中进行重新体验的“场景”合并。– 合成模块然后采用该表示以及附加特征,并且利用两种类型的信息的空间和顺序性质来产生低分辨率分割图。– 高分辨率上采样模块,其在上采样过程期间利用视觉特征以便恢复精细尺度细节。我们通过在所有标准数据集上进行实验来验证我们的方法例如基于指代表达的分割,并获得现有技术的结果。此外,为了确保可重复性,我们提供了我们的方法和训练例程的完整实现,用PyTorch1 [8]编写。2相关工作计算机视觉(CV)和自然语言理解(NLU)的交叉是一个活跃的研究领域,包括多个任务,如基于自然语言表达的对象检测[9,10],图像字幕1https://github.com/BCV-Uniandes/query-objseg视觉模块上采样模块查询女人语言模块二语言模块从语言模块权语言模块输出分割合成模块4E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ez[11,12,13,14]和视觉问答(VQA)[15,16,17,18,19]。 由于视觉和语言数据具有使它们从根本上不同的属性,即前者具有空间意义,没有顺序性,后者不考虑空间,但具有顺序性,因此,对这两类信息的最佳处理仍然是一个悬而未决的问题。因此,在这个子领域中的每项工作都提出了解决每项任务的特定方式。本文研究的任务在本质上最接近于基于自然语言表达的对象检测,反映了对象检测如何产生语义分割[20]。事实上,在[3]中,使用NLU的对象检测演变为使用引用表达式的实例分割。我们回顾了基于自然语言表达的分割任务的最新技术[3,4][5],突出了多模态信息融合的主要贡献,然后将其与我们的方法进行比较。自然语言表达式的分割[3]。这项工作通过单独的神经网络处理视觉和自然语言信息:CNN从图像中提取视觉特征,而LSTM扫描查询。CNN中的跨步卷积和池化操作将特征映射下采样为低分辨率输出,同时为最后层中的神经元产生大的另外,为了明确地对空间信息进行建模,在由CNN获得的特征图中的每个空间位置处连接相对坐标。视觉和自然语言信息的合并是通过在空间位置处的地图上将LSTM的输出转换到视觉上来实现的。具有ReLU [21]非线性的卷积层用于最终分类。损失定义为每像素加权逻辑回归损失的平均值训练具有两个阶段:低分辨率阶段,其中地面真实掩模被下采样以具有与输出相同的维度;以及高分辨率阶段,其训练去卷积层以对低分辨率输出进行上采样以产生最终分割掩模[3]。这种半最终方法没有充分利用语言的顺序性质,因为它没有利用学习的单词嵌入,它通过连接合并视觉和语言信息,并且它使用反卷积层进行上采样,这已经被证明会在图像中引入棋盘伪影[22]。递归多模态交互作用[4]。 本文认为,分割图像的基础上,只有一个最终的,记忆表示的句子没有充分利用的顺序性质的语言。因此,本文提出在流水线中多次执行分割。该方法通过生成涉及视觉、空间和语言特征的表示来在每个时间步长产生图像特征。这样的多模态表示是通过连接在视觉表示的每个空间位置处处理查询的LSTM的隐藏状态来获得的。分割掩模是通过将多模态LSTM(mLSTM)应用于联合表示,然后执行常规卷积以组合由mLSTM产生的通道来获得的。mLSTM被定义为跨空间位置和时间步长共享权重的卷积LSTM,并且被实现为合并所有这些类型的卷积的1×动态多模态实例分割5在Ion形成。 双线性放大器被构造成在两个掩模的输出处同时产生具有与地面实况掩模相同尺寸的掩模。该方法减少了卷积层的步长,并使用了atrous卷积。在CNN的最后层中进行降采样以补偿降采样。这样的修改将上采样过程减少到双线性插值,但是可以降低CNN通过自然语言规范进行跟踪[5]。本文的主要任务是视频序列中的目标跟踪。跟踪中的典型用户交互包括在第一帧中提供感兴趣对象的边界框。然而,这种类型的交互具有这样的问题,即,对于持续时间在一些情况下,对象的外观和位置可能改变,使得初始边界框无用。其主要思想是提供(i)被跟踪的对象的语义含义在视频的持续时间内变化不大作为外观,和(ii)这个语义含义可以更好地定义的语言表达。这种方法与[4]和[3]有很大的不同:视觉和语言信息本身从未合并,而是将语言信息映射到一个空间,在这个空间中,它可以被解释为具有视觉意义。因此,视觉输入由修改的VGG [23]处理以产生特征图。LSTM扫描语言输入,并且单层感知器被应用于LSTM的层,因为该层可以被解释为用于要在特征图上执行的2D卷积的滤波器。计算基于表达式生成的动态卷积视觉滤波器以产生对引用表达式的元素的强响应,以及对未引用的元素的弱响应。该保留字被保留为用于保留字的“s c or e“,因此可以产生分段。这种方法提出了一种新的范式,用于结合来自视觉和语言领域的信息,但假设最后隐藏状态的非线性组合足以对响应于查询的过滤器进行建模。我们的方法。[3]的方法通过语言信息的级联、用于分段的后续1 ×1卷积和用 于 执行 上 采 样的去卷积层来合并多域信息。中的方法[4]遵循与[3]相同的逻辑,但在方法中引入了递归,进一步开发了语言信息;然而,上采样模块是产生相当粗糙结果的插值,作者对其应用后处理DenseCRF,使得架构不能端到端训练。最后,[5]有一种不同的方法,其中语言信息从不与特征图合并,而是被转换,以便它可以检测图像中引用表达具有强烈响应的位置;然而,像[3]一样,它没有以顺序的方式充分利用语言信息。此外,所有这些方法都未能在上采样处理中利用在下采样处理中获得的信息。6E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ezt=1n=1t=1t=1k=1t=1k=1I1I2I3I4CNNIN输入图像视觉模块图3:视觉模块以N个不同尺度输出特征图,目的是在分割过程和上采样中使用它们。我们的方法利用了以前的见解,并由一个模块化的网络,利用基于多域信息的组合分割的可能性,和生产过滤器的可行性,响应对象被称为通过处理的语言信息。遵循[24,25,26]的精神,我们使用下采样过程和上采样模块之间的跳过连接来输出精细定义的分割。我们采用[3]的拼接策略,但包括更丰富的视觉和语言特征。此外,我们使用动态滤波器计算,如[5],但以顺序的方式。最后,我们介绍了一个更有效的替代LSTM在这个领域,即SRU的使用。我们以经验证明,SRU可用于为该任务建模语言和多模态信息,并且它们可以比LSTM快3倍,从而使我们能够训练更具表达力的模型。3动态多模式网络3.1整体架构图2示出了我们的整体架构。给定由图像I,以及由T个词组成的查询,{wt}T,Visual Module(VM)采用I作为输入,并产生N个不同尺度的特征图:{I n}N. 兰-测量模块(LM)处理{wt}T并产生一组特征{rt}T和动态滤波器集合{{fk,t}K不t=1. 如果VM的地址输出,、,则{{fk,t}K不t=1合成模块(SM)处理该信息,并且为整个引用表达式生成单个特征映射这个输出,连同由VM给出的特征图一起由上采样模块(UM)处理,上采样模块(UM)输出具有单个通道的热图,S形激活函数被应用于该热图以产生最终预测。3.2可视化模块(VM)图3描绘了视觉模块。我们使用双路径网络92(DPN92)[27]作为骨干从图像中提取深度视觉特征,该网络在各种任务中表现出有竞争力的性能,并且在参数使用方面是有效的。VM可以写成一个返回元组的函数}}动态多模态实例分割7n=12Nt=1不女人右二语言模块图4:语言模块使用SRU而不是传统的LSTM来输出查询的丰富特征和基于这些特征的动态过滤器。{In}N= VM⑴ ⑴其中I是原始图像,并且I n,n∈ {1,. . .,N}是下采样的特征图的维度等于I的维度中的1。在实验中-在某些情况下,我们使用N= 5,这考虑了视觉编码器中的所有卷积层。注意,由于我们的架构是完全卷积的,因此我们不限于固定的图像大小。3.3语言模块(LM)图4示出了语言模块的图给定一个表达式,该表达式包含的T个字{wt}T,每个单词由嵌入(WE)表示,et=WE(wt)(图4中的EMB),并且句子由RNN扫描以产生每个单词的隐藏状态ht(图4中的HID)。我们采用SRU [6],而不是使用LSTM作为循环单元,这使得LM能够比使用LSTM时更有效地处理自然语言查询SRU定义如下:x~t=Wxt(2)f′=σ(Wfxt+bf)(3)rt=σ(Wr xt+br)(4)ct=f′⊙ct−1+(1−f′)⊙x~t(5)t tht=rt⊙g(ct)+(1−rt)⊙xt(6)如果是一个简单的问题,则会出现多个问题。函数(·)可以在此基础上进行选择;重新选择函数(·)以获得相同的函数。有关SRU定义和实现的更多详细信息,请参见[6]。我们将隐藏状态ht与单词嵌入et连接起来,以产生最终的语言输出:rt=[et,ht]。该过程产生直到单词t的句子的概念的丰富的语言表示。此外,我们基于由下式定义的ri,t来计算动态滤波器的集合fk,t:fk,t= σ(Wfkrt+ bfk),k= 1,.,K(7)EMB|HIDSRUSRUSRUSRUEMBHID滤波器8E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ezk=1t=12NINLOCLOC|IN滤波器****合成模块EMB|HID|RESP|LOC|I NRESPCONVCONVCONVCONV1x1@0mSRUmSRU低分辨率图5:合成模块以循环的方式考虑对动态过滤器、语言特征、空间坐标表示和视觉特征的响应,以输出单个响应图。因此,我们将LM正式定义为:. {r}T ,{{f}K}TΣ。=LM{w}Σ(八)tt=1k,tk=1t=1tt=13.4合成模块(SM)图5示出了合成模块。SM是我们架构的核心,因为它负责合并多模态信息。在[3]的实现之后,我们首先将IN和空间坐标的表示(图5中的L0C)级联,并且将该结果与由LM计算的滤波器中的每个进行卷积以生成由K(图5中的RESP通道:Ft={fk,t*IN}K.接下来,我们沿着′通道维度,以获得表示I,其中rt在每个空间位置,以便在单个tensor中具有所有多模式信息最后,我们应用一个1× 1卷积层,它合并了所有的多模态信息,提供对应于每个时间步长t的tan输出,用Mt表示。形式上,Mt定义为:Mt= Conv1×1([IN,Ft,LOC,rt])(9)接下来,为了执行考虑集合的顺序性以及Mt中每个通道的信息的递归运算,我们提出使用多模态SRU(mSRU),我们将其定义为1×1卷积,类似于[4],但使用SRU。我们将mSRU应用于整组{Mt}T,使得每个Mt中的所有信息,包括序列,在分割过程中使用集合的质量最后的隐藏状态被聚集以产生被解释为特征图的3D张量这如果在RN中指定了某个值,则在该值或原始值中不进行调整大小,具有与Mt相同的尺寸,并且具有与mSRU的隐藏状态中我们将SM定义为返回RN的函数:不动态多模态实例分割9t=1t=1n=1IN-1I1INCONV+双线性3x3@1CONV+双线性3x3@1CONV1x1@0输出分割低分辨率图6:上采样模块利用在特征提取过程中生成的所有特征图来提供更详细的分割。RN=SM.{Mt}TΣ= mSRU.{Mt}TΣ、(10)其中,Mt被适当地重塑,以理解每个时间步长处的信息的顺序性质。3.5上采样模块(UM)最后,上采样模块如图所示六、 受跳过连接[24,25,28]的启发,我们构建了一个考虑了特征映射{In}N以恢复精细尺度的细节。在每个阶段,我们将Rn与In连接起来,对这个结果执行3× 3卷积,然后通过双线性插值将大小缩放2倍以生成Rn−1。我们应用该过程log2(N)次,以产生与输入R1相同大小的输出掩码。我们在R1上应用1×1卷积来生成单个通道,最后生成一个sigmoid层,以获得0到1之间的分数。4实验装置4.1数据集我们在四个标准数据集上进行实验:ReferIt、UNC、UNC+ [29]和GRef[30]。UNC、UNC+和GRef基于MS COCO [1]。引用表达式中出现的对象类型、表达式的长度以及引用对象的相对大小是数据集之间的主要这些特征在数据集上的高度可变性证明了为这项任务构建能够泛化的模型的挑战。ReferIt [29]是一个众包数据库,包含图像和对这些图像中对象的引用表达式。目前,它有130,525个表达式,涉及96,654个不同的对象,在19,894张自然场景照片中。UNC [31]在ReferIt游戏中交互收集,其中图像被选择为包含相同对象类别的两个或更多个对象[31],这意味着引用确定类型的对象的表达式将需要进一步分析以确定查询所指的对象,因为当仅由语义实例类线索引导时会出现歧义。它由19,994幅图像中的50,000个对象的142,209个指称表达式10E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ezUNC+ [31],类似于UNC,但对描述位置的单词有额外的限制:表达式必须仅基于外观而不是位置。这种限制意味着表达将取决于场景的视角和对象的语义类别。GRef[30]收集了Amazon的 M e c h an i c T u r k 和 c o n t ai n s85 , 474 个 引 用 表 达 式 , 用 于 26 , 711 个 图 像 中 的 54 , 822 个 对象,所述图像被选择为包含同一类别的两个和四个对象之间,因此,它呈现出与UNC的那些类似的挑战。4.2性能度量我们使用的标准指标,从文献中,以允许直接比较相对于国家的最先进的。我们在上述四个标准数据集上使用所提出的方法进行实验,通过在训练集上进行训练并评估每个验证集或测试集中的性能。我们通过使用两个标准度量来评估结果:(i)联合平均相交(mIoU),其被定义为输出与地面实况(GT)掩模之间的总相交面积除以输出与GT掩模之间的总联合面积,在评估集中的所有图像上相加,以及(ii)Precision @ X或Pr @ X,(X ∈ {0. 5,0。6,0。七比零。八比零。9}),定义为IoU高于X的图像的百分比。我们在每个数据集的验证和测试分割中报告mIoU,当可用时,分别使用来自训练或验证分割的最佳阈值4.3实现细节所有的模型都是用DPN92 [27]作为主干定义和训练的,它在最后一层输出2688个通道。我们在VM中使用N=5个尺度。我们使用我们在UNC+val集合上优化的以下超参数:WE大小为1000,隐藏状态大小为1000的2层SRU,K=10个滤波器,SM中的1000个1× 1卷积滤波器,3层mSRU根据[6],相对于LSTM中的通常层数,这里在SRU和mSRU中呈现的层数的增加是响应于SRU如预期那样工作的层数的增加的需求。我们分两个阶段训练我们的方法:在低分辨率(即,,不使用UM)然后微调UM以获得高分辨率分割图。训练使用Adam优化器[32]完成,初始学习率为1× 10-5,一个等待2个丢失停滞时期的调度器,以将学习率降低10倍,批量大小为1个图像查询对。5结果5.1对照实验我们评估我们的模块在最终结果的相对重要性,通过进行消融实验。训练对照实验,直到收敛到动态多模态实例分割11UNC数据集因此,我们将它们与经过类似时间训练的完整方法的版本进行表1给出了结果。“OnlyVM”在后续处理中的执行是在不使用查询的情况下,在VM上执行,并且利用双线性插值对低分辨率输出进行上采样。在测试时,VM处理图像,并且使用UM对所得分割图进行上采样,并与GT掩模进行比较。结果显示,与我们的完整方法相比,这种方法的表现很差,这证实了我们的假设,即天真地使用CNN不符合本文中的任务。然而,有趣的是,对于完全不使用语言信息的方法,性能相当高。该结果表明,该数据集中注释的许多对象都是显着的,因此网络能够在没有查询帮助的情况下学习分割显着对象。第2行中的实验包括定义rt=ht,而不是使用ht和et的连接,这影响LM(当计算动态滤波器时)和SM两者结果表明,使用学习的嵌入提供了一个小的增益在完整的方法,特别是对于更严格的重叠阈值。接下来,在第3行中,我们评估UM中的跳过连接的重要性,这是在上采样模块的相对于完整方法的性能大幅下降表明,跳过连接允许网络利用以其他方式丢失的更精细的细节,这表明上采样策略如何从执行卷积中受益,然后是双线性插值而不是反卷积,如[3]中所做的那样。接下来,我们研究从Mt中移除特征的影响。在行4和行5中,我们分别移除对动态过滤器F的响应集合以及SM中的rt我们观察到,动态过滤器在视觉空间中的自然语言查询生成有用的分数,并且重用SM中的LM的特征对网络没有显着帮助。我们的研究结果表明,我们网络的关键组件对整体性能有重大影响。仅使用语言信息(rt)或对过滤器的响应(F)都不能实现高性能:两者必须适当地组合。此外,UM允许网络适当地利用来自下采样阶段的特征并执行详细的分段。表1:UNC测试A分割中消融研究的X方法Pr@0。5Pr@0。6Pr@0。7Pr@0。8Pr@0。9Miou仅VM15.266.362.960.910.1430.92LM和SM中仅ht65.3857.9947.0727.384.6354.80UM中没有跳过连接56.5842.7726.329.221.0749.26无动态过滤器57.5348.7038.2720.643.0050.34没有rt64.5256.6945.1625.564.3854.69DMN65.8357.8246.8027.645.1254.8312E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ez表2:跨不同数据集的mIoU性能与最新技术水平的比较。作者未报告绩效方法参考测试GrefValUNCUNC+Val种皮 testBVal种皮 testB[3]第一章48.0328.14------[33个]49.9134.06------[五]《中国日报》54.30-------[4]美国58.73 34.52 45.18 45.69 45.57 29.86 30.48 29.50DMN52.81 36.76 49.78 54.83 45.13 38.88 44.22 32.29时间性能比较70k60k50k40k30k20k10kSRULSTM0.40.30.20.1IoU性能比较SRULSTM00 2 4 6 8 10 121400 2 4 6 8 10 12 14时代»(a) 训练时间。时代»(b) 性能(mIoU)。图7:SRU与LSTM在LSTMS测试A上的比较(低分辨率)。5.2与最新技术水平的接下来,我们继续将我们的完整方法与最先进的方法进行比较,我们对上述所有数据集进行了评估表2将我们的方法的mIoU与该任务中的最新技术进行了比较[3,4,5]。结果表明,我们的方法优于所有其他方法在六出八分裂的数据集。通过在该过程的几个阶段包含丰富的语言特征,并以不同的方式将它们组合起来,我们的网络可以学习查询与它们所引用的实例之间的适当有趣的是,在UNC和UNC+的testB拆分中的性能增益并不像testA中那样大。一个可能的原因较小的性能增益跨分裂是他们的差异:目视检查的结果显示如何testA分裂偏向于与分割的人有关的查询然而,testB拆分包含更多不同的查询和对象,这就是为什么mIoU的增加并不明显。对于[ 4]提出的方法也可以观察到这种行为,如表2的倒数第二行所示。5.3效率比较:SRU与 LSTM为了在比较时评估SRU的效率和性能对于作为语言和多模态处理器的更常用的LSTM,我们进行了一个实验,其中在我们的最终系统中,在LM和SM中,我们用LSTM替换SRU,我们在UNC数据集上训练经过时间(s)Miou动态多模态实例分割13(a) 黄色衬衫(b)右边一个人(c)击球手捕集器图8:网络输出的定性示例。在每个子图中从左到右:原始图像、由我们的方法产生的热图和地面真实掩模。每个标题都是生成输出的查询。and we measured测量performance性能on thetestA split分裂.在模型复杂度方面,当使用SRU时,LM和SM分别具有9M和10M可训练参数。当切换到LSTM时,参数的数量分别增加到24M和24.2M,将训练时间乘以三倍,如图所示。早上7关于准确性,图。7b.显示两个系统执行类似的形式,与一个小的优势SRU。因此,与LSTM相比,SRU允许我们设计更紧凑的架构,训练速度更快,泛化能力更好。5.4定性结果图8示出了网络表现良好的定性结果。这些示例展示了DMN基于关于特定类别或实例的不同信息进行分段的灵活性:属性、位置或角色。我们认为,这一点并不重要,因为它与对象的上下文和外观有关。此外,我们的网络认为要解决的语义困难在于,在对象节点的分类中存在这样的语义困难:可以是“bat t er”和“p e r s on”。 不是我的菜。 8.在向上采样模块中,我们的网络分割了腿、头和手等细节。在图8a中,查询通过他的属性中的一个来指代孩子:他的衬衫的颜色;在图8b中,查询通过他的属性中的一个来指代孩子。 8b该男子是由他的位置和他独自一人的事实来定义的(尽管这可以被删除,因为没有歧义);图图8C和图8D中的每个都基于各自的角色。典型的故障情况如图所示9.第九条。 图在图9a中,网络分割(可论证地)不正确的人,因为正确的分割是在图像的边界处的人,其面部被部分地示出。我们发现的几个失败案例都有完全相同的问题:表达中的模糊性甚至会让人感到困惑。图9b示出了强故障的示例,其中产生弱分段。该模型似乎只专注于“右”。但我们发现,这是因为没有足够的工作来进行14E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ez(a) (b)坐在右边的人有白色条纹(c)男人在灰色衬衫站立(d)手在远程图9:网络输出的反面例子。在每个子图中从左到右:原始图像,由我们的方法产生的热图,和地面真实掩模。每个标题都是生成输出的查询。这种相对较长的句子,虽然明确地定义了一个对象,但却是一种令人困惑的指代方式。图9c是两个网络k的c on fusion的有趣示例。当女性未被分割时,共享多个属性(guy、gray和shirt)的两个对象被混淆并且都被分割。 然而,这两个数据库无法管理以使用该数据库来解决歧义。最后,在图9d观察到失败,其中没有与查询相关的内容被分段。产生的掩模仅反映分割红色对象的弱尝试,而忽略图像的上部,其中手和遥控器都 存在。6结论我们提出了动态多模态网络,一种新的方法分割的基础上自然语言表达的实例。DMN将以前工作中的见解集成到模块化网络中,其中每个模块负责处理来自特定域的信息。我们的合成模块组合来自先前模块的输出并且处理该多模态信息以产生可由上采样模块使用的特征。由于在网络的编码部分中获得的特征图的增量使用我们的方法在八个标准数据集分割中的六个中优于最先进的方法。致谢作者衷心感谢NVIDIA捐赠本作品中使用的GPU。动态多模态实例分割15引用1. 林,T. 是的, 我是M Belongie,S. J. 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:Microsoft COCO:上下文中的公用对象。欧洲计算机视觉会议(ECCV)(2014年)2. Hariharan,B. Ar bela'ez,P., Gir shi ck,R., Malik,J. :简单的使用检测和分割。在Fleet,D. Pajdla,T.,Schiele,B.,Tuytelaars,T.,编辑:ComputerVision- E CC V 2014,C h am,S pring g e r I n t e rna t io n al P ub li s h i n g(2014)297 -3123. 胡河Rohrbach,M.,达雷尔,T.:从自然语言表达式中分割。欧洲计算机视觉会议(ECCV)(2016)4. 刘,C.,Lin,Z.L.,沈,X.,杨杰,卢,X.,Yuille,A.L.:用于参考图像分割的递归国际计算机视觉会议(ICCV)(2017)12805. Li,Z.,陶河Gavves,E.,Snoek,C.G.M.,Smeulders,A.W.M.:通过自然语言规范进行跟踪。计算机视觉和模式识别会议(CVPR)(2017)6. 雷,T., 张玉, Artzi,Y.:训练RNN的速度与CNN一样快。Corrabs/1709.02755(2017)7. Hochreiter,S.,Schmidhuber,J.: 长短期记忆。 神经计算9(8)(1997)17358. Paszke,A.,格罗斯,S.,Chintala,S.,Chanan,G.,Yang,E.,DeVito,Z.,林芝,Desmaison,A.,安蒂加湖Lerer,A.:pytorch中的自动微分。神经信息处理系统(NIPS)会议。(2017年)9. 胡河徐,H.,Rohrbach,M.,冯杰,Saenko,K.达雷尔,T.:自然语言对象检索。计算机视觉和模式识别会议(CVPR)(2016)455510. Guadarrama,S.,Rodner,E.,Saenko,K.达雷尔,T.:通过开放词汇对象检 索 和 检 测 来 理 解 机 器 人 中 的 对 象 描 述 。 TheIn-ternalJornalofRobticsReserch35(1-3)(2016)26511. 洛 杉 矶 的 亨 德 里克 斯 Venugopalan, S., Rohrbach , M. , 穆 尼 ,R.J. ,Saenko,K.达雷尔,T.:深度合成字幕:在没有配对训练数据的情况下描述新的对象类别。计算机视觉与模式识别会议(CVPR)(2016)112. 甘Z Gan,C.,他,X.,Pu,Y.,Tran,K.,高,J.,卡林湖Deng,L.:视觉字幕的语义合成网络。2017年计算机视觉与规划研究大会(CVPR)114113. Johnson,J.,Karpathy,A.,Fei-Fei,L. Li,C.,Li,Y.W. fei Li,F.:Densecap : 用 于 密 集 字 幕 的 全 卷 积 定 位 网 络 。 计 算 机VisionandPatternRecognition(CVPR)(2016)456514. 杨志,Yuan,Y.,吴,Y.,Cohen,W.W. Salakhutdinov,R.:审查网络字幕生成。神经信息处理系统(NIPS)会议(2016年)15. Goyal,Y.,Khot,T.,萨默斯-斯特,D. Batra,D.,Parikh,D.:使VQA中的V重要:提升图像理解在视觉问答中的作用2017 IEEE计算机视觉与模式识别会议(CVPR)(2017)632516. Li,C.,格罗斯岛伯恩斯坦, M.S.,Fei-Fei,L. Li,Y.W. Li,F.F.:Visual7w:在图像中回答问题。计算机视觉与规划研究会议(CVPR)(2016)499516E dgarMargffoy-Tuay,JuanC. P'erez,EmilioBotero,PabloArbela'ez17. 克里希纳河Li,C.,格罗斯岛Johnson,J.,Hata,K.,Kravitz,J.,陈淑仪,Kalan-tidis,Y.,夏玛地方检察官伯恩斯坦,M.S.,李菲菲:可视化基 因 组 : 使 用 众 包 密 集 图 像 注 释 连 接 语 言 和 视 觉 。InternationalJournalofComp uterVision(IJCV)123(2016)3218. 阿格拉瓦尔,A.,卢,J,Antol,S.,Mitchell,M. Zitnick,C.L.,Parikh,D. Batra , D.: VQA : 可 视化 问 答。 国 际计 算 机 视觉 会 议( ICCV)(2015)242519. Teney,D.刘,L.,van den Hengel,A.:图形结构表示的可视化问题回答。计算机视觉与模式识别会议(CVPR)(2017)323320. Everingham,M.凡古尔湖威廉姆斯,C.K.I.,Winn,J.,齐瑟曼,A.:pascal视觉对象类(voc)的挑战。国际计算机视觉杂志88(2)(2010年6月)30321. Nair,V.,Hinton,G.E.:整流线性单元改进受限玻尔兹曼机。第27届机器学习国际会议(ICML-10)。(2010)80722. Odena,A.,Dumoulin,V.,Olah,C.:反卷积和棋盘式伪影。2016年蒸馏23. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。国际学习表征会议(ICLR)(2015)24. Ronneberger,O.,Fischer,P.,Brox,T.:U-net:用于生物医学图像分割的卷积网络。收录于:医学图像计算和计算机辅助医学研究- M ICC A I2015。(2015)23425. Shelhamer,E.,朗J达雷尔,T.:用于语义分段的全卷积网络。计算机视觉与模式识别会议(CVPR)(2015)34 3126. Hariharan , B.Ar bela'ez , P. ,Gir shi ck , R. ,Malik , J. :Objectinstancesegmentin和使用超列的细粒度本地化。IEEE Transactions onPatternAnalysandMachineIntelligence(TPAMI)39⑷(2017)627-63927. 陈玉,李杰,Xiao,H.,Jin X Yan,S.,Feng,J.:双路径网络。神经信息处理系统(NIPS)会议。(2017年)28. Huang , G. , 刘 志 , Weinberger , K.Q. : 密 集 连 接 的 卷 积 网 络 。ConferenceonComuterVisionandPater nRecognition(CVPR)(2017)226129. Kazemzadeh,S.,Ordonez,V.,Matten,M.,Berg,T.L.:推荐游戏:指自然景物照片中的物体。In:EMNLP. (2014年)30. 毛泽东,J.,黄,J.,Toshev,A.坎布鲁岛尤伊尔,A.L.,Murphy,K.:无歧义对象描述的生成和理解。2016年计算机VisionandPatternRecognition(CVPR)会议1131. 尤湖Poirson,P.杨,S.,Berg,A.C.,Berg,T.L.:引用表达式中的建模上下文。欧洲计算机视觉会议(ECCV)(2016年)32. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法。国际学习表征会议(ICLR)(2015)33. 胡河Rohrbach,M.,Venugopalan,S.,达雷尔,T.:利用大规模视觉和文本数据集从指称表达中进行图像分割。欧洲计算机视觉会议(ECCV)(2016)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功