没有合适的资源?快使用搜索试试~ 我知道了~
10880一种用于指称表达理解廖跃1,3刘思1李冠斌2王飞3陈艳杰3陈倩3李波 11北京航空航天大学2中山大学3商汤科技liaoyue.ai @ gmail.com;{ liusi,boli}@wwwbuaa.edu.cn liguanbin@mail.sysu.edu.cn;{wangfei,chenyanjie,qianchen}@ sensetime.com摘要指称表达式理解的目的是对自然语言表达式所描述的对象实例进行本地化目前的指称表达方法已经取得了良好的性能。然而,它们都不能在保证推理精度的前提下实现推理速度相对较慢的原因是这些方法人为地将指称表达式理解分为两个连续的阶段,包括建议生成和优先级排序。它并不完全符合人类的认知习惯。为此,我们提出了一个真正的小说-82818079787776757473720 0.20.40.60.81.01.21.4时间交叉模态相关滤波方法(RCCF)。RCCF将指称表达理解重新表述为一个相关过滤过程。首先将表情从语言域映射到视觉域,然后将其作为模板(内核)对图像特征图进行相关滤波。相关性热图中的峰值指示目标框的中心点。此外,RCCF还回归2-D对象大小和2-D偏移。中心点坐标、对象大小和中心点偏移量共同构成目标边界框。我们的方法以40FPS运行,同时在RefClef、RefCOCO、RefCOCO+和Ref-COCOg基准测试中实现领先的性能。在具有挑战性的RefClef数据集中,我们的方法几乎是最先进性能的两倍(34。70%上升到63。79%)。我们希望这项工作能引起更多的关注和研究新的跨通道相关过滤框架,以及指称表达理解的一个阶段的框架。1. 介绍近年来,指称表达理解[34,32,27]受到了指称表达式是对特定对象*通讯作者秒/图像图1.精度(IOU> 0.5)与Re- fCOCO测试A上的推理时间在单个Titan Xp GPU上设置。我们的方法RCCF达到40 fps(0.25ms每幅图像),这超过了实时25 fps的速度,并且明显快于现有方法显著幅度(12倍)。RCCF的精度也优于最先进的方法。在图像中给定这样的指称表达式,指称表达式理解的目标是定位图像中的实现人机交互、机器人学和早期教育是机器智能领域的关键任务之一。用于引用表达式压缩的传统方法大多将该问题表述为对象检索任务,其中从一组对象提议中检索最佳匹配引用表达式的对象这些方法[32,29,28,27]主要由两个阶段组成。在第一阶段中,给定输入图像,应用预先训练的对象检测网络来生成一组对象propos-als。在第二阶段中,给定输入表达式,从检测到的对象建议中选择最佳匹配区域。虽然现有的两阶段方法已经取得了很大的进步,但仍然存在一些问题。1)两阶段方法的性能非常有限,RCCF(40fps)MAttNet(3.2fps)RCCF(我们的)MAttNetDGADGA(3fps)+VC×扬声器收听者实时精密度@0.5(%)10881第一阶段产生的目标提案的完整性。如果目标对象没有被准确地检测到,则不可能在第二阶段中匹配语言2)在第一阶段中,大量额外的对象检测数据,即,COCO [17]和Visual Genome [13]对于获得满意的结果是不可或缺的3)两阶段方法通常在计算上是昂贵的。对于每个对象建议,特征提取和跨模态相似性计算都应该进行。然而,最终仅选择具有最高相似度的提议。如图1所示,当前两阶段方法的精度是合理的,而推理速度与实时性仍有很大差距。上述三个问题在现有的两阶段框架中难以我们将指称表达理解重新表述为跨模态模板匹配问题,其中语言作为模板(过滤器内核),图像特征图是执行相关过滤的搜索空间。从数学上讲,引用表达式理解旨在学习函数f(z,x),该函数将表达式z与候选图像x进行比较,并在相应区域中返回高分。该区域由2-dim中心点,2-dim对象大小(高度和宽度)和2-dim偏移表示,以恢复离散化误差[15,36,6]。我们提出的RCCF是端到端可训练的。语言嵌入被用作相关过滤器并应用于特征图以产生中心点的热图。为了更准确地定位,我们计算多级图像特征的相关图,并融合输出图以产生最终的目标中心热图。此外,宽度、高度和偏移热图仅与视觉特征回归。在推理过程中,文本首先嵌入到视觉空间中,然后在图像特征图上滑动。选择对象中心热图中的峰值点作为目标的中心。收集相应的宽度、高度和偏移量,形成目标包围盒,这是引用表达式理解的结果。我们提出的RCCF方法的优点可以总结为三个方面:• 我们的方法的推理速度达到实时(40FPS)与一个单一的GPU,这是12倍的速度比两阶段的方法。• 我们的方法可以训练与引用表达式数据集只,不需要任何额外的对象检测数据。此外,我们的单阶段模型可以避免在传统的两阶段方法中来自对象检测器的误差累积。• RCCF 在 RefClef 、 RefCOCO 、 RefCOCO+ 和RefCOCOg数据集上实现了最先进的性能。特别是在RefClef数据集中,方法优于最先进的方法,与34分差距很大70%到6379%,几乎是最先进方法性能的两倍。2. 相关工作2.1. 指称表达理解传统的指称表达式压缩方法大多由两个阶段组成。在第一阶段中,给定输入图像,应用预先训练的对象检测网络或无监督方法来生成一组对象建议。 在第二阶段中,给定输入表达式,从检测到的对象建议中选择最佳匹配区域。随着深度学习的发展,两阶段方法取得了很大的进步。大多数两阶段方法侧重于改善第二阶段。其中大部分[20,9,35,32,27,28]主要集中在探索如何从语言和图像中挖掘上下文信息或对指称物之间的虽然现有的两阶段方法取得了不错的性能,但也存在一些共同的问题。首先,两阶段方法的性能仅限于目标检测器。其次,这些方法浪费了大量的时间在对象建议生成和特征提取每个建议。因此,我们提出了定位目标对象直接给定一个表达式与我们的相关滤波为基础的方法。2.2. 相关滤波首先提出用相关滤波方法训练线性模板来区分图像与其平移。相关滤波广泛应用于计算机视觉的各个领域。对象分类[14,7,26]可以被视为相关滤波任务,其中输出图像特征向量可以被视为滤波器核,其对最后一个多层感知器的权重矩阵执行相关滤波。对于单目标跟踪,其目的是在给定第一帧中的目标区域的情况下定位视频中的目标,相关滤波可以在将第一帧与其余帧进行比较中起作用。早期的跟踪工作[2,8]首先将图像变换到傅立叶域,在傅立叶域进行相关滤波Siamese FC [1]提出在空间域上直接学习相关层,其中Siamese FC比较从Siamese网络提取的两个图像特征。受人类视知觉机制的启发,我们认为基于视觉基础的语言执行过程可以类比为基于过滤器的视觉反应激活过程。具体地说,人们通常在一个特定的语境中理解句子的语义信息。10882我3DDd不HW公 司简介我ddDdGG全局的方式,并在头脑中形成一个关于句子描述的特征模板,然后基于该模板对图像进行快速的注意力匹配,其中响应值最高的显著区域被认为是目标匹配区域。为此,我们将指称表达理解问题表述为跨通道相关过滤过程,并采用单阶段联合优化范式进行求解3. 方法在本节中,我们将介绍我们提出的用于引用表达式理解的RCCF我们的目标是直接本地化引用表达式所描述的对象,而不需要生成建议。为此,我们将指称表达理解任务模拟为跨通道模板匹配问题。在RCCF中,我们首先定位由前描述的对象的中心点3.2. 表达式和图像编码器表达式编码器L(·)将表达式作为输入,并产生512-D特征向量。我们首先将表达式嵌入到一个1024维的向量中,然后是一个完整的连接层以将向量变换成512-D。然后,我们将转换后的特征馈送到Bi-LSTM中,以获得表达式特征LQ。The image encoder E(·) adopts the Deep Layer Aggre-gation (DLA) [31] architecture with deformable convolu-[4]。DLA是一个具有层次跳跃连接的图像分类网络在Centernet [36]之后,我们使用具有34层的修改后的DLA网络,其用可变形卷积代替跳过连接。因为指称表达可能包含属性、关系、空间位置等多种语义信息。为了更好地匹配表情,我们使用三个层次的视觉特征。如图2所示,我们从DLA中提取三个水平特征[E1,E2,E3]=E(I我我我通过对图像执行相关滤波的压缩具有语言引导的过滤器内核的特性。然后,我们应用一个回归模块来回归物体的大小和中心点偏移。相关热图中的峰值、回归的对象大小和中心点偏移一起形成目标边界框。3.1. 框架设Q表示一个查询句,I∈RH×W×3表示宽W、高H的象.我们的目标是找到表达式所描述的对象区域。焦油-得到对象区域由其中心点(xt,yt)和对象大小(wt,ht)表示。此外,为了恢复由输出步幅引起的离散化误差,我们预测中心点t的局部偏移(δxt,δyt)。综上所述,指称表达式理解可以被公式化为映射函数(xt,yt,wt,ht,δxt,δyt)=φ(Q,I)。如图2所示,我们提出的RCCF由三个模块组成,即,表达式和图像编码器、相关滤波以及大小和偏移回归模块。表情和图像编码器模块包括语言特征提取器L(·)和视觉特征ex-拖拉机E(·)。可执行特征表示为LQ网,它们被转换成统一的大小H×W,8d × 8d、4d × 4d和2d × 2d。的大小[E1,E2,E3]均为64×H×W。当计算在相关图C中,利用所有三个水平特征。在回归过程中,为了提高计算效率,只使用分辨率最高的E13.3. 跨模态相关滤波跨模态相关滤波的目的是定位目标框(x,y)的中心。 该方法包括三个步骤:语言引导的核生成、跨模态相关操作和语义映射融合。首先,我们利用三种不同的线性函数,从表达特征中产生三个滤波器k核[k1,k2,k3]=[M1(LQ),M2(LQ),M3(LQLQM1(·)、M2(·)和M3(·)三个完全连接的层作为跨通道映射函数从表情空间投射到视觉空间。每个核是一个64维特征向量,然后将其整形为64×1×1滤波器,用于后续操作。其次,将三个层次的视觉特征与对应的语言映射核函数[C1,C2,C3]=[k1<$E1,k2<$E2,k3<$E3],其中,k表示我我我分别为I。 则表达式特征LQ为通过交叉模态映射函数M(·)从语言域映射到视觉域。公司简介卷积运算第三,将三个相关图逐像素地平均并馈送到激活函数C=Sigmod(C1+C2+C3)中。C1、C2和C3的大小过滤模块将映射结果M(LQ)作为文件3高×宽C 都是Rd d。在C中得分最高的地点是ter(内核)与视觉特征图E1卷积,以及产生热图C∈RH×W,其中d是输出步幅。C的峰值指示由表达式描绘的对象(x,y)的中心点此外,尺寸和偏移回归模块预测对象尺寸(w,h)和中心点的局部偏移(δx,δy)。 接下来我们就目标物体的中心点。我们按照[15,36]训练中心点预测网络。对于地面实况中心点(x∈g,y∈g),我们计算低分辨率方程(x∈g,y∈ g)=(x∈ g,y∈ g)考虑到th。e输出步幅d。我们使用高斯克尔-详细介绍了这三个模块nelC xy= exp(x-xg)2+(y-yg)2-2σ2拍打地面-10883h我表情=站在两个人中间单词嵌入MLPBi-LSTM语言特性LQ相关滤波Expression EncoderFC层FC层3FC层213我3212我conv[宽度,高度]1我conv偏移输入图像编码器尺寸和偏移回归上采样下采样Conv相关滤波逐像素平均图2.拟议的区域合作框架框架概述。a)表达式和图像编码器:Bi-LSTM和DLA结构用于表达和视觉特征提取。b)跨模态相关滤波:所提取的语言特征被映射到三个不同的过滤器核。然后,我们进行相关滤波的三个层次的图像特征与相应的核,分别产生三个相关图。最后,我们通过逐像素平均来融合三个相关图。 中心点对应于融合热图的峰值。c)尺寸和偏移回归:仅基于最后一级图像特征来回归2维对象大小和中心点的局部偏移。通过结合估计的中心点、对象尺寸和局部偏移来获得目标对象区域。宽×高热图中的真值中心点C∈ [0,1] dd ,其中Cxy对于回归很重要,添加表达式功能是空间位置(x,y)处的C值,σt是对应于物体大小的标准偏差。训练目标是具有焦点丢失的惩罚减少的像素逻辑回归[16]:可能会破坏视觉fea中丰富的空间信息真的。 大小和偏移回归分支都包含一个3×3卷积层,后面是一个1×1卷积层。。Σα1−CΣ日志..ΣCxyΣα如果Cxy= 1在训练过程中使用L1损失函数。 对象大小损失L_size和局部偏移回归损失L_off被分解。罚款为:Lc=−(1−Cxy)β。CxyΣ否则.L.ˆ.G.Gg − w...G.Gg−x日志1−Cxysize=. Wx y.. +。Hxy....(二)L. 布雷格G.. 我的天(一)关闭=。xx y-δx +。y xgyg−δy。 、其中α和β是焦点损失的超参数。在我们的实验中,我们根据经验将α设为2,将β设为4。其中,wg和hg是目标框和δxg=(xg−xg)和δyg=(yg−yg)D d3.4. 尺寸和偏移回归如图2所示,该模块包含两个park分支。大小回归分支预测都是真实的。Wxgyg是W的值在空间位置(xg,yg),而H=xgyg, 和x,g,y,g的定义是类似的。请注意,公司简介公司 简介仅作用于中心点(xg,yg)的位置,所有其他W∈RdD 且H∈ R dd 当偏移量回归时,公司简介高×宽位置被忽略。分支估计<$x∈ R dd 且n∈ R dd- 是的回归的尺寸和偏移图逐像素地对应于估计的中心点热图C。这两个分支都将视觉特征E1作为输入。在不使用任何表达式特征的情况下进行回归。这是因为空间结构信息3.5. 损失与推理最终损失是三个损失项的加权和:损失=Lc+λsizeLsize+λoffLoff(3)10884其中我们将λ size设置为0.1,λ off设置为1。λsize相当于对象大小的归一化系数在推断期间,我们选择热图C中具有最高置信度得分的点(xt,yt)作为目标cen。这一点。目标尺寸和偏移量从W*、H* 、H*x和H*y中的对应位置获得为W* xt,yt,Hx,y,Hx,y和x,y的关系。上面的坐标表1.ImageNet上的参数、计算和top-1错误t t t t t t t目标框的左下角和右下角通过以下方式获得:验证用于转介expres的三个主干网络理解方法。(x+x)Wxt,yt-,y公司简介hhxt,yt-我知道4.2.实现细节t xt,y t2tWxt,yt2H(四)我们按照Centernet设置超参数[36]。我们xt+ xx,y +的xt,yt,yt+ x,y+xt,yt)。RCCF方法对这些超参数也是鲁棒的。所有不t2不t2实验在Titan Xp GPU和CUDA上进行4. 实验在本节中,我们首先介绍了实验设置和实现细节,然后在四个公共基准上评估我们的方法,并与最先进的方法进行比较在此基础上,通过一系列烧蚀实验,详细分析了框架中各个组件的有效性。最后,我们进行了效率分析,其次是定性结果分析。4.1. 实验环境数据集。实验在四个常见的指称表达式基准上进行和评估,包括RefClef [11],RefCOCO [11],RefCOCO+[11]和Ref-COCOg [20]。RefClef也称为Refitgame,是ImageCLEF数据集的子集。其他三个数据集都是建立在MS COCO图像上的。RefCOCO和Re- fCOCO+是在一个互动游戏中收集的,其中的指称表达往往是简短的短语。与RefCOCO相比,RefCOCO+禁止使用绝对方位词,更注重外观描述。为了生成更长的表达式,RefCOCOg在非交互式设置中收集。RefClef有130,363 张 图 片 , 包 含 19 , 997 张 图 片 中 的 99 , 296 个RefCOCO有142210个表达式,用于19994个im中的50000个年龄,RefCOCO+有141565个表达式,49856个ob-在19992张图片中,RefCOCOg有104560张图片,对26711幅图像中的54822个物体进行了分类RefCOCO和RefCOCO+都分为四个子集:'train','val','testA'和'testB'。“测试A”和“测试B”的重点不同。一个图像在“testA”中包含多个人,在“testB”中包含多个对象。对于RefCOCOg,我们遵循[32]中的拆分。为了公平比较,我们使用[35]为RefClef发布的拆分。评估指标。根据先前工作中的检测建议设置,我们使用Prec@0.5来评估我们的方法,其中如果预测区域与地面实况边界框的交集大于0,则预测区域是正确的。五、9.0采用Intel Xeon CPUE5-2680v4@2.4G。输入图像的分辨率为512×512,我们将输出步幅设置为4。因此,输出分辨率为128×128。我们提出的模型是用Adam训练的[12]。我们在8个GPU上训练,批量大 小 为 128 , 持 续 80 个 epoch , 学 习 率 为 5e-4 , 在60epoch时减少10,在70epoch时再次减少我们使用随机移位和随机缩放作为数据扩充。在推理过程中没有增广。视觉编码器使用COCO的训练图像(不包括RefCOCO系列数据集的val/test集)上预训练的权重进行对于消融研究,我们还对使用ImageNet [5]预训练初始化的视觉编码器进行了方法精密度@0.5(%)SCRC [10]17.93[25]第二十五话26.93MCB [3]26.54[9]第九章28.33VC [35]31.13[19]第十九话31.85MNN [3]32.21CITE [23]34.13[第30话]34.70我们63.79表2.与RefClef上的最新技术进行比较4.3. 与最新技术我们比较RCCF的国家的最先进的方法在四个公共基准。Ref-Clef数据集的比较结果如表2所示,而其他三个数据集的结果如表3所示。这些方法使用16层VGGNet [26]或101层ResNet [7]作为图像编码器,而我们提出的RCCF采用DLA-34 [31]来编码图像。原因是VGG 16和ResNet-101不适合密钥-Params(百万)FLOPs(十亿)Top-1错误(%)VGG1613815.328.07ResNet-10144.57.621.7510885我点估计类似于根据[15,6]的任务。为了公平比较,我们在表1中从三个方面将这两个骨干网与DLA-34进行比较。我们可以看到DLA-34具有最小的参数和计算(FLOPs),并且它在ImageNet[5]上的图像分类性能比ResNet-101差。因此,我们的RCCF的性能增益来自框架本身,而不是更多的参数或更复杂的骨干网络。我们使用的基线主要使用Faster-Rcnn [24],在对象检测数据集中进行预训练,即,COCO和Visual Genome的方法,首先生成对象建议,然后将表达式与所有对象建议进行匹配。参考Clef。RefClef中的结果如表2所示。与RefClef中最先进的方法相比,我们的方法将最先进的方法从34.70%提高到63.79%,几乎是精度的两倍。RefCOCO、RefCOCO+和RefCOCOg。 参考表3,我们的方法在RefCOCO和RefCOCO+上的所有评估集中优于现有方法,并且在RefCOCOg上实现了与最先进方法相当的性能我们的结果略低于RefCOCOg数据集中的MAttNet [32]。MAt-tNet的性能增益部分来自额外的监督,如区域建议的属性和类标签,而我们的方法只利用语言图像对。此外,MAttNet使用更复杂的主干ResNet-101,而我们只使用DLA-34。总之,我们的方法可以在所有四个数据集上实现相当好的性能。此外,两阶段方法在三个RefCOCO系列数 据 集 上 实 现 了 比 RefClef 高 得 多 的 精 度 。 由 于RefCOCO系列的三个数据集都是COCO的子集,所以两阶段方法可以训练出非常精确的基于检测器的COCO对象检测数据集,而RefClef没有这么大的对应对象检测数据集。因此,传统的两阶段方法严重依赖于对象检测器的性能和对象检测数据集,而我们的新RCCF框架避免了显式对象检测阶段,直接处理引用表达式问题。4.4. 消融研究在本节中,我们在RefCOCO数据集上从五个不同的方面进行了消融研究,以分析RCCF中建议的组件的合理性和有效性结果示于表4中。融合战略。在前两行中,我们报告了输出相关图的两种不同融合方式的结果。在第一种方式中,我们通过逐像素取最大值来融合相关性。为了实现它,我们将三个输出相关图连接起来,并在所有通道上获得逐像素的最大值在第二种方式中,我们通过连接三个相关图来生成输出热图,然后是1×1卷积层。结果可以在第一排和第二排看到表4中的行我们得出结论,最大融合和级联都不如第10行中所示的平均融合好。过滤器内核设置这里我们对语言过滤器(内核)的不同变体3×3过滤器(第3行)是将语言过滤器通道扩展9倍,并将其重塑为3×3的方法。然后,我们使用3×3内核执行相关滤波结果与使用1 × 1内核的“Ours”几乎相同考虑到额外的计算成本,我们选择使用1×1内核。在第4行中,我们只从语言特征,并对具有相同核的三级视觉特征进行相关滤波。在这种情况下,精度下降了约3个点。这表明语言核的多样性对于匹配不同层次的视觉特征是重要单级视觉特征。在第5行中,我们仅基于具有单语言内核的视觉特征E1的最后一级执行相关过滤性能比“我们的”下降了很多,但只比第4行的单语言过滤器,多级视觉功能设置下降了一点点。因此,可以得出结论,不同的语言过滤器是敏感的不同层次的视觉特征。引导回归。为了验证语言过滤器过滤的特征是否适合回归,我们将三个映射的级联特征馈送到两个回归分支中的两个卷积层中。如第6行所示,性能下降了很多,大约6分。因此,在我们的RCCF框架中,使用语言引导的特征来回归对象大小和偏移不是一个好的选择。表情图像编码器。表4的第7行到第9行示出了我们的具有各种编码器的方法。在第7行中,为了探索视觉编码器预训练模型对性能的影响,我们使用ImageNet预训练而不是COCO对象检测预训练来初始化DLA-34。结果下降了约2个点,但也取得了与最先进方法相当的结果。实验结果表明,该方法在没有目标检测先验知识的情况下也能很好地实现目标检测.在第8行中,我们使用GloVe [22]作为单词嵌入。在性能上几乎没有变化,所以我们的方法是鲁棒的两种不同的语言嵌入。在第9行中,我们将可视编码器替换为10886RefCOCORefCOCO+参考COCOg方法视觉编码器种皮testB种皮testB测试时间(ms)1MMI [20]VGG1664.9054.5154.0342.81--2[21]第二十一话VGG1658.6056.40--49.50-3CG [19]VGG1667.9455.1857.0543.33--4[第18话]VGG1672.0857.2957.9746.20--5[9]第九章VGG1671.0365.7754.3247.76--6[第33话]VGG1667.6455.1655.8143.43--7[34]第34话:我的世界VGG1672.9462.9858.6847.68-12358[34]第三十四话:VGG1672.8863.4360.4348.74-13329VC[35]VGG1673.3367.4458.4053.18-38310[37]第三十七话VGG1675.3165.5261.3450.86--11LGRANs [27]VGG1676.666.464.053.4--12DGA [29]VGG1678.4265.5369.0751.9963.2833013[34]第三十四话:ResNet-10173.7164.9660.7448.8059.63-14[34]第三十四话:ResNet-10173.1064.8560.0449.5659.21-15MAttNet [32]ResNet-10180.4369.2870.2656.0067.0131416我们DLA-3481.0671.8570.3556.3265.7325表3.与RefCOCO、RefCOCO+和RefCOCOg的最新方法进行比较(a) “the(b) “man's(c) “(f) “space鸡肉卷在它盒子”在右手边可见”和男人的背”火车车厢(g) “Baseball(h) “(j)蝙蝠”左伞左边的白发”“戴眼镜的女孩”图3. RefCOCO系列数据集的可视化结果。第一行(a-f)显示了我们的方法与最先进的方法MAttNet的比较。第二行显示了我们的方法的一些代表性失败案例。红色的边界框表示我们的方法的预测,蓝色的边界框表示MAttNet的预测,绿色的边界框是相应的地面实况。一个更深的网络沙漏-104 [15]在一个单一的水平设置。与第5行相比,这个设置只是改进了一点,但是在推理和训练过程中,这个设置比我们使用DLA-34训练需要100多个小时,推理速度要低得多。4.5. 效率分析推理。如图1所示,我们的模型运行在单个TitanXp GPU上每幅图像25毫秒,是唯一的实时表达方法,Sion区。相比之下,我们的方法比最先进的两阶段方法MAttNet快12倍,后者需要花费314 ms的图像。进一步比较,MAttNet第一级和第二级的每幅图像推理时间分别为262ms和52ms任何一个阶段的成本都比我们的方法的总推理时间长。时序和精度的更多比较见图1。训练我们的方法训练起来也很快。 在RefCOCO上使用DLA-34进行的培训在我们的同步8 GPU实施中需要35小时(每128个图像1.78秒,10887表4.RefCOCO数据集上的消融实验“guy“right语言对小批量)。4.6. 定性结果分析相关图。图4显示了对象中心的相关图。我们可以看到,给定同一图像的不同表达式,相关图响应于“guy不同的地点另外,可以看出,在靠近物体中心的区域中,响应非常高。“the“tall由表达式表示。此外,其他地点的反应也很小。实验结果表明,该模型能够很好地匹配表情特征和视觉特征.与最先进的技术相比。在图3的第一行中,我们将我们的方法与最先进的方法MAttNet进行了比较。该方法能够在语言的指导下准确定位目标对象,即使目标对象是普通对象检测器难以检测到的例如,尽管所描述的对象实验证明,该方法能够很好地匹配表情和视觉特征。虽然MAttNet依赖于对象检测器,但如果对象类别超出检测器类别集的范围,MAttNet将失败故障案例分析。图3的第二行显示了一些可能的故障情况。如图3(g)所示,我们找到了正确的对象,但未能准确定位边界框。另一个例子如图3(h)所示,目标对象被严重遮挡,模型无法捕获足够的外观信息。此外,可能发生地面实况误差。例如,在图3(j)中,存在由表达式描述的多于一个目标对象。一些失败的情况可能是由于目标对象位于背景中,并且难以找到表达式所描述的外观特征。此外,当表达式非常复杂和长时,我们的模型可能无法很好地理解它,例如图3(l)中的情况。我们把如何解决这些失败案例作为有趣的未来工作。图4.视觉接地结果和相关图的可视化在左图中,红色边界框表示我们的方法的预测,而绿色边界框表示地面实况。右图显示了对象中心点(由蓝色箭头指示)的相应预测相关图。5. 结论和未来工作在本文中,我们提出了一个实时和高性能的框架,引用表达式压缩。完全不同于以前的两阶段方法,我们提出的RCCF直接定位对象的表达式通过预测对象中心通过计算的参考和图像之间的相关性映射。RCCF能够以实时速度在四个指称表达数据集中实现最先进的性能。对于未来的工作,一方面,我们计划探索如何从表情和图像中捕获更多的上下文信息,从而更好地理解表情。另一方面,指称表达式的标注比较困难,因此我们想探索如何利用其他容易标注的数据集类型来训练我们的方法,如目标检测、图像字幕等。承认这一点工作是部分由国家重点发展计划(资助2016YFB1001004),商汤科技有限公司支持。国家自然科学基金(61876177、61976250)、北京市自然科学基金(L182013、4202034)、浙江省重点实验室(No. 2019KD0AB04)和中央大学基础研究基金。RefCOCO方法种皮testB时间(ms)1最大融合77.1669.15252级联79.8569.832633x3滤波器80.8372.01264单一语言过滤器77.6668.87245单级视觉特征77.1468.50236数据引导回归75.1366.16247ImageNet预训练78.9366.73258手套表情编码器81.0571.17259沙漏型图像编码器78.1269.388010我们81.0671.852510888引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV,2016年。[2] David S Bolme,J Ross Beveridge,Bruce A Draper,andYui Man Lui.使用自适应相关滤波器的视觉对象跟踪。CVPR,2010。[3] Kan Chen , Rama Kovvuri , Jiyang Gao , and RamNevatia. 多模态 空间回归 与语义上下 文短语接 地。InICMR,2017.[4] Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,GuodongZhang,Han Hu,and Yichen Wei.可变形卷积网络。InICCV,2017.[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[6] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:使用关键点三元组的对象检测。arXiv预印本arXiv:1904.08189,2019。[7] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[8] JoaoFHenriques , RuiCaseiro , PedroMartins ,andJorgeBatista. 用 核 相 关 滤 波 器 进 行 高 速 跟 踪 。TPAMI,2014年。[9] Ronghang Hu , Marcus Rohrbach , Jacob Andreas ,Trevor Darrell,and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR,2017年。[10] Ronghang Hu , Huazhe Xu , Marcus Rohrbach , JiashiFeng,Kate Saenko,and Trevor Darrell.自然语言对象检索。在CVPR,2016年。[11] Sahar Kazemzadeh , Vicente Ordonez , Mark Matten ,and Tamara Berg.推荐游戏:在自然景物的照相照片中提到物体的。在EMNLP,2014年。[12] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[13] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。IJCV,2017年。[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS,2012年。[15] 黑律和贾登。Cornernet:将对象检测为成对的关键点。在ECCV,2018。[16] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密 集 目 标 检 测 的 焦面损失。InICCV,2017.[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。2014年,在ECCV10889[18] Jingyu Liu,Liang Wang,Ming-Hsuan Yang.通过属性引用表达式生成和理解。InICCV,2017.[19] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在CVPR,2017年。[20] Junhua Mao , Jonathan Huang , Alexander Toshev ,Oana Camburu,Alan L Yuille,and Kevin Murphy.无歧义对象描述的生成和理解。在CVPR,2016年。[21] Varun K Nagaraja,Vlad I Morariu,and Larry S Davis.在对象之间建立上下文关系,以便理解指称表达.在ECCV,2016年。[22] 杰弗里·潘宁顿,理查德·索彻,克里斯托弗·曼宁.Glove:单词表示的全局向量。在EMNLP,2014年。[23] Bryan A Plummer、Paige Kordas、M Hadi Kiapour、ShuaiZheng 、RobinsonPiramuthu和SvetlanaLazebnik。条件图像-文本嵌入网络。在ECCV,2018。[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。2015年,在NIPS[25] Anna Rohrbach 、 Marcus Rohrbach 、 Ronghang Hu 、Trevor Darrell和Bernt Schiele。通过重构的文本短语在图像中的基础。在ECCV,2016年。[26] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。[27] Peng Wang , Qi Wu , Jiewei Cao , Chunhua Shen ,Lianli Gao,and Anton van den Hengel.邻里守望:通过语言引导的图形注意网络来理解参考表达。在CVPR,2019年。[28] 杨思北,李冠斌,易州余。基于指称表达的跨模态关系推理。在CVPR,2019年。[29] 杨思北,李冠斌,易州余。参考表达理解的动态图形注意。在ICCV,2019年。[30] Raymond Yeh , Jinjun Xiong , Wen-Mei Hwu , MinhDo,and Alexander Schwing.可解释的和全局最优的预测文本接地使用图像的概念。在NIPS,2017年。[31] 于小鱼,王德全,埃文·谢尔哈默,和特雷弗·达雷尔。深层聚合。在CVPR,2018年。[32] Licheng Yu,Zhe Lin,Xiaohui Shen,Jimei Yang,XinLu,Mohit Bansal,and Tamara L Berg. Mattnet:指涉表达理解的模块化注意网络。在CVPR,2018年。[33] Licheng Yu,Patrick Poirson,Shan Yang,Alexander CBerg,and Tamara L Berg.参照表
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功