没有合适的资源?快使用搜索试试~ 我知道了~
一阶段视觉基础:LBYL-Net利用地标特征定位目标对象的方法
16888先看后跳:学习地标特征,用于一阶段视觉基础黄彬彬1连东泽1罗伟新1高盛华<$1,21上海科技大学2上海市智能视觉与成像{huangbb,liandz,luowx,gaoshh}@ shanghaitech.edu.cn摘要一个LBYLLBYL-Net背后的思想是直观和直接的:我们遵循语言的描述,基于目标对象与“地标”的相对空间关系来定位目标对象,该空间关系由一些空间位置词和一些关于对象的描述词表征。 核心 LBYL-Net是一个地标特征卷积模块,它在语言描述的指导下,沿不同方向传输视觉特征。相反,这样的模块编码当前对象与其上下文之间的相对空间位置关系。然后将地标特征卷积模块中的上下文信息与目标的视觉特征相结合为了使这个地标特征卷积轻量级,我们引入了一个动态规划明算法(称为动态最大池),具有低复杂度提取地标特征。由于地标特征卷积模块,我们模仿人类的行为“三思而后行”,设计了大量的实验表明,我们的方法在四个接地数据集的有效性。具体来说,我们的LBYL-Net在ReferitGame上的表现优于所有最先进的两阶段和一阶段在RefCOCO和RefCOCO+上,我们的LBYL-Net也取得了与现有一阶段方法相当甚至更好 的 结 果 。 代 码 可 在 https://github.com/svip-lab/LBYLNet上获得。1. 介绍人类通常通过描述它们与其他实体的关系来指代图像中的对象,例如,“桌 上 的 笔 记 本 电 脑 ” , 了 解他 们 的 关 系 是 至 关 重 要 的 , 以 理 解 -†通讯作者查询表达式:右边穿棕色衣服的人图1.说明LBYL-Net如何使用上下文线索。在左图中,目标位置(绿色)从地标(红色)感知信息以定位自身。在这种情况下,地标注意到属性棕色与其他人不同。右图显示了我们的预测结果(蓝色框)和地面实况(黄色框)。理解指称表达式。视觉基础旨在定位指称表达所描述的实体,本质上需要上下文信息来为目标提供基础。通过考虑对象的关系,最近的一些研究已经取得了有希望的结果[44,24,9,43]。特别地,这些方法通常利用两阶段范例,其中它们首先提取区域提议作为候选,然后将区域表达对排序作为度量学习的方式。虽然这些两阶段方法是有效的,但存在以下缺陷:(i)两阶段带来的时间复杂度,这阻碍了这些方法的实时性。(ii)由于仅考虑预定义类别中的对象,因此可能无法充分利用整个场景中的上下文线索。受一阶段检测[28,19]的成功的启发,基于一阶段的视觉基础已经获得了极大的兴趣,其中简化了流水线,并且通过同时检测和匹配范例[39,29]加速了推理。然而,这些基于检测的单阶段方法仍然单独地对网格特征进行定位。整个场景中的上下文信息,特别是对象之间的关系,16889还没有彻底调查,使他们不如他们的两个阶段的同行。从这个角度来看,期望能够在一阶段视觉基础中进行关系建模,因为对象需要感知语言所提到的关系实体以定位其自身,例如通过引入地标特征和地标特征卷积的概念,我们使网格特征能够捕获丰富的上下文线索以更好地定位。首先,在我们的现实生活中,我们通常通过一个容易被注意到的建筑物来判断我们的位置或其他建筑物的位置,这就是所谓的地标。类似地,在视觉基础的图像域中,地标可以被认为是有助于对象定位的那些位置。图1显示了给定查询语言的图像中地标的可视化。这些地标可能落在背景上,其他物体或物体本身,只要它们具有有用的语义线索。该网络可以提取地标特征,其中包含来自这些地标的全局上下文信息为了充分整合这些上下文信息,以提高定位,这些地标功能propa- gated到目标对象从不同的方向,字符-accrusive相对位置的一个有效的动态规划-明算法,称为动态最大池。通过用标准卷积操作聚集地标特征,网格特征配备有(i)全局感受野(ii)方向感知。我们称整个过程为地标特征卷积。考虑到长距离上下文,我们提出了一个新的一阶段视觉接地框架。我们的网络首先应用特征金字塔网络(FPN)[15]从不同尺度提取对象的视觉特征,其有效性已被证明可以更好地定位对象。然后采用界标特征卷积提取不同方位的对象的上下文信息,以更好地表征表达式所提及的对象的关系。由于我们模仿了人类在视觉基础上的我们将我们的主要贡献总结如下:• 本文提出了一种新的基于一级视觉基础的LBYL-Net,它结合了描述中提到的目标的视觉特征和不同目标之间空间关系的界标特征,用于目标定位;• 提出了一种具有全局感受野的地标特征卷积方法,该方法不引入额外的参数和复杂度。我们展示了它• 大量的实验表明,我们的LBYL-Net上的四个接地数据集的有效性和特别是,我们的方法实现了国家的最先进的性能上ReferitGame。2. 相关工作两阶段视觉接地。可能是因为有证据表明,感兴趣区域可以提供更好的个体定位,并易于建立它们的关系联系,两阶段已经成为一段时间以来事实上的方法。通常,不同的方法在它们如何表示上下文方面是不同的。Maoet al. [23]和Huet al. [10]使用整个图像作为全局上下文,而Yuet al. [44]直接从附近对象中汇集视觉特征作为建模视觉差异的一种方式,表明关注对象之间的关系可以获得更好的结果。此外,[24,9]中的上下文被视为未标注对象的弱监督信号,然后采用多实例学习[7]来最大化所有对象对的联合似然。然而,上述建模可能将上下文对象的数量过度简化为固定大小,例如,一个对象作为上下文信息。为此,Zhang等人。 [47]在所有对象上生成注意力地图作为上下文信息,以使用变分贝叶斯框架近似组合上下文配置为了更详细的视觉语言对齐,注意力机制也被广泛采用,以分割语言以匹配目标或上下文对象[5,43,48]。与他们不同的是,我们认为语境可以在整个场景中任意呈现,并将它们完全整合到一个单一的框架中。一级视觉接地。在使用单级目标检测器之前,已经尝试了几种方法,从整个图像中回归边界框。然而,这些框架往往遭受较低的召回对象,使他们不如两阶段的同行。一些基于注意力的技术被用来增强目标的局部特征[8]。此外,Yeh等人。 [40]使用子窗口搜索来找到最小化能量函数的位置。受突出的一级检测器(例如,,YOLO[28],SSD [19]),许多最近的一阶段方法将建议视为特征图中的网格,并直接从负责检测的网格特征回归边界框[39,29]。虽然与尝试直接从整个图像中回归对象相比实现了大幅度的改进,但这种进步可能归因于网格上的鲁棒局部特征另一种改进单阶段视觉基础的方法是应用复杂的语言建模,例如将较长的短语分解为多个部分[38]。在这项工作中,我们不使用复杂的语言建模技术。我们表明,通过简单地考虑场景内的上下文,我们的网络可以显示出有竞争力的结果。168903. 地标特征卷积我们首先总结了最常见的卷积,我们将其归类为基于点的采样策略家族,并讨论了它们的关系,优点和局限性。之后,我们介绍了我们提出的基于区域的采样策略,其次是地标特征卷积以及它的制定和实施。3.1. 基于点的采样vv3×3到5×5。然而,这大大增加了参数的数量,并带来了过度拟合的风险为此,将3×3内核的采样窗口扩展到5×5网格窗口,从而产生扩展卷积(在这种情况下,dilation为2)[41],如图2(b)所示。通过在不引入额外参数的情况下扩大感受野,扩张卷积已成为聚合多尺度上下文的事实上的技术,并因此推进了各种研究[2,3]。然而,由于采样位置的稀疏拓扑,扩张卷积可能会受到网格伪影的影响[42,35]。在视觉背景中,这可能会阻碍对象的关系建模,因为它们的空间位置可以是任意的。变形卷积由于采样位置的固定拓扑结构,上述CNN固有地限于对大型未知变换进行建模[4]。可变形卷积通过增加学习功能来缓解这个问题通过额外的卷积,可以将2D偏移量设置为常规网格(a) 标准转换(b) 扩张Conv.(c) 可变形转换器层[4]。 也就是说,变换N(v)={v+o:N(v)={v+o+ n(v):n(v)∈R},其中n(v)图2.不同基于点的卷积的图形视图给定具有节点特征xv∈Rc的输入特征图X={xv:v∈V},基于点的卷积通过以下方式学习表示向量yv:yv=SUM ( {W ( u , v ) ·xu : <$u∈N ( v )<${v}}),(一)其中v∈V是节点的位置,N(v)是节点v的邻域,W(u,v)表示节点u和节点v的空间关系。在图像特征的背景在地图中,节点与位置相同,因此我们可以互换使用这两 种符 号。不 同的 卷积 具有不 同的 采样策 略 N(v)。也就是说,我们如何对卷积的节点进行采样,以表示输出向量yv。标准卷积在3×3卷积核中,使用规则网格窗口R,它可以表示为offest列表。然后采样的邻居N(v),或者我们称之为感受野,等于{v+o:o∈R},如图2(a)所示值得注意的是,参数W不是在采样位置之间共享,使得可以明确地捕获节点v与其邻域节点u∈ N(v)之间此属性使卷积能够检测有意义的模式,如线段和角。 从理论上讲,感受野的增长是卷积层堆栈,允许深度CNN执行各种高级语义任务,例如对象识别,面部检测和语义分割。然而,有效的感受野通常占据整个理论感受野的一小部分,并收敛到高斯,使得识别大型物体和远程建模仍然具有挑战性[22]。扩张卷积为了对长距离上下文进行建模,一种解决方案是增加采样点的数量以扩大感受野,例如将核大小从是一个线性偏移。然后,通过双线性插值从变换后的N(v)中采样节点特征图2(c)中示出了该扩展。虽然可变形卷积通过将内核变形为对象内几何形状而在识别对象方面表现出色,但我们几乎不知道这种变形可以概括为对象间关系的模型,特别是在视觉基础的上下文中。一种可能性是,当跨非常长的距离对关系进行建模时,它可能失败,因为预期所学习的偏移量会受到其产生者(即标准CNN)的接收场的约束。图卷积通过考虑具有边缘的任何一对点,可以在节点v上应用图形卷积以具有全局感受野。例如,非本地模块[34]更新yv,yv=SUM{f(xv,xu)·W·xu:<$u∈V},(2)其中f(xv,xu)是xv,xu之间的亲和度,W是所有位置共享的。由于W是共享的,表示空间关系的能力依赖于f(xv,xu),这要求V具有合适的位置嵌入。然而,如何有效地表示相对位置嵌入仍然是一个不清楚的问题.3.2. 区域抽样为了克服基于点卷积的网格伪影和感受野限制,我们提出了一种基于区域的卷积采样策略也就是说,我们在节点v上设置一些轴,将整个特征映射分成几个子区域,并通过聚合每个区域的表示来更新v形式上,我们更新节点v的表示,yv=SUM({W(v,G)·hG:<$G∈Pv(V)}),(3)16891(a) P=2。(b) P=4。(c) P=8。算法1:动态最大池化输入:输入X={xi,j}M× N,其中xi,j∈Rc。输出:输出H ={hi,j}M× N,其中hi,j ∈ Rc。1:H← X2:对于i∈[1,M],3:对于j∈[1,N],4:hi,j←MAX({hi,j−1,hi−1,j})5:结束图3.我们基于区域的卷积的一些变体。P=k表示我们将整个特征图V划分为k个组,即P(V)=k。为了清楚起见,仅突出显示一个组(G)。其中,Pv表示基于节点v的输入特征图V上的分区函数P,并且G是与节点v共享类似空间关系的一组节点,并且我们称之为地标特征。如图3所示,存在多种分区P。对于图3(a)中的P= 2,节点根据垂直轴分成两组,使得一组在节点v的左侧,另一组在右侧。通过参数化两个组不同,卷积可以专门检测水平空间关系,因此有助于地面目标。也就是说,给定表达式为了提取地标特征hG,我们应用了一个简单的置换不变函数,与那些6:结束锻造7:返回H对于图3(b)中用算法1中的几行突出显示的组,计算HG={hv:hv∈V},称为动态最大池化。对于其他组或部分P的计算可以被直接实现。我们也使用CUDA加速它,因为每个通道都可以并行运行,这将我们的算法与在特征图上运行RNN的算法区分开来[1,18]。总的来说,我们的算法相对于节点的数量具有线性的时空复杂度,即Θ(k<$Vθ),其中k表示分区的数量虽然具有顺序操作,但我们的实现演示了通过模拟,它优于图卷积层,例如非局部层[34]或自注意层[31],其时空复杂度为Θ(θVθ2),如图4所示。在图分类中获得整个图我们使用最大池作为读出功能,下面的地标(即,最明显的位置)的概念。为了使地标特征更具描述性和空间感知性,我们还可以使用MLP或CNN来嵌入hG。我们发现一个额外的单层MLP是80006000400020001209060300足够了。hG得到如下:0490081001210016900 22500490081001210016900 22500hG=MAX({ ReLU(WG·xu):u∈G}),(4)其中,W_G是在不同组之间不由于W-G对每个特殊群体是唯一的,所以我们不需要一次位置嵌入选择合适的分区P。在本文中,我们经验性地采用P=4来建模最常见的关系(即,“左、右、上、下”),如图3(b)所示。由于我们的模块用地标特征{hG,G∈ P(V)}更新节点v的表示,我们称之为地标特征卷积。实施细节。我们密切关注我们提出的模块的效率。最大的瓶颈是我们需要执行k次Max Pooling来更新{yv:v∈V},其中P=k。 注意到地标性特征的相邻节点有重叠的子区域,计算-可以通过动态规划来减少问题。假设输入是嵌入的特征图XG,我们展示了如何图4.实时模拟内存使用和运行时间。与非局部层[34]不同,我们的LFC是线性时空复杂度w.r.t. 但仍然享有全球的接受范围。4. LBYL-Net基于地标特征卷积,我们提出了LBYL-Net。LBYL-Net由四个部分组成:视觉和语言编码器,融合模块,地标特征卷积模块和定位模块,下面分别介绍。视觉和语言编码器。在图5中,LBYL-Net首先通过主干网络转发给定的图像,在主干网络中,我们使用基于DarkNet-53的特征金字塔网络(FPN)[15]从不同尺度提取特征。我们选择FPN的P3到P5层的输出作为视觉特征v∈Rcd×hd×wd,其中d=3,4,5显示第d层。 在此之后,我们使用1×1convo-GvvGvG我们非本地内存(MB)我们非本地时间(ms)16892γβFPN3等式64等式65等式6Conv布吕(x,y,w,h,)界标特征语言特征L布吕界标特征卷积模块定位模块“the man on中”LSTM布吕视觉和语言编码器融合模块逐元素加法卷积后特征广播操作数据流身份图5.我们提出的LBYL-Net由四个组件组成:视觉和语言编码器,融合模块,地标特征卷积模块和定位模块。lution inv以获得具有相同通道cv的特征图,并将坐标特征与8维位置嵌入向量连接起来,这与先前的工作[39,38]相同,使得我们生成融合的特征图Xd∈R(c)×hd×wd,其中c=cv+ 8.对于语言编码器,我们首先对每个单词进行该方法首先对给定的语言表达式进行one-hot嵌入,将其 映 射 到 cl 维 , 然 后 利 用 Bi-LSTM 提 取 语 言 特 征L∈Rcl,对整个表达式进行编码。我们还使用BERT [6]代替LSTM来增强语言表示,遵循[39,38]。融合模块。给定生成的语言特征,我们的目标是获得视觉信息在空间关系建模之前,我们观察到FPN会损害性能。FPN可能会根据对象的尺度将对象分布到不同的特征图中,从而难以建模跨尺度关系。例如,给定关系“在床上绘画”,如果它们被分配给两个单独的特征图,则“绘画”几乎没有机会感知到“床”。简单地将特征图求和到中间大小可以解决这个问题,与BFPN [25]相同的技术特别是,我们通过最大下采样和双线性上采样来实现这一点,最后:1天=5天以语言为条件因此,我们通过一个电影模块[26]和一个1×1Y=3D=3Yd.(七)卷积Film在L语言的指导下对视觉特征Xd进行仿射变换.具体操作如下:γd=MLPd(L),βd= MLPd(L),(5)和Yd=ReLU( Conv( ReLU(γd<$Xd<$βd),(6)其中,MLPd和MLPd是两个单层MLP,其映射地标特征卷积模块和定位module. 为了考虑地标特征,我们在特征图Y中应用地标特征卷积,其中我们选择P= 4(如图3(b)所示)。通过卷积(dynamic max pooling)和卷积,来自四个子区域的图像被聚合,产生方向感知特征图。然后,我们将特征分布到不同的FPN级别,以解决一般目标检测中的尺度问题。最后, 我们把它们输入本地化模块,在这里我们采用了一个基于锚点的盒子回归头,γ β语言向量L到系数γd和βd。然后,我们将这些系数应用于来自不同FPN级别的视觉特征Xd,然后进行卷积和ReLU操作,产生输出Yd∈R(c)×hd×wd,其中,R1和R2表示广播元素的乘法和加法,re1。在此之后,Yd中每个位置的特征可能自适应地负责不同的细粒度属性,如颜色,位置,以语言为条件的类别[26]。YOLOv3 作 为探 测 头。 LBYL- Net 的 最终 输 出具 有KA×hd×wd的维度,其中A= 3是锚点的数量,K=5(tx,ty,tw,th,s),其中前四个值表示相对于预定义锚的边界框偏移,最后一个是指示在该位置是否存在对象的置信度分数在[28]之后,只有具有地面实况边界框的最大IoU的锚点被分配为正样本;其余的是负样本。因此16893方法视觉编码器语言编码器RefCOCORefCOCO+参考COCOg时间(毫秒)val testA testBval testA testBVal两阶段法MMI [23]VGG-16--64.954.51-54.0342.8--[24]第二十四话VGG-16--58.656.4---49.5-[9]第九章VGG-16LSTM-71.0365.77-54.3247.76--VC [47]VGG-16LSTM-73.3367.44-50.8658.03-[第48话]VGG-16LSTM-75.3165.52-61.3450.86--LGRAN [33]VGG-16LSTM-76.666.4-64.0053.4061.78-SLR [45]ResNet-101LSTM69.4873.7164.9655.7160.7448.80--MAttNet [43]ResNet-101LSTM76.4080.4369.2864.9370.2656.00-320DGA [37]ResNet-101LSTM-78.4265.53-69.0751.99-341[20]第二十话ResNet-101LSTM78.3583.1471.3268.0973.6558.0368.67-NMTree [17]ResNet-101TreeLSTM [30]76.4181.2170.0966.4672.0257.5264.62-一步法RCCF [14]DLA-34LSTM-81.0671.85-70.3556.3265.7325[39]第三十九话暗网-53伯特72.0574.3568.556.8160.2349.656.1223SQC-基础[38]暗网-53伯特76.5978.2273.2563.2366.6455.5360.9626SQC-大型[38]暗网-53伯特77.6380.4572.363.5968.3656.8163.1236基线[39]暗网-53LSTM72.3673.8665.9357.9863.9748.3147.2524LBYL-Netw/o LFC暗网-53LSTM77.4380.7570.6864.8470.2454.7156.1725LBYL-Net暗网-53LSTM78.7682.1871.9166.6773.2156.2358.7228LBYL-Net暗网-53伯特79.6782.9174.1568.6473.3859.4962.7030†表示采用[38]的结果表1. RefCOCO、RefCOCO+、RefCOCOg的性能比较。最佳两阶段表现用下划线突出,最佳一阶段表现用粗体突出。方法视觉编码器语言编码器Pr@0.5(%)时间(毫秒)两阶段法[9]第九章VGG-16LSTM28.33-VC [47]VGG-16LSTM31.13-相似性网络[32]ResNet-101-34.54184CITE [27]ResNet-101-35.07196MAttNet [43]ResNet-101LSTM29.04320[46]第四十六话ResNet-101LSTM63.00-一步法[29]第二十九话ResNet-50LSTM58.6325RCCF [14]DLA-34LSTM63.7925[39]第三十九话暗网-53LSTM58.7621[39]第三十九话暗网-53伯特59.3038SQC-基础[38]暗网-53伯特64.3326SQC-大型[38]暗网-53伯特64.6036基线[39]暗网-53LSTM59.2824LBYL-Netw/o LFC暗网-53LSTM62.5925LBYL-Net暗网-53LSTM65.4828LBYL-Net暗网-53伯特67.4730表2. 在ReferitGame上的性能比较[11]。因为我们只想找到一个句子所指的对象。对于排名损失,我们最大化正样本和其中β是平衡两项的超参数,我们根据经验设置β=5。整个网络使用Adam [12]以端到端的方式进行优化。5. 实验5.1. 执行和评价训练使用在COCO上预先训练的DarkNet-53作为我们的骨干,并采用余弦退火策略[21]进行优化。我们训练我们的网络,学习率为1e-4,权重衰减为1e-4,批量大小为64,使用GPU。我们不使用非常高的分辨率来提高速度,尽管它可能对性能有帮助。输入图像的大小为256×256,并在两台GTX TITAN X上使用。引用的总epoch数为100-itGame、 RefCOCO、RefCOCO+ 数据集,30个用于RefCOCOg数据集。采用了目标检测中的标准数据增强方法我们使用随机水平翻转,随机仿射操作和随机颜色抖动。当水平翻转图像时,我们需要同时翻转表达式,阴性样本。因此,采用交叉熵损失这可以看作是[23]中定义的MMI训练。对于边界框回归损失,我们使用MSE损失来最小化预测边界框和地面实况之间的距离。整个损失函数由局部化项和回归项组成:=- 是的例如用“右”代替“左”,反之亦然。评价我们在ReferitGame [11],RefCOCO [44],RefCOCO+ [44]和RefCOCOg [23] vi上评估我们的方法。sual接地数据集。评价指标与[16]中的评价指标具体来说,给定引用对象的回归边界框,如果IoU > 0,则我们将回归视为正确。5之间的真实边界框和预测,称为Pr@0.5。我们也使用Pr@0.75为ana-16894模块Pr@0.5(%)Pr@0.75(%)基线59.2840.02+电影60.99(+1.71)40.24(+0.22)+电影+ BFPN62.59(+1.71+1.60)41.00(+0.22+0.76)+电影+ BFPN+ LFC65.48(+1.71+1.60+2.87)44.31(+0.22+0.76+3.31)消融Pr@0.5(%)Pr@0.75(%)时间(毫秒)1× 1转换62.59 41.0025非局部神经网络63.59 42.4629扩张卷积63.85 42.9026变形转换63.99 43.7229表3.在ReferitGame上进行消融研究。括号内的数字表示在基线基础上的改进。破坏某些实验设置. 我们使用LSTM语言编码器作为我们的基线重新实现YOLO-VG [39],它单独对网格特征进行接地,即仅在融合模块中使用1×1卷积我们做了一些小的修改,保持和我们一样的训练方案,比如学习率和优化器。与[39]中报告的结果相比,我们看到ReferitGame的准确性略有提高。这将作为我们所有实验的基线。我们主要使用LSTM报告结果,除非另有说明。5.2. 定量结果与基线的比较。综上所述,我们的LBYL-Net相对于ReferitGame、RefCOCO、RefCOCO+、RefCOCOg、re-cup有约6.2%、7.5%、8.6%、12.4%的绝对提升,证明了我们LBYL-Net的有效性。当采用更强的语言编码器时,性能可以进一步提高。我们的改进将在消融研究中详细介绍。与最先进的结果进行比较。 我们将我们提出的LBYL-Net 与 ReferitGame , Ref- COCO , RefCOCO+ ,RefCOCOg上的一阶段和两阶段方法的最新结果进行了 ReferitGame 上 的 比 较 列 于 表 2 , RefCOCO 、RefCOCO+、RefCOCOg上的比较列于表1。更强的视觉和语言表征可以提高表现。为了公平比较,我们列出了这些方法的视觉编码器和语言编码器。在ReferitGame中,值得注意的是,两阶段方法通常获得较差的结果,因为它们没有合格的建议。 我们把糟糕的表现到没有在Refere-itGame上训练过的现成检测器。有证据表明,通过使用端到端可训练的RPN(区域建议网络),可以实现两阶段方法的最佳结果[46] 。 在 COCO 系 列 数 据 集 中 , 例 如 RefCOCO ,RefCOCO+,RefCOCOg,由于它们采用了对COCO数据集的强检测器,因此通常通过两阶段方法获得最佳结果。该检测器有助于在执行推理之前过滤掉不相关或 噪 声 区 域 。 然 而 , 我 们 的 一 级 LBYL-Net 在RefCOCO、RefCOCO+上的所有SOTA方法中仍然取得了有竞争力的结果,在Ref-COCO上的结果最好表4.性能比较相关的卷积运算在ReferitGame。itGame。我们表明,不仅是一个一级流水线的效率,但也可以通过建模远程空间关系,实现非常强大的性能。另一条改善一阶段视觉基础的路线是更好地理解较长 的 表 达 , 特 别 是 对 于 包 含 更 复 杂 句 子 的 Re-fCOCOg。尽管分解表达式可以实现显著的改进[14,38],但为了简单起见,我们采用了全局语言表示在RefCOCOg上,我们的模型仍然将我们的基线性能提高了12%和6%,分别使用LSTM和BERT,这表明建模远程空间关系可以帮助理解较长的句子,因为这些情况需要更多的空间关系线索来定位目标。5.3. 消融研究我们对ReferitGame [11]进行了几项消融研究,以揭示我们提出的LBYL-Net以及我们提出的地标特征卷积模块(LFC)的有效性。我们还在此基础上训练了三个模型,分别用FiLM [ 26 ]逐渐取代结果示于表3中。由于Film融合语言和视觉特征的能力,在Metric Pr@0.5下,性能提高了1.71%。 通过将不同尺度的视觉特征与BFPN对齐,性能进一步提高了1.6%。然而,主要的改进应归功于地标特征卷积,因为它将精度显著提高到65.48%。 这可以在Pr@0.75下更清楚地验证。在这个指标中,LFC显著提高了3%以上的准确性,而FiLM加上BFPN的提高幅度接近1%。5.4. LFC的有效性我们首先比较LFC和第二节中讨论的基于点的卷积的性能。3.1.我们比较了高斯嵌入的非局部层[34],内核大小为3的可变形卷积[4]和膨胀3的结果见表四、通过与1×1卷积的比较,我们表明大的感受野是至关重要的。 我们也看到16895(一).有猫头鹰图案的椅子(b).银色的车在马车后面。(c).马在前景骑手向后倾斜。(d).红墙旁边的那个人双臂交叉(e).奶牛站在左边。(f).火车深色和浅灰色左。图6.地标位置和接地结果的可视化。左侧的图像显示了标志位置(红点)和预测框的中心(绿点)。值得注意的是,预测中心接收来自地标位置的信息。右侧的图像显示了地面实况(黄色框)和预测(蓝色框)。不含PP= 1P= 2P= 4P= 862.5963.9065.05 65.3665.48 65.2665.58表5.在不同P的ReferitGame(Pr@0.5)上的性能。Non-Local比其他卷积要差,可能是由于它在建模相对空间关系方面的局限性。由于整体感受野和空间意识的优点,我们的LFC优于所有这些。5.5. 不同分区我们研究了各种分区的效果,如表5所示。当P= 1时,我们的动态最大池化(dynamic max pooling)公式退化为全局最大池化(global max pooling),产生全局相等的表示。我们惊讶地发现,如此简单的全局表示可以提高性能。通过考虑空间信息,性能可以进一步提高,但当P= 4时达到饱和。我们假设这是一个小问题。5.6. 结果和地标除了有效性之外,从子区域最大汇集的地标特征h∈Rc的设计允许我们看到在整个特征图上聚焦的地方通过这种方式,我们能够在一个阶段的视觉基础上向可解释性迈出一小步特别是,我们可以解码由argmax标记的位置。由于地标特征是从粗略的特征图中汇集的,为了反映原始图像的大小,我们为每个地标特征添加一个高斯G(µ,σ)地标位置,我们选择µ= 0,σ= 1/3。是值得注意的是,由于h的维数是c,所以可能存在c个界标位置。我们将接地中心的地标特征的几个示例以及接地结果可视化在图6中。许多两阶段方法通常是由以下事实激发的:ROI池化特征可以为各个对象提供更好的定位并且过滤不相关的背景噪声。我们表明,简单地使用最大池特征具有类似的效果,即专注于有用的线索,但不诉诸额外的监督。此外,虽然两阶段方法坚持一个强有力的假设,即语境线索只来自一组预定义的对象,例如COCO中的80个对象,但我们表明,这种分布之外的一些线索我们将这样的自由度还给数据本身。6. 结论在这项工作中,我们把重点放在一个阶段的视觉基础的关系建模,并沿着这条思路,提出了一个新颖的和简单的LBYL-Net,显示出竞争力的结果比所有国家的最先进的一个阶段和两个阶段的方法。我们的想法的核心是使用动态最大池化(DynamicMaxPooling,简称MAX)和地标特征卷积(LandmarkFeatureConvolution,简称LFC)对远程和空间感知特征进行建模,显示了其相对于相关模块的优越性。我们希望我们提出的LFC也可以加速相关的研究,如视觉关系检测。致 谢 。 本 课 题 得 到 了 国 家 重 点 研 发 项 目(2018AAA0100704)、国家自然科学基金资助项目(编号:61932020)、上海市科学技术委员会资助项目(编号:20ZR1436000)和上海ConvLFC16896引用[1] Sean Bell,C.劳伦斯·齐特尼克,卡维塔·巴拉,罗斯·吉尔希克. Inside-Outside Net:使用跳过池和递归神经网络检测上下文中的对象。在CVPR,2016年。4[2] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络,atrous卷积和全连接crfs进行语义TPAMI,2017年。3[3] Liang-ChiehChen , GeorgePapandreou , FlorianSchroff,and Hartwig Adam.重新思考语义图像分割的卷积。arXiv预印本arXiv:1706.05587,2017。3[4] 戴继丰、齐浩之、宇文雄、李毅、张国栋、韩虎、魏一晨。可变形卷积网络。在ICCV,2017年。二、三、七[5] Chaorui Deng,Qi Wu,Qingyao Wu,Fuyuan Hu,FanLyu,and Mingkui Tan.通过积累注意力的视觉基础。在CVPR,2018年。2[6] Jacob Devlin , Ming-Wei Chang , Wendon Lee , andKristina Toutanova. Bert:用于语言理解的深度双向转换器的预训练。在NAACL,2019年。5[7] 托马斯·G 作者声明:RichardH. 莱思罗普和托玛的洛扎诺-佩雷兹。用平行轴矩形求解多实例问题人工智能,1997年。2[8] 远藤光,青野正树,埃里克·尼科尔斯,深越光太郎.一个基于注意力的回归模型,用于图像中的文本短语。InIJCAI,2017. 2[9] Ronghang Hu , Marcus Rohrbach , Jacob Andreas ,Trevor Darrell,and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR,2017年。一、二、六[10] Ronghang Hu , Huazhe Xu , Marcus Rohrbach , JiashiFeng,Kate Saenko,and Trevor Darrell.自然语言对象检索。在CVPR,2016年。2[11] Sahar Kazemzadeh , Vicente Ordonez , Mark Matten ,and Tamara L.伯格指涉游戏:指涉自然景物照片中的物体。在EMNLP,2014年。六、七[12] Diederik Kingma和Jimmy Ba。Adam:随机最佳化的方法。载于ICLR,2014年。6[13] Thomas N Kipf和Max Welling。用图卷积网络进行半监督分类。在ICLR,2017年。4[14] Yue Liao , Si Liu , Guanbin Li , Fei Wang , YanjieChen,Chen Qian,and Bo Li.一种用于指称表达理解的实时跨通道相关过滤方法。在CVPR,2020年。六、七[15] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉斯·哈里哈兰和塞尔日·贝隆吉。用于目标检测的特征金字塔网络。在CVPR,2017年。第二、四节[16] 林宗义,迈克尔·梅尔,塞尔日·贝隆吉,詹姆斯·海斯,彼得罗·佩罗纳,德瓦·拉马南,彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的常见对象。在ECCV,2014年。6[17] 刘大庆,张汉旺,凤舞,查正军。学习组装用于视觉基础的神经模块树网络在ICCV,2019年。6[18] Sifei Liu , Shalini De Mello , Jinwei Gu , GuangyuZhong,Ming-Hsuan Yang,and Jan Kautz.通过空间传播网络学习亲和力在NeurIPS,2017年。4[19] 刘伟、德拉戈米尔·安格洛夫、杜米特鲁·尔汗、克里斯蒂安·塞格迪、斯科特·里德、傅成扬、亚历山大·C·伯格。Ssd:单发多盒探测器。在ECCV,2016年。一、二[20] Xihui Liu,Zihao Wang,Jing Shao,Xiaogang Wang,and Hongsheng Li.用跨通道注意引导擦除法改善指称表达的基础。在CVPR,2019年。6[21] 伊利亚·洛希洛夫和弗兰克·赫特。Sgdr:带热重启的随机梯度下降。在ICLR,2017年。6[22] Wenjie Luo , Yujia Li , Raquel Urtasun , and RichardZemel. 理 解 深 度 卷 积 神 经 网 络 中 的 有 效 感 受 野 。InNeurIPS,2016. 3[23] Junhua Mao,Jonathan Huang,Alexander Toshev,OanaCamburu,Alan L Yuille,and Kevin Murphy.无歧义对象描述的生成和理解。在CVPR,2016年。第二、六条[24] Varun K Nagaraja,Vlad I Morariu,and Larry S Davis.为理解指称表达而在对象之间建立上下文模型在ECCV,2016年。一、二、六[25] Pang Jiangmiao , Kai Chen , Jianping Shi , HuajunFeng,Wanli Ouyang,and Dahua Lin. Libra r-cnn:目
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功