没有合适的资源?快使用搜索试试~ 我知道了~
155020更多关注于视觉主干: 基于查询调制的细化网络用于端到端的视觉定位0Jiabo Ye 1 Junfeng Tian 2 Ming Yan 2 Xiaoshan Yang 30Xuwu Wang 4 Ji Zhang 2 Liang He 1 Xin Lin 101 华东师范大学, 中国上海 2 阿里巴巴集团, 中国杭州03 NLPR, 中国科学院自动化研究所, 中国北京 4 复旦大学, 中国上海0jiabo.ye@stu.ecnu.edu.cn, {xlin,lhe}@cs.ecnu.edu.cn, xwwang18@fudan.edu.cn0xiaoshan.yang@nlpr.ia.ac.cn, {tjf141457,ym119608,zj122146}@alibaba-inc.com0摘要0视觉定位侧重于建立视觉和自然语言之间的细粒度对齐,这在多模态推理系统中具有重要的应用。现有的方法使用预训练的与查询无关的视觉主干提取视觉特征图,独立于查询信息。我们认为从视觉主干提取的视觉特征与多模态推理所需的特征不一致。一个原因是预训练任务和视觉定位之间存在差异。此外,由于主干是与查询无关的,通过在视觉定位框架中端到端地训练视觉主干很难完全避免不一致性问题。在本文中,我们提出了一种基于查询调制的细化网络(QRNet),通过使用新颖的查询感知动态注意力(QD-ATT)机制和查询感知多尺度融合来调整视觉主干中的中间特征,以解决不一致性问题。QD-ATT可以在视觉主干生成的特征图的空间和通道级别上动态计算查询相关的视觉注意力。我们将QRNet应用于端到端的视觉定位框架。大量实验证明,所提出的方法在五个广泛使用的数据集上优于现有方法。我们的代码可在https://github.com/LukeForeverYoung/QRNet上获得。01. 引言0视觉定位[25, 32, 36,59],即根据给定的自然语言查询在图像中定位指代对象,是多模态推理系统的基本组成部分。0该工作是在Jiabo Ye在阿里巴巴达摩院实习期间完成的。0视觉编码器0文本编码器0与查询不一致的视觉特征0错误0文本编码器0跨模态交互0与查询一致的视觉特征 正确0注意力0顶部 中间 橙色整个0(a) 以前的端到端框架0(b) 我们基于QRNet的框架0顶部 中间 橙色整个0跨模态交互0对与查询无关的区域敏感0关注正确的区域0QRNet0图1. (a)一个典型的端到端的视觉定位框架,使用两个独立的编码器提取视觉和文本特征进行跨模态交互。(b)我们基于查询调制的细化网络(QRNet)的视觉定位框架。0与传统的物体检测方法[38,39]相比,视觉定位可以检测训练数据中不受限制的类别和属性的新组合,这些类别和属性以自由形式的文本表达。近年来,由于其在许多下游任务中的潜在应用,如视觉问答[15, 50, 63],基于视觉的语言导航[2, 47]和图像字幕[1, 8,57],它在计算机视觉和机器学习领域引起了广泛关注。155030视觉定位的早期方法主要集中在扩展常用的一阶段和两阶段目标检测架构上。一阶段方法[11,23,54,56]使用预训练的全卷积网络(例如Darknet53 [38],ResNet[20])直接提取像素级特征图,并利用手动定义的密集锚点返回与查询文本最有可能匹配的候选对象。这些方法在学习或推理方面简单高效,但在具有多种对象和关系的复杂查询上表现不佳。两阶段方法[52,53,58]使用现成的检测器(例如Faster R-CNN[39])提取区域提议,并使用模态共享表示返回与查询文本最匹配的候选对象。这些方法通过引入更复杂的多模态融合和推理机制[33,52,53]始终比一阶段方法具有更好的性能。然而,复杂的融合模块无法与检测器一起进行联合学习,这可能限制了它们在多模态推理中的能力。最近,Transformer[46]已应用于视觉定位[11,24],在基于像素级特征图进行多模态推理时不需要区域提议或密集锚点。0尽管现有的视觉定位方法,特别是基于Transformer的方法[11,24]已经取得了有希望的结果,但我们认为它们没有足够关注在有效的多模态推理中起关键作用的视觉主干。因为视觉主干决定了是否成功提取图像中的所有重要视觉内容以匹配查询文本。目前,最常用的主干是在ImageNet上对图像分类进行预训练的CNN模型(例如ResNet[20])和用于一般目标检测的检测器(例如Faster R-CNN[39]和Mask R-CNN[19])。因此,视觉定位任务与主干的预训练任务之间的差异可能导致主干生成的视觉特征与多模态推理所需的特征之间存在不一致性。如图1(a)所示,预训练的视觉主干提取对预定义类别的对象可能包含的区域敏感的通用视觉特征。而视觉定位要求主干定位查询所指的不同对象。减轻不一致性的一种直接方法是像[11]中那样以端到端的形式学习视觉定位模型。然而,它仍然无法完全避免不一致性,因为主干是与查询无关的。换句话说,对于相同的图像,无论查询句子是什么,与查询无关的主干始终会输出相同的特征图。0在本文中,我们提出了一种查询调制的细化网络(QRNet)来解决不一致性问题。如图1(b)所示,所提出的QRNet可以通过调整特征来生成与查询一致的特征。0在查询文本的指导下,QRNet可以从视觉主干中提取查询细化的视觉特征图,并将多尺度特征与查询指导进行融合。QD-ATT在视觉主干生成的特征图的空间和通道级别上动态计算依赖于文本的视觉注意力。空间和通道的注意力进一步与原始特征图相乘,以获得查询细化的分层视觉特征图。为了全面考虑不同尺度候选区域的细粒度视觉特征,我们通过查询感知的多尺度融合方案聚合了QRNet不同阶段获得的查询细化的视觉特征图。我们通过基于最近提出的TransVG[11]构建了一个灵活的视觉定位框架来实例化所提出的QRNet。我们采用与[11]中相同的多层视觉-语言Transformer来基于QRNet的输出令牌序列进行内部和跨模态推理。完整的流程明显优于现有方法,例如TransVG[11](Refer-ItGame上提高了3.75%,Flickr30KEntities上提高了2.85%)。请注意,所提出的QD-ATT可以轻松应用于其他预训练的视觉主干,例如ResNet[20]。本文的主要贡献有三个方面:0•我们提出了一种查询调制的改进网络,通过查询文本的指导来调整视觉特征图,以解决预训练视觉主干引起的不一致性问题。0•我们提出了一种新颖的查询感知动态注意机制,可以动态计算查询相关的空间和通道注意力,以改进视觉特征。0•我们构建了一个基于查询调制的改进网络的灵活视觉定位框架,并证明它在五个广泛使用的公共数据集上比现有方法取得了显著更好的性能。02. 相关工作02.1. 视觉定位0视觉定位方法可以分为两阶段方法和一阶段方法。两阶段方法将视觉定位过程分为生成和排序两个步骤。具体而言,首先使用选择性搜索[44]、区域提议网络[39]或预训练检测器[16, 17, 39]等模块X = [pr, p1v, p2v, · · · , pNvvvisual tokens pv, pcl , p1l , · · · , pNll���linguistic tokens pl],(1)155040为了生成包含对象的提议,多模态排序网络将衡量查询句子和提议之间的相似性,并选择最佳匹配结果。早期的工作[22, 32,41]只考虑句子-区域级别的相似性。Yu等人[58]将查询句子和图像分解为与主题、位置和关系相关的三个模块化组件,以建模细粒度相似性。一些研究[4, 33, 52,53]将图形学习纳入模型跨模态对齐。与我们更相关的工作是Ref-NMS[7],它使用查询特征来引导区域提议上的非极大值抑制,以增加关键对象的召回率。然而,Ref-NMS[7]只能集成到两阶段方法中。此外,它不能影响特征提取和提议生成中的视觉主干。一阶段方法提取保持空间结构的视觉特征图,并在像素级别进行跨模态交互。融合的特征图进一步用于预测边界框。Yang等人[55]使用Darknet[38]提取特征图,并将查询嵌入广播到每个空间位置。一些最近的工作[26, 54,56]将多模态交互视为多步推理过程,以更好地理解输入查询。Huang等人[23]在语言描述的指导下提取地标特征。更近期的工作TransVG[11]将DETR编码器纳入其中,提取视觉特征并提出了基于Transformer的视觉定位框架。Kamath等人[24]将视觉定位建模为一种调制检测任务,并提出了一种从DETR检测器派生的新型框架MDETR。02.2. 基于Transformer的视觉主干0Dosovitskiy等人[13]提出了一种通过在图像块上应用纯Transformer架构来提取图像特征的方法。这种方法被称为VisionTransformer(ViT),与最先进的卷积网络相比取得了出色的结果。Touvron等人[43]引入了改进的训练策略来训练一种数据高效的ViT。Yuan等人[60]提出了一种Tokens-to-Token转换方法来获得全局表示和深窄结构以提高效率。一些最近的工作[9,18]修改了ViT架构以获得更好的性能。Liu等人[31]提出了一种新颖的分层ViT,称为SwinTransformer。它使用移位窗口方案计算表示,以实现窗口间的连接。由于窗口大小固定,该架构对图像大小具有线性计算复杂度。02.3. 多模态交互0在早期的研究中,多模态系统使用简单的交互方法,如连接、逐元素乘积、求和和多层感知器来学习交互[5,61]。福岛等人[14]引入了一种紧凑的双线性方法。0耳池化以学习更复杂的交互。Arevalo等人[3]提出了一个门控单元,可以学习决定模态如何影响激活。[34,35]使用交叉注意机制实现视觉和文本模态之间的密集、双向交互。DeVries等人[10]引入了条件批量归一化来通过语言嵌入调节视觉特征图的通道级。VaeziJoze等人[45]使用挤压和激励操作来融合多模态特征并重新校准通道级的视觉特征。还有一些方法[3, 5, 10, 45,61]只在通道级进行交互。然而,空间级信息对于一些下游任务也很重要,例如视觉定位和视觉常识推理。其他方法[14, 34, 35]保持空间结构进行交互,但计算成本较高。03. 方法03.1. 架构0在本节中,我们首先制定视觉定位任务,然后介绍所采用的框架的架构。视觉定位任务旨在将查询定位到图像的某个区域。查询指的是图像中的一个对象,可以是一个句子或一个短语。可以将其公式化为:给定一张图像 I 和一个查询q,模型需要预测一个边界框 b = { x, y, w, h},该边界框恰好包含查询所表示的目标对象。如图2(a)所示,我们的框架基于一个典型的端到端视觉定位架构TransVG [11]1。给定一张图像和一个查询句子,通常有一个语言骨干,通常是一个预训练的BERT模型,提取一系列1D特征 T ∈ RD l × Nl。对于视觉骨干,我们采用了一种新的查询调制细化网络(在第3.2节中描述)来提取一个展平的视觉特征序列 V ∈ RD v × Nv。所提出的查询调制细化网络与现有的视觉骨干的主要区别在于,我们利用语言骨干中的上下文文本特征来引导特征提取和多尺度融合,借助查询感知动态注意力的帮助(在第3.2.1节中描述)。两个投影层将视觉和语言特征映射到相同的特征空间 R D。投影后的视觉和语言特征分别由 p v ∈ RD × N v 和 p l ∈ R D × N l表示。然后,在连接序列的开头插入一个可学习的嵌入(即一个[REG]标记),将 p v 和 p l进行连接。联合序列的公式化如下:01 https://github.com/djiajunustc/TransVG………�������������4∗�������������5∗�������������3∗�������������2∗������������1∗������������������������������������Dynamic LinearDynamic Linear MLPVisual FeatureQuery FeatureRefined FeatureChannel AttentionSpatial AttentionSpatial Pooling ������������������������������������������������������������������������,������������������������������������������������������������������������������������������������������������������������′������������′′������������������������1, ������������������������2, … , ������������������������������������������������������������������������������������, ������������������������1, ������������������������2, … , ������������������������������������������������������������������������������������������������������������������������1∗������������2∗������������3∗������������4∗������������2∗������������3∗������������4∗L = Lsmooth−l1(b, ˆb) + Lgiou(b, ˆb),(2)zout = DyLinearMl(zin) = W⊺l zin + bl(3)155050�� 4 × ��40�� 8 × ��80�� 16 × ��160�� 32 × ��320Swin模块0查询感知动态注意力0�� 64 × ��640展平和连接0语言骨干QRNet0视觉语言变换器0回归头输出:0�� , �� , �� , �0文本标记[REG]0(a) 我们的整体架构 (b) 提出的查询调制细化网络(QRNet)阶段10Swin模块0查询感知动态注意力0阶段2 阶段3 阶段40Swin模块0查询感知动态注意力0Swin模块0查询感知动态注意力0查询感知动态注意力02x2均值池化0查询感知动态注意力02x2均值池化0查询感知动态注意力02x2均值池化0修补分区02x2最大池化0特征提取0多尺度融合0(c) 查询感知的动态注意力0在绿色之间的顶部上的橙色0图2. (a) 本文使用的基于QRNet的视觉定位框架。 (b) Query调制细化网络的概述。 (c) 查询感知的动态注意力的示意图。0其中p r 是[REG]标记的可学习嵌入。p c l是[CLS]标记的表示,被视为上下文文本特征。接下来,应用多层视觉-语言变换器对联合序列进行内部和跨模态推理。最后,预测头使用[REG]标记的输出表示来预测边界框坐标b。使用平滑的L1损失[16]和giou损失[40]来训练框架。训练目标可以表述为:0其中ˆ b 是真实边界框。03.2. 查询调制细化网络0在本节中,我们介绍了Query调制细化网络(QRNet)的视觉主干。网络的概述如图2(b)所示。网络由两个阶段组成:(1)用于提取具有分层结构的查询细化视觉特征图的查询细化特征提取,(2)用于在不同尺度上引导查询特征的查询感知多尺度融合。这两个阶段都依赖于一种新颖的查询感知的动态注意力(QD-ATT),该注意力在空间和通道级别动态计算文本相关的视觉注意力,以实现在查询引导下计算特征。接下来,我们将首先介绍查询感知的动态注意力的实现。然后详细介绍查询细化特征提取和多尺度融合。03.2.1 查询感知的动态注意力0现在,我们将描述我们的查询感知的动态注意力的细节(如图2(c)所示)。我们首先介绍0动态线性层学习了一个线性变换,可以应用于视觉特征以计算查询感知的注意力。与传统的可训练线性层不同,动态线性层的参数是根据文本特征动态生成的。接下来,我们将介绍如何使用动态线性层计算查询感知的通道和空间注意力,并获得一致的查询视觉特征。附录中提供了伪代码以便更好地理解。0动态线性层。现有的视觉主干使用具有静态参数的模块来计算视觉特征图,输入相同的图像将输出相同的特征图。然而,在视觉定位中,对于单个图像的不同查询可能揭示不同的语义信息和意图,这需要不同的视觉特征。我们提出了一种动态线性层,可以利用上下文文本特征 p c l ∈ R D l来引导从给定输入向量 z in ∈ R D in 到输出 z out ∈ RD out 的映射。动态线性层的形式化如下:0其中 M l = { W l , b l } , W l ∈ R D in × D out , b l ∈ R D out 。D in 和 D out分别是输入和输出的维度。我们使用一个普通的线性层来生成 M l 。生成器表示为 M ′ l= Ψ( p c l ) ,其中 M ′ l ∈ R ( D in +1) � D out 。具体而言,我们预测一个 ( D in + 1) �D out0可以重新调整为M l的向量。然而,很容易发现生成器中的参数数量太大,即 Dl � (( D in + 1) � D out)。这样大规模的参数会降低网络的速度,并使其更容易过拟合。受矩阵分解的启发,我们考虑将 M l 分解为两个因子(4)(6)where AslH×W ×1 is the spatial attention map and F′′To extract refined feature maps with the guidance of thequery feature, we extend the Swin-Transformer2 to a modu-lated visual feature extractor. As shown in Figure 2 (b), fora given image IH×W ×3, a patch partition operation155060U∈R(Din+1)×K和S∈RK×Dout,其中U是从pcl生成的矩阵,S是一个静态可学习的矩阵,K是表示因子维度的超参数。因子生成器{Wl, bl} = Ψ�(pcl)可以表示为:0U = Reshape(Wg�pcl + bg),0Ml = US,0{Wl, bl} = Split(Ml),0其中Wg∈RDl×(Din+1)�K和bg∈R(Din+1)�K是动态线性层的可训练参数。动态线性层的参数矩阵Ml可以通过乘积U和S重构。Wl和bl可以从矩阵Ml沿第一个维度分割。最后,我们重新定义动态线性层如下:0zout = DyLinear Ml(zin) = DyLinear Ψ�(pcl)(zin).0(5)除非另有说明,我们使用DyLinear(zin)来表示一个动态线性层,其中pcl用于简化。不同的动态线性层不共享参数。当输入是多维张量时,动态线性层在最后一个维度上转换输入。0通道和空间注意力。如上所述,预训练的视觉主干对预训练任务中学到的所有对象都很敏感。然而,只有查询文本所指的对象是有用的。此外,用于边界框预测的特征高度依赖于查询句子中包含的语义(例如实体、属性描述和关系)。换句话说,特征图的每个通道或每个区域的重要性应根据查询句子动态变化。受到卷积块注意力模块[51]的启发,我们考虑沿特征图的不同维度推断通道和空间注意力,即Acl和Asl,以获得更好的跨模态对齐的自适应精炼特征。具体而言,对于给定的视觉特征图F∈RH×W×Dv,我们首先通过平均池化和最大池化来聚合其空间信息,并产生Fc max,Fcmean∈R1×1×Dv。然后,我们构建一个由两个动态线性层和一个ReLU激活函数组成的动态多层感知机来处理池化特征。输出维度与输入维度相同。为了减少参数数量,我们将多层感知机的隐藏状态维度设置为Dv/r,其中r=16是一个减少比例。通过将Fc max和Fcmean输入到动态多层感知机中,对两个输出特征的求和应用Sigmoid函数。0注意力图Acl可以如下捕获:0Fcl mean = DyLinear 1 (ReLU(DyLinear 2 (Fc mean))0Fcl max = DyLinear 1 (ReLU(DyLinear 2 (Fc max))0Acl = Sigmoid(Fcl mean + Fcl max).0我们对F和Acl进行逐元素乘法,形成通道精炼的视觉特征,其中Acl沿空间维度广播:0F′ = Acl � F. (7)0为了生成空间注意力图,我们不是压缩通道维度,而是利用另一个动态线性层将通道维度减小到学习与查询相关的区域,并应用Sigmoid激活函数生成注意力图。简而言之,计算过程如下所示:0F′′ = Asl � F′ (8)0是经过空间精炼的视觉特征,也是我们的查询感知动态注意力的输出。03.2.2 查询精炼特征提取04 ×C,其中C是嵌入维度。然后,F0被输入到四个级联阶段中,每个阶段由多个Swin-Transformer块和一个QD-ATT模块组成。在本工作中,我们将BERT[12]中输入查询句子的[CLS]表示作为上下文查询表示pcl来计算查询感知的动态注意力。第k个阶段接收前一阶段中获得的视觉特征图F�k-1(或者如果k=1,则为F0)并通过Swin-Transformer块生成一个转换特征图Fk。然后,QD-ATT模块接收转换特征Fk并生成一个查询感知特征F�k,该特征将在下一个阶段中进一步使用。查询精炼特征提取器的输出是一个分层特征列表[F�1,F�2,F�3,F�4]。03.2.3 查询感知的多尺度融合0多尺度特征有助于检测不同尺度的对象[6]。然而,视觉定位在视觉主干(例如)之后需要细粒度的交互。02 https://github.com/SwinTransformer/Swin-Transformer-Object-Detection155070由于高分辨率特征会大大增加计算量,因此先前的方法通常使用低分辨率特征或以查询不可知的方式融合多尺度特征,这将丢失尺度信息或引入噪音。由于调制的Swin-Transformer的分层结构,我们可以获得多尺度特征。我们借助查询感知动态注意机制和池化操作将从不同阶段获得的特征融合在一起。我们将低分辨率特征扁平化并连接起来作为主干的输出令牌序列。具体来说,除了第一个阶段外,每个阶段都通过补丁合并运算符降低特征图的分辨率。换句话说,四个阶段的输出特征图的分辨率分别为H0分别为32和H。此外,补丁合并运算符将补丁特征融合到通道中,使通道维度加倍。因此,四个阶段输出的通道维度分别为C、2C、4C和8C。接下来,我们将介绍如何在查询文本的指导下高效地融合这些多尺度特征。0如图2(b)所示,我们提出使用QD-ATT的方法来融合不同阶段的输出特征。具体而言,我们首先使用四个1×1卷积层将通道维度统一为D。为了过滤掉特征图中的噪声信号,我们为前三个阶段的特征图{F * k | k = 1, 2, 3}构建了QD-ATT模块。从F *k中,QD-ATT模块生成一个与输入大小相同的加权特征图。我们应用2×2的平均池化(步长为2)将分辨率降低到与下一个特征图F * k +1相同的大小,并计算它们的平均值以获得¯F * k + 1。最后,最后一个特征图¯F *4包含来自所有尺度的与查询相关的特征。为了检测非常大的对象,我们还应用了2×2的最大池化,以获得一个H64×W064个特征图 ¯F * 5。我们将 ¯F * 4 和 ¯F * 5扁平化并连接起来作为输出的令牌序列 V。04. 实验04.1. 数据集和评估0我们在短语定位数据集Flickr30KEntities[36]和指代表达式定位数据集RefCOCO[59]、RefCOCO+[59]、RefCOCOg[32]和ReferItGame[25]上评估了我们的方法。详细信息和统计数据请参见附录。在短语定位中,查询是短语,在指代表达式定位中,查询是与所指对象对应的指代表达式。我们遵循[11]中使用的相同度量标准。具体而言,如果预测的边界框与地面真实边界框的IoU大于0.5,则预测正确。04.2. 实现细节0QRNet基于Swin-Transformer构建,即在MSCOCO[27]上使用Mask-RCNN预训练的Swin-S。我们使用BERT base(uncased)进行语言特征提取。我们设置中间维度D =256和因子维度K =30。我们按照TransVG[11]的方式处理输入图像和句子。我们还遵循TransVG中使用的训练设置,使用AdamW优化器,权重衰减为10^-4,批量大小为64,Transformer中的FFN的丢失率为0.1。预训练参数的学习率设置为10^-5,其他参数的学习率设置为10^-4。没有预训练的参数使用Xavier进行随机初始化。我们训练模型共160个epochs。对于Flickr30KEntities,学习率在第40个epoch时乘以0.1,对于其他数据集,在第60个epoch时乘以0.1。我们还遵循[26, 54,55]中常用的数据增强策略。04.3. 定量结果0我们在ReferItGame和Flickr30kEntities上展示了表1中的比较结果。ReferItGame通过合作游戏收集查询,要求一个玩家为指定的对象编写一个指称表达式。另一个玩家需要点击正确的对象。Flickr30kEntities中的查询是标题中的短语。我们观察到,所提出的QRNet优于以前的工作。我们用Swin-Transformer替换了TransVG的视觉分支,并用TransVG(Swin)表示,以探索骨干的影响。性能与原始的TransVG相似,表明准确性的提高不是来自Swin-Transformer。我们还在表2中展示了与ReferCOCO、ReferCOCO+和ReferCOCOg上最先进方法的准确性比较。在ReferCOCO和ReferCOCO+数据集中,所指的对象是“testA”中的人,也可以是“testB”中的常见对象。ReferCOCOg中的表达式比其他数据集中的表达式要长得多。请注意,TransVG使用了从预训练的DETR框架中拆分出来的ResNet-101和DETR编码器。它的骨干比单个ResNet-101更强大。我们观察到,我们的QRNet在所有两阶段和一阶段最先进方法上都大大优于。在RefCOCO和RefCOCO+数据集上,我们的方法在“testA”中获得了1.84% �2.52%的绝对改进,在“testB”中获得了2.51% �4.32%的改进。当所指的对象是任意的时候,不一致问题将更加严重,我们的调制骨干可以更好地过滤掉不相关的对象,并通过文本指导来纠正表示。在RefCOCOg测试集中,我们注意到ISRL [ 42 ]的性能优于TransVG [ 11]。它将视觉定位建模为马尔可夫03我们从MSCOCO训练集中排除了RefCOCO系列的验证集和测试集中的图像,并重新训练了Swin-Transformer以进行公平比较。VC [62]VGG1631.13-MAttNet [58]ResNet-10129.04-Similarity net [48]ResNet-10134.5450.89LCMCG [30]ResNet-101-76.74DIGN [33]VGG-1665.1578.73FAOA [55]DarkNet-5360.6768.71RCCF [26]DLA-3463.79-ReSC-Large [54]DarkNet-5364.6069.28SAFF [56]DarkNet-5366.0170.71TransVG [11]ResNet-10170.7379.10TransVG (Swin)Swin-S70.8678.18TransVGReSCSwin-SQRNet155080模块 骨干 ReferItGame Flickr30K0测试 测试0两阶段0一阶段0QRNet (我们的) Swin-S 74.61 81.950Table 1. Refer-ItGame和Flickr30KEntities的性能比较(Acc@0.5)。0处理长表达式的决策过程,通过过滤掉不相关的区域来迭代地处理。然而,有限的动作空间使得容易收敛到局部最优解。我们的模型不修改TransVG中的视觉语言变换器,只提供一致的查询视觉特征。性能大大提高,这表明我们的查询感知细化对于建模视觉定位的表示更加有效。04.4. 消融研究0我们在ReferItGame和Flickr30k上进行了消融研究,以揭示所提出的QR-Net的有效性。我们首先研究了QD-ATT在查询细化特征提取和查询感知多尺度融合中的有效性。如表3所示,我们使用勾号表示在相应模块中启用QD-ATT,使用叉号表示禁用QD-ATT并将特征无修改地传递。当在多尺度融合中禁用QD-ATT时,性能分别下降了2.52%和0.79%。当在查询细化特征提取中禁用QD-ATT时,性能分别下降了3.22%和1.51%。当完全禁用QD-ATT时,性能分别下降了3.75%和3.77%。我们发现,在查询细化特征提取中,QD-ATT比在多尺度融合中更重要。我们还注意到,与完全禁用QD-ATT相比,仅在多尺度融合中启用QD-ATT几乎没有改进,因为来自变换器的特征仍然是噪声和查询不一致的。我们进一步研究了空间注意力和0左上蛋糕披萨附近的你浅蓝色高板玻璃右上0图3.我们的QRNet和其他流行模型的骨干网络激活图的可视化。红色:预测框。白色:真实框。0QD-ATT中的通道注意力。空间注意力可以过滤掉不相关的区域。通道注意力可以重新分配特征的重要性以适应不同的查询句子。表4中的结果表明,空间注意力和通道注意力都是有效的。04.5. 定性结果0我们在图3中展示了我们的QRNet与三种流行方法的定性比较。特征图是从每个模型的骨干网络中提取的。我们可以看到,以前的方法对许多与查询无关的区域敏感,这可能导致错误的预测,例如TransVG和ReSC对“右上玻璃”和“浅蓝色高板”的查询的结果,以及Swin-S对“左上蛋糕”的查询的结果。相比之下,我们的QRNet生成与查询一致的特征并进行更准确的预测。更多结果可以在补充材料中找到。05. 在线部署0以前的实验结果已经证明了我们提出的QRNet的优势,因此我们将其部署在阿里巴巴的拍立淘搜索引擎中,以测试其实际性能。具体来说,我们将QRNet应用于增强拍立淘搜索引擎,并进行A/B测试以评估我们模型的影响。详细信息可以在补充材料中找到。我们观察到,QRNet将无点击率降低了1.47%,并提高了交易数量2.20%,超过了基准线。具体而言,无点击率的降低意味着QRNet可以生成更准确的目标框,使用户更有可能点击。交易数量的提高意味着点击的物品正是用户想要购买的,这也显示了QRNet的出色性能。test-uVC [62]VGG16-73.3367.44-58.4053.1862.30--MAttNet [58]ResNet-10176.6581.1469.9965.3371.6256.02-66.5867.27Ref-NMS [7]ResNet-10178.8282.7173.9466.9571.2958.40-68.8968.67LGRANs [49]VGG16-76.6066.40-64.0053.4061.78--RvG-Tree [21]ResNet-10175.0678.6169.8563.5167.4556.66-66.9566.51CM-Att-Erase [29]ResNet-10178.3583.1471.3268.0973.6558.0368.67--NMTree [28]ResNet-10176.4181.2170.0966.4672.0257.5264.6265.8766.44155090模型 骨干网络 RefCOCO RefCOCO+ RefCOCOg0二阶段0一阶段0FAOA [ 55 ] DarkNet-53 72.54 74.35 68.50 56.81 60.23 49.60 56.12 61.33 60.36 RCCF [ 26 ] DLA-34 -81.06 71.85 - 70.35 56.32 - - 65.73 ReSC-Large [ 54 ] DarkNet-53 77.63 80.45 72.30 63.59 68.36 56.8163.12 67.30 67.20 SAFF [ 56 ] DarkNet-53 79.26 81.09 76.55 64.43 68.46 58.43 - 68.94 68.91 HFRN [ 37 ]ResNet-101 79.76 83.12 75.51 66.80 72.53 59.09 - 69.71 69.08 ISRL [ 42 ] ResNet-101 - 74.27 68.10 -71.05 58.25 - - 70.05 LBYL-Net [ 23 ] DarkNet-53 79.67 82.91 74.15 68.64 73.38 59.49 62.70 - - TransVG[ 11 ] ResNet-101 81.02 82.72 78.35 64.82 70.70 56.94 67.02 68.67 67.73 TransVG(Swin) Swin-S 82.3384.01 79.83 64.94 70.19 56.47 67.81 69.34 68.990QRNet(我们的)Swin-S 84.01 85.85 82.34 72.94 76.17 63.81 71.89 73.03 72.520表2.在ReferCOCO,ReferCOCO+和ReferCOCOg上的性能比较(Acc@0.5)。以前最好的两阶段和一阶段方法的结果用下划线标出。我们的结果用粗体标出。结果表明,我们的方法优于所有最先进的一阶段和两阶段方法。0模型特征0特征提取0多尺度0融合0ReferItGame Flickr30k0验证 测试 验证 测试0QRNet 76.84 74.61 80.83 81.950(a)74.31 72.09 80.09 81.16(b)73.63 71.39 79.3580.44(c)73.25 70.86 77.17 78.180表3. QRNet两个阶段中QD-ATT的消融研究。0模型通道0注意力0空间0注意力0ReferItGame Flickr30k0验证 测试 验证 测试0QRNet 76.84 74.61 80.83 81.950(d)74.35 72.02 80.22 81.35(e)74.41 71.80 80.6781.550表4. QD-ATT中不同注意力的消融研究。06. 结论0在本文中,我们认为预训练的视觉骨干无法产生与视觉基础要求一致的视觉特征。为了克服这个问题,我们提出了一种查询调制的细化网络(QRNet),以在查询文本的指导下调整视觉特征图。QRNet基于一种新颖的查询感知动态注意机制设计,可以动态计算与查询相关的空间和通道注意力,以细化视觉特征。大量实验证明,改进的框架明显优于现有技术。所提出的QRNet具有改善多模态推理的巨大潜力。在未来的工作中,我们计划改进QRNet的细粒度交互能力,并且放弃后交互模块,以简化现有的端到端视觉基础框架。0为了解决这些问题,我们提出了一个查询调制的细化网络(QRNet),以在查询文本的指导下调整视觉特征图。QRNet基于一种新颖的查询感知动态注意机制设计,可以动态计算与查询相关的空间和通道注意力,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功