没有合适的资源?快使用搜索试试~ 我知道了~
基于图的全局推理网络
1基于图的全局推理网络Yunpeng Chen< $,Marcus Rohrbach<$ $>,Zhicheng Yan <$$>,ShuichengYanYan,JiashiFengYan,Yannis Kalantidis<$†Facebook AI、新加坡国立大学、奇虎360 AI研究院摘要对区域之间的关系进行全局建模和推理对于图像和视频上的许多计算机视觉任务都是有益的卷积神经网络(CNN)擅长通过卷积运算对局部关系进行建模,但它们在捕获遥远区域之间的全局关系时通常效率低下,并且需要堆叠多个卷积层。在这项工作中,我们提出了一种新的方法进行推理的全球范围内,一组功能是全球聚集在坐标空间(a) GT:玩电视游戏坐标空间交互空间反向投影坐标空间然后投射到一个互动空间,可以有效地计算推理。在推理之后,关系感知特征被分配回原始坐标空间以用于下游任务。我们进一步提出了一个高效的实例化所提出的方法,并引入全局推理单元(GloRe单元),实现了坐标互动空间映射的加权全局池和加权广播,并通过图卷积的关系推理在一个小的图形在互动空间。拟议的GloRe单元是轻量级的,端到端可训练的,并且可以很容易地插入现有的CNN中执行各种任务。广泛的实验表明,我们的GloRe单元可以持续提高最先进的骨干架构的性能,包括ResNet [15,16],ResNeXt [34],SE-Net [18]和DPN[9],用于2D和3D CNN,图像分类,语义分割和视频动作识别任务。1. 介绍任意形状的远距离区域之间的关系推理对于许多计算机视觉任务至关重要,如图像分类[10],分割[36,37]和动作识别[32]。人类可以容易地理解图像/视频的不同区域之间的关系,如图1(a)所示然而,深度CNN无法在不堆叠多个卷积层的情况下捕获这种关系,因为单个层只能在本地捕获信息。这是非常低效的,因为特征图上任意形状的远距离区域之间的关系只能通过(b) 区域间推理(c)图推理框架图1:我们的主要想法。针对在整个输入空间(以不同颜色显示)上捕获任意区域之间的关系,我们提出了一种全局推理的新方法(如图所示)。(c))。来自坐标空间中的着色区域的特征被投影到交互空间中的节点,形成全连通图。在对图进行推理之后,节点特征被投影回坐标空间。近顶层具有足够大的感受野以覆盖所有感兴趣区域。例如,在具有16个残留单元的ResNet- 50 [15]中,感受野逐渐增加,以覆盖第11个单元(Res 4的近端)的整个224×224图像为了解决这个问题,我们提出了一个单元,通过将感兴趣区域的特征投影到交互空间,然后分配回原始坐标空间,来直接执行全局关系推理。通过这种方式,可以在CNN模型的早期阶段执行关系推理。具体来说,我们不是仅仅依赖于坐标空间中的卷积来隐式地对不同区域之间的信息进行建模和通信,而是建议构建一个潜在的交互空间,在该空间中可以直接执行全局推理,如图1(c)所示。在此交互空间内,共享相似语义的一组区域由单个特征表示,而不是来自输入的一组分散的坐标特定特征。因此,考虑多个不同区域之间的关系简化为对相应的fea之间的关系进行433434图1(c)的顶部所示。因此,我们建立了一个图连接这些功能的互动空间,并执行关系推理的图形。在推理之后,更新的信息然后被投影回原始坐标空间以用于下游任务。因此,我们设计了一个全局推理单元(GloRe),通过加权全局池化和加权广播有效地实现坐标交互空间映射过程,以及通过图卷积[21]进行关系推理,这是可区分的,也是端到端可训练的。与最近提出的非局部神经网络(NL-Nets)[32]和双注意力网络[7]不同,它们只专注于传递信息并依赖卷积层进行推理,我们提出的模型能够直接推理区域上的关系。类似地,挤压和激励网络(SE- Nets)[18]只专注于通过全局平均池化来合并图像级它不是为区域推理而设计的,因为我们提出的方法。大量的实验表明,插入我们的GloRe可以在包括图像分类、语义分割和视频动作识别在内的各种任务上持续提高最先进的CNN架构的性能。我们的贡献概述如下:• 我们提出了一种新的方法,通过将一组在坐标空间上全局聚合的特征投影到交互空间中来进行全局推理,其中可以有效地计算关系推理。在推理之后,关系感知特征被分配回坐标空间以用于下游任务。• 我们提出了全局推理单元(GloRe单元),这是所提出方法的一个高效实例通过加权全局池化和加权广播实现坐标-交互空间映射,并在交互空间中通过图卷积实现关系推理。• 我们在大量数据集上进行了广泛的实验,并表明全局推理单元可以为大范围的后台操作带来一致的性能提升包括ResNet,ResNeXt,SE-Net和DPN在内的2D和3D CNN的骨骼,用于图像分类,语义分割和视频动作识别任务。2. 相关工作深度架构设计。深度架构设计的研究重点是构建更高效的卷积层拓扑,旨在减轻优化难度或提高骨干架构的效率。残余网络(ResNet)[15,16]和DenseNet [19]被提出来减轻深度神经网络的优化困难。DPN [9]结合了这两种网络的 优 点 , 进 一 步 提 高 了 性 能 。 Xception [11] ,MobileNet [17,28]和ResNeXt [34]使用分组或深度卷积来降低计算成本。同时,基于强化学习的方法[39]试图在预定义的搜索空间中自动找到网络拓扑。所有这些方法虽然有效,但都是通过堆叠卷积层来构建的,因此在不相交或远距离区域之间进行推理时卷积操作的效率很低。在这项工作中,我们提出了一个辅助单元,可以克服这一不足,并带来显着的这些网络的性能增益。全局上下文建模。许多努力试图通过引入全局上下文来克服局部卷积算子的限制PSP-Net [37]和DenseASPP[36]结合多尺度特征,有效地扩大了分割任务的卷积层的感受野。可变形CNN [13]通过进一步学习卷积采样位置的偏移量来挤压和激励网络[18](SE-Net)使用全局平均池化在每个阶段都包含图像级描述符。非局部网络[32]、自我注意机制[31]和双重注意网络(A2-Net)[7]试图将长距离信息从一个位置传递到另一个位置。同时,双线性池化[25]提取图像级二阶统计量以补充卷积特征。虽然我们也包含了全局信息,但在所提出的方法中,我们更进一步,在不相交或遥远区域之间的关系图上执行更高级别的推理,如图1(b)所示。基于图形的推理。基于图的方法近年来非常流行,并被证明是一种有效的关系推理方法。基于图模型提出了CRFs [3]和随机游走网络[1],用于有效的图像分割.最近,图卷积网络(GCN)[21]被提出用于半监督分类,Wang等人。[33]提出使用GCN来捕获视频识别任务中对象之间的关系,其中对象由在额外训练数据上预训练的对象检测器检测与[33]相比,我们采用图卷积的推理能力来构建一个通用的端到端可训练模块,用于在不相交和遥远的区域之间进行推理,无论它们的形状如何,也不需要对象检测器或额外的注释。值得注意的是,在同时进行的工作中,Liet al.[24]从基于区域的识别中获得灵感,并提出了与我们类似的基于图形的表示;然而,他们只探索了语义实例分割和对象检测任务。435IV减小尺寸节点状态延伸尺寸⨉-1x1,Conv+-(*V$%V((I−$%)V))%交互空间*+1,1D转换1,1D转换1x1,转换3. 基于图的全局推理在本节中,我们首先概述了我们提出的全局推理单元,我们基于图的全局推理网络的核心单元,并介绍了其设计的动机和基本原理。然后,我们详细描述了它的体系结构。最后,我们详细介绍了如何将其应用于几个不同的计算机视觉任务。在本节中,为简单起见,所有图形都是基于2D(图像)输入张量绘制的。图G=(V,E,A)通常由其节点V、边E和描述边权重的相邻矩阵A定义。在下文中,我们交替使用A或G来表示图形定义为A。3.1. 概述我们提出的GloRe单元的动机是克服卷积运算对全局关系建模的固有限制。 对于输入特征张量X ∈RL×C,其中C为特征尺寸,L=W×H位置。因此,标准卷积层处理输入w.r.t. 规则网格坐标θ={1,. . . ,H} × {1,. . . ,W}来提取特征。具体地说,卷积是在由邻接矩阵A∈RL×L定义的正则最近邻图上进行的,其中Aij=1,如果区域i和j在空间上相邻,否则Aij= 0。 边缘编码空间邻近度,并且其节点存储该位置的特征,如图1(c)的底部所示。然后,这样的卷积层的输出特征被计算为Y=AXW,其中W表示卷积核的参数。单个卷积层可以捕获由卷积核覆盖的局部关系(即,在图A上连接的位置)。但是捕获任意形状的不相交和遥远区域之间的关系需要堆叠多个这样的卷积层,这是非常低效的。这样的缺点增加了CNN全局推理的难度和成本。为了解决这个问题,我们建议首先将特征X从坐标空间λ投影到潜在交互空间H中的特征V,其中每组不相交区域可以由单个特征来表示,而不是在不同位置的一堆特征。 在所述交互空间H,我们可以构建一个新的全连通图Ag,其中每个节点将新特征存储为其状态。如此则关系推理被简化为在如图1(c)的顶部所示的较小图Ag一旦我们获得了图Ag的每个节点的特征,我们就应用一般的图卷积来对每对节点之间的上下文关系进行建模和推理。之后,我们执行反向投影,将生成的特征(使用关系信息增强)转换回原始坐标空间,为后续层提供更好的学习功能X图2:提议的全局推理单元的架构。它由五个卷积组成,两个用于输入特征X和输出Y上的维度缩减和扩展(最左和最右的卷积),一个用于生成坐标和潜在交互空间之间的双投影B(顶部的卷积),以及两个用于基 于交 互空间 中的 图Ag 的全局 推理 (中间 的卷积)。这里,V将区域特征编码为图节点,Wg表示图卷积的参数。特定任务的表示。图1(c)中概念性地描绘了这样的三步过程。为了实现这一过程,我们提出了一个高效的单元,称为GloRe单元,其架构如图2所示。在下面的小节中,我们详细描述了所提出的GloRe单元的每个步骤。3.2. 从坐标空间到相互作用空间第一步是找到将原始特征映射到交互空间H的投影函数f(·)。 给定一组输入特征X∈RL×C,我们的目标是学习投影函数,使得相互作用空间中的新特征V=f(X)∈RN×C对全局更友好在不相交和遥远的地区进行推理。这里N是交互空间中特征(节点)的数量。由于我们希望直接在一组区域上进行推理,如图1(b)所示,我们将投影函数公式化为原始特征的线性组合(也称为加权全局池),以便新特征可以聚合来自多个区域的信息。特别是,每个新特征都是由Σvi=biX=bijxj,(1)日具有可学习的投影权重B=[b1,· · ·,bN]∈RN×L,xj∈R1×C,vi∈R1×C.我们注意到,上述等式给出了比现有方法更通用的公式[33],其中采用在额外数据集上预训练的对象检测器来确定bi,即。bij=1,如果j在对象框内,并且bij=0,如果它在盒子外面。一种是使用额外的-站和引入一个耗时的对象检测器,以形成一个二进制组合,我们建议使用卷积1x1,转换 . (*)投影矩阵B逆投影矩阵436………步骤1适用于每个通道…………层直 接生 成 bi (我 们在 这项 工作 中使 用一个 卷积层)。在实际应用中,为了减少输入维数,提高投影函数 的 容 量 , 我 们 将 函 数 f ( X ) 实 现 为 f ( φ(X;Wφ)),B=θ(X;Wθ)。我们模拟φ(·)和θ(·)通过两个卷积层,如图所示ure2. Wφ和Wθ是可学习的卷积核的每一层。直接使用的好处…为每个节点状态步骤1:信息扩散步骤2:状态更新(a) 图卷积被视为两个步骤。用于形成BI的卷积层包括以下方面。1)卷积层是端到端可训练的。2)它的训练不需要任何对象边界框[33]。3)它实现简单,速度快。 4)它更通用,因为卷积输出既可以是正的,也可以是负的,从而线性地融合信息信道...信道信道应用于每个节点在协调空间。3.3. 图卷积推理将特征从坐标空间投影到交互空间后,我们得到了图,其中每个节点都包含特征描述符。捕获输入中任意区域之间的关系现在被简化为捕获对应节点的特征之间的交互。有几种可能的方法来捕捉新空间中特征之间的关系。最直接的方法是将特征连接起来作为输入,并使用一个小型神经网络来捕获相互依赖性,就像[29]中提出的那样。然而,即使是简单的关系网络在计算上也是昂贵的,并且关联破坏了沿特征维度的成对对应相反,我们建议将特征视为全连接图的节点,建议通过学习与每个节点的底层全局池为此,我们采用了最近提出的图卷积[21],这是一种高效,有效的可微模块特别地,设G和Ag表示用于跨节点扩散信息的N×N节点邻接矩阵,并且设Wg表示状态更新函数。单层图卷积网络由Eqn定义。其中,邻接矩阵Ag被随机初始化,并在训练期间通过梯度下降与权重一起学习。单位矩阵作为一个快捷的连接,减轻优化的困难。图卷积[21,23]被公式化为:Z=GV W g=((I-A g)V)W g。(二)图卷积的第一步执行拉普拉斯平滑[23],在图上传播节点特征在训练期间,相邻矩阵学习反映每个节点的底层全局池化特征之间的关系的边权重。例如,如果两个节点包含关注眼睛的特征,(b)GCN(X)= Conv1D(Conv1D(X)T)T图3:通过图卷积进行关系推理。(a)图形卷积的直观解释。(b)使用双向一维卷积实现图卷积鼻子,学习两者之间的强连接将加强可能的下游“面部”分类器的特征。在信息扩散之后,每个节点已经接收到所有必要的信息,并且其状态通过线性变换来更新。这两个步骤的过程在图3(a)中概念性地可视化。在图3(b)中,我们示出了该两步过程的实现以及经由沿着不同方向的两个1D卷积层的图形卷积,即,通道方式和节点方式。推理步骤使我们提出的方法从现有的工作中脱颖而出[32,7],它只关注收集和分发信息。3.4. 从相互作用空间到坐标空间为了使上述构建块与现有的CNN架构兼容,最后一步是在关系推理之后将输出特征投影回原始空间。通过这种方式,来自推理的更新的特征可以被以下卷积层利用以做出更好的决策。这个反向投影与第一步中的投影非常相似。给定节点特征矩阵Z∈RN×C,我们的目标是学习一个映射函数,可以将特征转换为Y∈RL×C,如下所示:Y= g(Z).(三)与第一步类似,我们采用线性投影来计算g(Z):Σyi= diZ =d ijzj.(四)日上述投影实际上是在执行特征扩散。节点j的特征zj被分配给yi,节点节点节点步骤24374标量dij。这些权重形成了从语义图到网格图的密集连接。同样,可以将加权连接强制为二进制掩码,或者可以简单地使用浅网络来生成这些连接。在我们的工作中,我们使用单个卷积层来预测这些权重。在实践中,我们发现,我们可以重复使用的投影在第一步中产生的,以减少计算成本,而不会产生任何负面影响的最终精度。换句话说,我们设D=B。图2的最右侧显示了详细的实现。特别地,来自图卷积层的信息通过等式11中的加权广播被投影回原始空间。(4),其中我们重用顶部卷积层的输出作为权重。在将信息迁移回原始空间进行维度扩展后,附加另一个卷积层,以便输出维度可以匹配输入维度,形成残留路径。4. 实验我们从大规模ImageNet [22]数据集上的图像分类任务开始,以研究所提出的方法的关键特性,该方法作为主要的基准数据集。接下来,我们使用Cityscapes[12]数据集进行图像分割任务,检查所提出的方法是否也可以在小规模数据集上进行密集预测最后,我们使用Kinetics [20]数据集来证明所提出的方法不仅可以在2D图像上推广,而且可以在具有时空维度的3D视频上推广动作识别任务。14.1. 实现细节我们首先使用ResNet-50 [16]作为浅层CNN来进行消融研究,然后使用更深的CNN来进一步检查所提出方法的有效性。我们确定N,以便总#FLOP和#Params可以匹配我们的基线方法,即NL- Net [32],用于公平比较,因此我们设置num-由N表示的节点的BER是3.5.部署全局推理单元提议的全局推理单元的核心处理在展平所有涉及位置的维度之后发生。因此,它直接适用于3D(例如,时空)或1D(例如,时间的或任何一维的)特征。例如,在3D输入情况下,输入是一组帧,L=H×W×T,其中H、W是空间维度,T是时间维度,即的帧数在剪辑中。在这种情况下,图2所示的三个1卷积层将被1×1×1卷积取代。在实践中,由于其残差性质,所提出的全局推理单元可以很容易地并入各种现有的骨干CNN架构中。 它是轻量级的,因此可以在整个网络中插入一次或多次,在不同阶段推理全局虽然后者在理论上可以通过多个堆叠卷积来捕获这种关系,但我们表明,添加一个或多个拟议的全局推理单元可以提高下游任务的性能,即使是非常深的网络。在下面的部分中,我们将展示在不同阶段使用一个或多个全局推理单元的基于图的全局推理网络的不同实例的结果,描述每种情况下的细节和权衡我们将至少具有一个全局推理单元的网络称为基于图的全局推理网络。通 道X 。 各种 网 络 作为 骨 干CNN 进 行测 试 , 包括ResNet [16],ResNeXt [34],双路径网络(DPN)[9]和SE-Net [18]。 所 有 网 络 都 使 用 相 同 的 策 略 [9]使 用MXNet [6]和64个GPU进行训练。学习率降低了0倍。1从0开始42;权重衰减设置为0。0002;使用SGD更新网络,总批量大小为2,048。我们报告了Top-1分类准确率,224×224单中心裁剪的验证集[16,34,9]。语义图像分割我们采用简单而有效的全卷积网络(FCN)[4]作为骨干。具体来说,我们采用ImageNet[22]预训练ResNet [15],删除最后两个下采样操作,并采用多网格[5]扩张卷积。 我们提出的块是随机初始化的,并附加在FCN的末尾,就在最终分类器之前,在两个自适应卷积层之间。与[26,5,4]相同,我们采用“poly”学习率策略,其中幂= 0。9,初始学习率为0。006,批量为8。视频动作识别我们使用PyTorch [27][8]发布的代码运行基线方法和我们提出的方法。我们遵循[32]构建骨干3DResNet-50/101,它在ImageNet [22]分类任务上进行了预训练。 然而,不是使用7×7 ×7卷积核的第一层,我们使用3×5×5CON-卷积核的速度更快的建议[7]。的1代码可在:https://github.com/facebookresearch/GloRe2对于SE-Net,我们采用0。3作为初始学习率,因为当使用0时它会发散。4作为初始学习率。4387978.57877.57776.5表1:在ImageNet验证集上添加不同数量的图卷积层g表示GloRe单元内的图卷积层的数量。报告了ImageNet验证集上的前1名准确率平原+1全局推理单元G=1G=2G=3ResNet-5076.15%77.60%77.62%77.66%7675.57546 810FLOPs(x 109)12 14 16GloRe单元均匀地插入到Res4我们首先研究的情况下,只有一个额外的块被添加如灰色区域所示。从结果来看,该方法将ResNet-50(粉红色圆圈)的准确率提高了1。5%当只有一个额外的块被添加。与非局部方法相比图4:使用ResNet-50 [16]作为主干CNN的ImageNet验证集的消融研究。黑色圆圈表示作者在[16,18]中报告的结果,而所有其他颜色表示我们复制的结果。具体来说,红色圆圈是指至少有一个GloRe的模型,蓝色圆圈表示使用相关NL单元[32],而圆圈的大小反映了模型的大小。我们复制的ResNet-50(R50)和SE-ResNet-50(SE-R50)给出了比报告的结果稍好的结果,这是由于使用了步幅卷积3和不同的训练策略。学习率从0开始。04,并以0的因子减少。1.一、新添加的块被随机初始化并从头开始训练。我们为单个剪辑预测选择具有中心裁剪的中心剪辑,并为视频级预测均匀采样每个视频10个剪辑,这与[32]类似。4.2. ImageNet上的结果我们首先使用ResNet-50 [16]作为骨干架构进行消融研究,并考虑两种情况:1)仅添加一个额外块时; 2)当添加多个extra块时。然后,我们使用更新和更深的CNN进行进一步的实验,以进一步检查所提出的单元的有效性。消融研究图4显示消融研究结果,其中y轴为Top-1精度,x轴显示通过FLOP(即浮点乘法-加法)测量的计算成本[15]。我们使用例如,3https://github.com/facebook/fb.resnet.torch网站在相同的计算量和模型规模下,该方法具有较高的精度我们还发现在Res4上插入块,即接下来,我们在Res4上插入更多块,结果显示在绿色区域中。我们发现,GloRe单元可以一致地提高精度时,更多的块被添加。令人惊讶的是,仅仅增加三个GloRe单元就可以将ResNet-50增强78。4%的前1名的准确性,这甚至是0。比最深的ResNet- 200 [16]好1%,但只有大约30%的GFLOPS和50%的模型参数。这是非常令人印象深刻的,表明我们新添加的块可以提供一些补充功能,这些功能不能通过堆叠卷积层轻松捕获在SE-ResNet-50上也观察到了类似的改进[18]。我们还在不同的阶段插入多个块,如紫色区域所示,并发现在Res4添加所有块会产生最佳结果。还有趣的是,当添加更多块时,非局部方法在优化期间开始发散,而我们没有观察到所提出的方法的这种优化困难。4表1显示了为每个GloRe单元使用不同数量的图形卷积层的效果。由于堆叠更多的图形卷积层并不会带来显著的增益,除非明确说明,否则我们每个单元只使用一个图形卷积层。我们进一步研究所提出的方法是否可以提高更深CNN的性能。特别是,我们检查了四种不同的深度CNN:ResNet-200 [16]、ResNeXt-101 [34]、DPN-98 [9]DPN-131 [9]。结果总结在表2中,其中所有基线结果均由我们使用4为了更好地比较优化难度,我们没有对两种方法采用零初始化技巧[14]。单次修剪,前1位准确度(%)SE-R50+我们的(0,3)R50+我们的(0,3)R50+我们的(1,3)R50+我们的(2,3)R50+我们的(0,R200SE-R50 R50+我们的(1,0)R152R50+NL(1,0)SE-R50 R50+NL(0,1)R50R50+NL(0,3)R50+NL(2,3)R50439表2:通过在ImageNet验证集上的不同最先进网络上我们发现GloRe单元提供一致的IM-表4:Cityscapes测试集的语义分割结果。所有网络都由测试服务器进行评估。我们的方法是在不使用额外的“粗”训练集的情况下训练的独立于架构的改进在“Res3”或“Res4”处添加n个额外块表3:Cityscapes验证集的语义分割结果。ImageNet预训练的ResNet-50被用作骨干CNN。FCN多重网格+1个GloRe单位+2个GloRe单位Miou简体中文C75.79%CC76.45%0.66%CCC78.25%2.46%CCC77.84%2.05%相同的训练设置进行公平比较。我们通过插入GloRe单元观察到一致的性能增益,即使对于这些精度已经相当高的非常深的模型。同样有趣的是,在“Res 3”和“Res 4”上添加GloRe单元可以进一步提高更深网络的准确性,这与ResNet-50上的观察结果不同,可能是因为更深CNN在“Res 3”中包含比浅ResNet-50更多的4.3. Cityscapes的结果Cityscapes 包 含 了 5 , 000 张 由 Dash 相 机 拍 摄 的2048×1024分辨率的图像。我们用它来评估所提出的方法的密集预测能力的语义分割。与ImageNet相比,更少的图像,更高的分辨率。请注意,我们在训练过程中不使用额外的粗数据[12],这与我们的方法研究正交。每个组件的性能增益如表3所示。可以看出,采用多网格技巧[5]可以帮助提高性能,但最显著的增益来自我们提出的GloRe单元。特别是插入一个GloRe单元,mIoU提高1。8%,与“FCN +多网格”基线相比。此外,我们发现按顺序添加两个GloRe单元不会产生额外的增益,如表的最后一行所示。我们进一步在测试集上运行我们的方法,然后将其预测加载到测试服务器进行评估,结果如表4所示,以及其他最先进的方法。有趣的是,没有铃铛和技巧(即不使用额外的粗糙注释,合作的低级特征或ASPP[5]),我们提出的仅使用ResNet-50作为主干的方法已经可以实现比一些流行的基础更好的准确性,并且基于ResNet- 101的深度模型实现了与最先进技术竞争的性能。图5显示了验证集的结果。如黄色框所突出显示的,GloRe单元增强了骨干CNN的通用化能力,并且能够消除歧义并捕获更多细节。4.4. 动力学结果上一节中的实验证明了所提出的方法在2D图像相关任务上的有效性我们现在评估的3D输入和旗舰视频下的动作识别任务的GloRe单元的性能。我们选择了包含大约30万个视频的大规模Kinetics-400 [20]数据集进行测试。我们采用ResNet-50(3D)和ResNet-101(3D)作为骨架,并在Res 3和Res 4上总共插入5个额外的GloRe单元。骨干网络在ImageNet上进行预训练[22],其中新添加的块被随机初始化并从头开始训练。我们首先与非局部网络(NL-Net)[32]进行比较 我们复制了NL-Net因为我们使用分布式训练,具有更大的批量大小和更少的输入帧以获得更快的速度。我们注意到,复制的模型实现了与作者报道的模型相当的性能,并且成本低得多结果如图6所示,表明所提出的方法在ResNet-50和ResNet-101基线上一致地提高了识别准确性,方法骨干IoU类iIoU类爱猫iIoU猫DeepLab-v2 [4]ResNet101百分之七十点四百分之四十二点六百分之八十六点四67.7%PSPNet [37]ResNet101百分之七十八点四56.7%百分之九十点六78.6%PSANet [38]ResNet101百分之八十点59.1%91.2%79.7%方法Res3Res4GFLOPS#参数Top-1基线4.025.6M百分之七十六点二ResNet50 [16]GloRe(我们的)+3级5.230.5M百分之七十八点四GloRe(我们的)+2个+3级6.031.4M百分之七十八点二SE-ResNet50 [18]基线GloRe(我们的)4.028.1M百分之七十七点二+3级5.233.0M78.7%基线15.064.6M百分之七十八点三440输入地面实况FCN FCN + 1 GloRe单元输入地面实况FCN FCN + 1 GloRe单元图5:Cityscapes验证集的定性分割结果,针对有和没有GloRe装置的FCN。差异用黄色框突出显示。放大后,数字效果更好。成形夹精度(单次向前)69视频精度(10个剪辑)76.568.5766867.56766.566七十五点五7574.574七十三点五7365.572.5成形夹:R50(I3D)成形夹:R101(I3D)香草非局部我们视频:R50(I3D)视频:R101(I3D)香草非局部我们图6:Kinetics-400数据集上的性能比较剪辑级别的前1精度显示在左侧,而视频级别的前1精度显示在右侧。表5:动力学验证集的结果所有方法仅使用RGB信息(无光流)。方法骨干帧FLOPs夹子顶部-1视频顶部-1I3D-RGB [2]inception-V164107.9克–71.1%R(2+1)D-RGB[30]ResNet-xx32152.4 G–72.0%MF-Net [8]MF-Net1611.1 G–百分之七十二点八[35]第三十五话inception-V16471.4 G–百分之七十四点七[32]第三十二话ResNet-50830.5 G67.12%74.57%GloRe(我们的)ResNet-50828.9 G68.02%75.12%[32]第三十二话ResNet-101856.1 G68.48%75.69%GloRe(我们的)ResNet-101854.5 G百分之六十八点七八76.09%并且提供了对NL网络的进一步改进。所有结果(包括与其他先前工作的比较)以及其他最近提出的方法如表5所示。结果表明,通过简单地在基本架构上添加GloRe单元,我们能够优于其他最近的最先进的方法。4.5. 可视化GloRe单元在本节中,我们可视化GloRe单元的内部投影权重。为了生成更高分辨率的内部特征以实现更好的可视化,我们训练了一个较浅的ResNet-18 [16],其中在Res 4的中间插入了一个GloRe单元。我们在ImageNet上训练了模型,512×512输入裁剪,使中间特征图放大2. 2×包含更多细节。图7示出了四个投影图的权重(即,bi在等式(1)两个图像。 所描绘的权重将是441图7:学习的投影权重的可视化(最佳颜色视图红色表示正值,绿色表示负值,颜色亮度表示大小。在每个位置处的对应特征的系数用于整个图像上的加权平均池化,从而在交互空间中给出单个特征描述符。对于这个可视化,我们使用N= 128。正如预期的那样,不同的投影权重图学习专注于不同的全局或局部判别模式。例如,最左边的权重图似乎集中在猫须上,第二个权重图似乎集中在边缘上,第三个权重图似乎集中在眼睛上,最后一个权重图集中在整个空间上,更像是一个全局平均池。5. 结论在本文中,我们提出了一种高效的方法,可以有效地实现全球推理的信息从坐标空间投影到节点的互动空间图,我们可以直接reason在全球感知的歧视性功能。GloRe单元是所提出的方法的有效实例,其中投影和反向投影分别通过加权池化和加权广播来实现它是轻量级的,易于实现和优化,而大量的实验表明,它可以有效地学习各种流行CNN的互补特征,并在许多数据集上持续提高它们在2D和3D任务上的性能。确认Jiashi Feng得到NUS IDS R-263-000-C67-646、ECRAR-263-000-C87-133和MoE Tier-II R-263-000-D17-112的部分支持。442引用[1] G. 贝尔塔修斯湖Torresani,X.Y. Stella和J.石卷积随机游走网络在语义图像分割中的应用。在CVPR,2017年。2[2] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。8[3] S. Chandra,N.我和卡尼尔。Kokkinos使用深度嵌入的稠密低秩高斯crfs。InICCV,2017. 2[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。TPAMI,40(4):834-848,2018。五、七[5] L- C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv:1706.05587,2017. 五、七[6] T. Chen,M. Li,Y. Li,M. Lin,N. Wang,M. Wang,T. 小阿,B. Xu,C. zhang和Z.张某Mxnet:一个灵活、高效的机器学习库,用于异构分布式系统。arXiv预印本arXiv:1512.01274,2015。5[7] Y. Chen,Y. Kalantidis,J. Li,S. Yan和J. Feng. A2-网:双重注意力网络。NeurIPS,2018。二、四、五[8] Y. Chen,Y.Kalantidis,J.Li,S.Yan和J.峰用于视频识别的多光纤网络。ECCV,2018年。五、八[9] Y. Chen,J. Li,H. Xiao,X. Jin,S. Yan和J. Feng.双路径网络。NeurIPS,2017。一、二、五、六、七[10] Y. Chen和J. Z.王.基于区域学习和推理的图像分类。Journal of Machine Learning Research,5(Aug):913-939,2004。1[11] F.胆Xception:使用深度可分离卷积的深度学习。arXiv预印本,第1610-02357页,2017年。2[12] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在CVPR,2016年。五、七[13] J. Dai,H.Qi,Y.Xiong,Y.Li,G.Zhang,H.Hu和Y.伟.可变形卷积网络。InICCV,2017. 2[14] P.戈雅,P.多尔,R.女孩P.诺德豪斯,L. Wesolowski,A. Kyrola,A. Tulloch,Y. Jia和K.他外准确的大小批量sgd:1小时内训练imagenet arXiv预印本arXiv:1706.02677,2017。6[15] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。一、二、五、六[16] K.他,X。Zhang,S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV,2016年。一、二、五、六、七、八[17] A. G. Howard,M.Zhu,B.Chen,中国粘蝇D.Kalenichenko,W.小王,T. Weyand,M. Andreetto和H. Adam. Mobilenets:用于移动视 觉应用的高效 卷积神经网 络。arXiv预印本arXiv:1704.04861,2017。2[18] 胡杰湖,澳-地Shen和G.太阳挤压-激发网络。在CVPR,2018年。一、二、五、六、七[19] G. Huang,Z.柳湖,加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR,2017年。2443[20] W. Kay,J.卡雷拉湾西蒙尼扬湾Zhang C.,中国古猿科希利尔S.Vi- jayanarasimhan,F.Viola,T.格林,T.后退 ,P 。 Natsev 等人 ,The kinetics human actionvideo dataset 。 arXiv 预 印 本 arXiv : 1705.06950 ,2017。五、七[21] T. N. Kipf和M。威林基于图卷积网络的半监督分类。ICLR,2017年。二、四[22] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。InNeurIPS,2012. 五、七[23] Q. Li,Z. Han和X M.吴深入了解用于半监督学习的图卷积网络。AAAI,2018年。4[24] Y. Li 和 A. 古 普 塔 。 Beyond grids : Learning graphrepresentations for visual recognition. 在 NeurIPS , 第92452[25] T.- Y. Lin,L. RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性CNN模型。CVPR,2015。2[26] W. Liu , 中 国 粘 蝇 A. Rabinovich 和 A. C. 伯 格 。Parsenet : 看 得 更 宽 , 看 得 更 好 。 arXiv 预 印 本arXiv:1506.04579,2015。5[27] A. Paszke , S. 格 罗 斯 , S 。 Chintala 和 G. ChananPytorch,2017. 5[28] M. Sandler,A. Howard,M. Zhu,中国茶青冈A.Zhmoginov和L.- C.尘反演残差和线性瓶颈:用于分类、检测和分割的移动网络。arXiv预印本arXiv:1801.04381,2018。2[29] A. Santoro,D. Raposo,D. G. Barrett,M. 马林诺夫斯基R. Pascanu,P. Bat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功