图特征金字塔网络：一个用于目标检测的多尺度特征学习方法

101 浏览量更新于2023-10-08 收藏 1013KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2763†GraphFPN：用于目标检测的图特征金字塔网络复旦大学计算机学院星云AI组赵刚明<$1、2、3、魏峰葛伟1、2、易舟余伟3、12上海市智能信息处理3香港大学计算机科学系摘要特征金字塔在需要多尺度特征的图像理解任务中已被证明是强大的。用于多尺度特征学习的最先进方法专注于使用具有固定拓扑结构的神经网络跨空间和尺度执行特征交互。在本文中，我们提出了图形特征金字塔网络，能够适应其拓扑结构，以不同的内在图像结构，并支持跨所有尺度的同时功能交互。我们首先为每个输入图像定义一个图像特定的超像素层次结构，以表示其内在的图像结构。图形特征金字塔网络从该超像素层级继承其结构。上下文层和层次层旨在实现同一尺度内和不同尺度间的要素交互。为了使这些层更强大，我们通过概括卷积神经网络的全局通道注意力，为图神经网络引入了两种类型的局部通道所提出的图特征金字塔网络可以增强卷积特征金字塔网络的多尺度特征。我们通过将其集成到Faster R-CNN算法中，在对象检测任务改进后的算法不仅优于以前最先进的基于特征金字塔的方法，而且在MS-COCO 2017验证和测试数据集上也优于其他流行的检测方法。1. 介绍深度卷积神经网络利用了局部连通性和权重共享，并导致了一系列本文是赵刚明在复旦大学做访问生时完成的。* 通讯作者：wfge@fudan.edu.cn和y-izhouy@acm.org计算机视觉任务的突破，包括图像识别[23，46，12，47]，物体检测[9，41，33，39，5，30，45]和语义分割[32，54，28，17，52，48]。由于图像中的对象可能具有不同的尺度，因此非常希望获得多尺度特征图，该多尺度特征图在每个不同尺度下融合了具有足够空间分辨率的高级和低级特征这激发了特征金字塔网络（FPN [29]）及其改进版本，如路径聚合网络（ PANet [32] ）和特征金字塔Transformer（FPT [52]）以及其他方法[21，18，8，50，11]。每一幅图像都具有多尺度的内在结构，包括将像素分组为对象部分、将部分进一步分组为对象以及对象在图像空间中的空间布局这种多尺度的内在结构在不同的图像中是不同的，可以为图像理解和目标识别提供重要的线索。但是FPN及其相关方法总是使用固定的多尺度网络拓扑（即，神经元的2D网格）。这种固定的网络拓扑对于多尺度特征学习可能不是最佳的根据心理学证据[13]，人类将视觉场景解析成部分-整体层次结构，并动态地在不同图像中建模部分-整体关系受此启发，研究人员开发了一系列分层分割可以根据超像素的位置和相似性递归地对超像素进行分组，以生成超像素层级[38，34]。这种部分-整体层次结构可以通过弥合像素和对象之间的语义差距来辅助对象检测和语义分割[34]。众所周知，除了同一尺度内的相互作用之外，特征金字塔中的多尺度特征还可以通过跨尺度相互作用[29，32，25，52]来增强。与特征金字塔网络相关的现有方法的另一个限制是，只有来自相邻尺度的特征直接交互，而来自非相邻尺度的特征在-2764···通过其他中间尺度间接相互作用。这部分是因为匹配两个相邻尺度的分辨率是最方便的，部分是因为现有的相互作用机制一次处理相邻尺度之间的相互作用通常遵循自上而下或自下而上的顺序。在现有方案中，金字塔顶部的最高级别特征需要传播通过多个中间尺度，在这种传播和交互期间，基本特征信息可能丢失或减弱。在本文中，我们提出了图特征金字塔网络，以克服上述限制，因为图网络能够适应其拓扑结构，以改变输入图像的内在结构，他们也支持跨所有尺度的同时特征交互。我们首先定义输入图像的超像素层次结构该超像素层次结构具有多个级别，每个级别由定义输入图像的分割的一组非重叠超像素从输入图像的相同分层分割中提取分层的所有级别处的分割。因此，在高分辨率的两个相邻级别处的超像素是密切相关的。粗级上的每个超像素是细级上的超像素的联合。两个层面上的超像素之间的这种一对多对应关系定义了上述部分-整体关系，也可以称为祖先-后代关系。分层分割和超像素层次结构揭示了图像的内在结构。尽管超像素对图像进行过分割，但是相同超像素中的像素通常属于相同的语义对象/部分，并且不跨越语义对象/部分的边界因此，超像素具有比来自均匀图像分区的单元更均匀的像素，并且更有效地防止背景杂波和前方对象之间的特征混合。为了有效地利用内在图像结构，我们的图形特征金字塔网络的实际结构由输入图像的上述超像素层次结构事实上，图形特征金字塔网络通过将超像素映射到图形节点来从超像素层级继承其结构。在相同级别中的相邻超像素以及祖先-后代关系中的对应超像素之间建立图边缘对应关系也建立在我们的图特征金字塔网络和特征提取骨干中的层的子集所有图节点处的初始特征首先从主干中对应位置处的特征映射。上下文和分层图神经网络层旨在促进相同尺度内和不同尺度间的的规模，分别。层次结构使来自不同尺度的相应特征直接交互。图特征金字塔的所有级别处的最终特征与常规特征金字塔网络中的特征融合以产生增强的多尺度特征。我们在本文中的贡献概述如下。我们提出了一种新的图形特征金字塔网络，以利用内在的图像结构，并支持所有尺度上的同时特征交互该图形特征金字塔网络从输入图像的超像素高度上下文层和层次层被设计为分别促进相同尺度内和不同尺度之间的特征交互。我们进一步介绍了两种类型的局部通道注意机制的图形神经网络，通过推广现有的全局通道注意机制的卷积神经网络。在MS-COCO 2017验证和测试数据集[31]上进行的大量实验表明，我们的图形特征金字塔网络可以帮助实现比现有最先进的对象检测方法更好的性能，无论它们是否基于特征金字塔。所报告的消融研究进一步验证了所提出的网络组件的有效性。2. 相关工作功能金字塔。特征金字塔在一系列尺度上呈现高级特征图，并与骨干网络一起工作，以在对象检测[29，32，26，55，52]和语义分割[32，34]中实现多个尺度上的改进和更平衡的性能。54、28、17、52、48]。要素金字塔的最新工作可分为三组：自上而下网络- s [42，44，29，54，4，37]，自上而下/自下而上网络-s [27，32]和基于注意力的方法[52]。特征金字塔网络（FPN [29]）利用深度卷积神经网络固有的多尺度金字塔层次结构，并构建具有横向连接的自顶向下架构，路径聚合网络（PANet [32]）通过自下而上的路径增强缩短了较低层和最顶层特征之间的信息路径，以增强特征层次结构。ZigZagNet [28]不仅通过密集的自上而下和自下而上的聚合，而且还通过自上而下和自下而上层次结构的不同级别之间的曲折交叉来特征金字塔Transformer[52]使用三个变换器在空间和尺度上执行主动特征交互。自变换器使得能够在各个特征图内进行非局部交互，并且接地/渲染变换器使得能够在特征金字塔的相邻级别之间进行连续的自上而下/自下而上的在本文中，我们的目标是填补语义之间的差距2765图1.所提出的图特征金字塔网络（GraphFPN）是建立在超像素层次结构上的图神经网络。GraphFPN从卷积主干接收映射的多尺度特征这些特征在被映射回矩形特征图之前通过GraphFPN中的多个上下文和分层，然后将矩形特征图与卷积FPN的特征图融合以用于后续的对象检测。在不同的金字塔层次上进行特征映射。与上述工作相比，我们的图形特征金字塔网络的最独特的特征是图形特征金字塔的拓扑结构动态地适应输入图像的内在结构。此外，我们构建了一个跨所有尺度的图神经网络，使跨所有尺度的同时特征交互成为可能。图神经网络。图神经网络[24，49，51，10，1]可以灵活地对节点之间的依赖关系进行建模，并且可以应用于具有不规则数据结构的场景。图卷积网络（GCN [20]）在图上执行谱卷积以在节点之间传播信息图注意力网络（GAT [49]）利用局部自注意力层来指定相邻节点的权重，这在许多任务中已经流行起来。Gao等人 [7]提出了具有图池化和非池化操作的图U-Net。图池化层依赖于可训练的相似性度量来自适应地选择节点的子集以形成较粗糙的图，而图解池化层使用保存的信息来将图反转到其配对池化操作之前的我们采用GAT中的自我注意机制[49]在我们的GraphFPN中为了进一步提高节点特征的区分能力，我们通过推广现有的全局CNN的信道注意力机制。与Graph U-Net [7]相比，我们的图金字塔建立在超像素层次结构上。它的节点合并和分裂操作不仅基于局部相似性排名，而且还依赖于内在的图像结构，这使得我们的GraphFPN在图像理解任务中更有效。分层分割和GLOM。通过构建部分-整体层次结构来理解图像一直是计算机视觉中长期存在的开放问题[35，3，2，36]。MCG [38]和COB [34]中的分层分割算法可以使用检测到的边界将图像的像素分组为超像素这些超像素被分层地形成以自下而上的方式描述对象。Hin-ton [14]提出了GLAM假想系统，旨在使用具有固定结构的神经网络将图像解析为图像特定的部分-整体层次结构。给定一个输入图像，我们使用COB [34]中的分层分割来构建一个图像特定的超像素层次，在此基础上，我们进一步构建我们的图特征金字塔网络。本文的贡献之一在于使用特定于图像的部分-整体层次结构来增强多尺度特征学习，这可能有利于图像理解任务，包括对象检测，特征映射特征映射…上下文图形图层层次图形图层上下文图形图层具有主干的特征金字塔图神经网络2766. S，S，... SΣS=.ΣΣSSSSSSS s sSSSS s s S SSM我∈我J.GGGGGΣ(a) 超像素分割（b）特征映射图2.CNN网格单元和超像素之间的映射每个网格单元被分配给其重叠最多的一个超像素。每个超像素都有一个小的网格单元集合分配给它。3. 图特征金字塔网络3.1.超像素层次在分层分割中，像素（或较小的超像素）被递归地分组为具有相似性度量的较大像素[38，34]。给定图像I，我们依赖于卷积定向边界（COB [34]）来获得分层分割，这是一系列图像分割0，1，...L.请注意，图中的每个超像素0是原始输入图像中的单个像素，L仅具有表示整个图像的一个超像素，并且l和l-1中的超像素的数量仅相差1（即，l中的一个超像素是l-1中的两个超像素的并集）。本文在分析了现有文献的基础上，我们选择一个分区的子集01L定义超像素层次l1，l2，l3，l4，l5 ，其中的上标立场-s用于分割层次结构中的分区级别，li是层次结构中的超像素的最精细集合，并且li+1中的超像素是li中的超像素的并集。为了匹配卷积神经网络中的下采样率{11，12，13，14，15}被选择为使得S1i+1中的超像素的数量是S1i中的超像素的数量的1/4。然后超像素层次结构S可以用于表示部分-整体层次结构。化学边用于桥接不同级别之间的语义间隙。请注意，层次边缘是密集的，因为每个节点与其每个祖先和后代之间都有这样的边缘。这些密集的连接导致了巨大的计算和存储器成本。因此，每一个层次边与其节点特征之间的余弦相似性相关联在与节点关联的所有层次边缘中，移除排名在最后50%中的那些。3.3.图神经网络层在图金字塔的基础上构造了一个称为GraphFPN的图神经网络GraphFPN中有两种类型的层，上下文层和层次层。这两种类型的图层在图形金字塔中使用相同的节点集，但使用不同的图形边集。上下文层仅使用上下文边缘，而分层层仅使用修剪的分层边缘。我们的GraphFPN在开始处具有L1上下文层，在中间具有L2分层，并且在结束处具有L3更重要的是，这些层中的每一个都有其自己的可学习参数，这些参数不与任何其他层共享。为简单起见，在我们的实验中，L1、L2和L3始终相等，在消融研究中GraphFPN的详细配置将在补充材料中给出。虽然上下文层和层次层使用不同的边，但这两种类型的层中的GNN操作是完全相同的。两种类型的层共享相同的空间和通道注意机制。我们简单地采用图注意力网络中的自注意力机制[49]as our spatial空间attention注意.给定节点i及其邻近节点的集合Ni，空间注意力如下更新特征输入图像的结构并跟踪祖先-后代超像素之间的关系→h′=M。-h，，-h，Σ，（1）j∈Ni3.2.多尺度图金字塔我们构建图金字塔1、2、3、4、5，其级别对应于超像素层次结构的级别。超像素层级中的每个超像素在图形金字塔的对应级别处具有对应的图形节点因此，当我们从图金字塔的一个级别移动到下一个更高级别时，节点的数量也减少了4倍。我们为图金字塔定义了两种类型的边它们被称为上下文边和层次边。上下文边连接处于相同级别的两个相邻节点，而分层边连接处于不同级别的两个节点，如果在它们对应的超像素之间存在祖先-后代关系的话。上下文边缘用于在相同级别内传播上下文信息，而分层边缘用于在相同级别内传播上下文信息哪里是文献[ 49 ]中的单头自注意，→hj∈Ni是从节点i的邻居收集的特征向量集，→hi和→h′i分别是节点i更新前后的特征向量。信道注意机制由基于平均池化的局部信道注意模块在基于平均池化的局部通道注意中，首先对节点i及其邻居的特征向量进行平均以获得特征向量→a′iRC. 我们将平均特征向量通过具有sigmoid ac的全连接层，并在结果和→h′i之间执行逐元素乘法，→h′i′=σ（W1→a′i）→h′i，（2）2767K|N|KKS ›→P.Σ。Σ˜CCSC SSC CCC C CP P P PC → SKKKⓈ我∈S我P~=，P~1，P~2，P~3，P~4，P~5 .其中σ是指sigmoid函数，W 1RC×C是全连接层的可学习权重矩阵，代表逐元素乘法。在局部通道自关注模块中，我们首先获得节点i及其邻居的特征向量集合A，并将A整形为R（|Ni|+1）×C.这里i是节点i的邻居的大小。然后得到信道相似矩阵X = ATA ∈ RC×C，并应用softmax函数具有最大重叠的超像素。这样的分配导致分配给i中的相同超像素Ri的网格单元的小集合Ci。我们在集合上执行最大池化和最小池化，并将级联池化结果馈送到具有ReLU激活的完全连接层。Ri的映射特征可以写为-hi=δ（W2Σ（Δmax（Ci）Δmin（Ci））Σ），⑷注意模块是′′′′′ ′′（三）其中δ代表ReLU激活，W2是全连接层的可学习权重矩阵，-hi=βX-hi+-hi，连接运算符，以及Δmax（Ci）和Δmin（Ci）其中β是如[6]中初始化为0的可学习权重。我们的局部通道注意力和局部通道自我注意力受到SENet [16]和双注意力网络[6]的启发。最大的不同是我们的频道-K K代表最大池化和最小池化运算符。从GNN到CNN（）的映射一旦我们通过GraphFPN运行了一次前向传递，我们就将其最后一层的特征映射到卷积特征金字塔P. 设Pi是分配给在局部邻域内定义张力，因此s-ki i节点之间的空间变化，而SENet和DualS中的超像素Rk。我们只需复制最终特征到Pi中的每个网格单元。通过这种方式，我们获得了一个注意力网络对所有空间位置的特征应用相同的通道注意力。图神经网络中的局部通道注意力的优点包括低得多的计算成本和更高的空间自适应性，因此非常适合于诸如我们的GraphFPN之类的大型网络。表5中的消融研究表明，我们的双局部通道注意力在我们的GraphFPN中相当有效。3.4. GNN与CNN卷积神经网络可以保留部件和对象的位置信息，这显然有利于对象检测，而图神经网络可以灵活地跨多个语义尺度对部件和对象之间的依赖关系进行建模。请注意，卷积神经网络中的骨干和FPN分别负责多尺度编码和解码，而我们的GraphFPN主要负责多尺度解码。因此，来自骨架的特征用作GraphF-PN的输入。为了利用这两种类型的特征金字塔网络，我们还融合了GraphFP-N和卷积FPN的最终特征。因此，我们需要映射来自主干的特征以初始化GraphFPN，并且还在特征融合之前将最终特征从GraphFPN映射到卷积FPN。骨干和卷积FPN中的多尺度特征图表示为=1，2，3，4，5且=1，2，3，4，5，分别请注意，中的要素图是最终要素骨干中的五个卷积阶段的映射。从CNN映射到GNN（）：我们映射主干的第i个i到i中的第i层。i中的特征位于矩形网格上，其中每个网格单元对应于原始输入图像中的矩形区域，而i中的超像素通常具有不规则形状。如果多个超像素与同一网格部分重叠，如图1（c）所示，我们将网格单元分配给K K卷积FPN的第i层的新特征图P我们将Pi与P连接起来，并将连接的特征映射馈送到具有1×1内核的卷积层以确保融合特征图Pi具有与Pi相同数量的通道。最终的l，y，融合特征p金字塔为3.5. 对象检测所提出的图形特征金字塔网络可以通过用上述融合特征金字塔替换传统的FPN来集成到[29]中的对象检测流水线中我们采用Faster-RCNN作为我们的检测算法，并执行相同的端到端训练。在接下来的章节中，我们进行了大量的实验，在目标检测，以验证所提出的方法的有效性。4. 实验数据集。我们在MS CO-CO 2017检测数据集[31]上评估了所提出的方法，该数据集包含118 k个训练图像、5 k个验证图像和20 k个测试图像。性能评价指标包括标准平均精度（AP）、AP50、AP75、APS、APM和APL。我们报告了验证集的消融研究结果，并报告了标准测试集的结果，以与最先进的算法进行比较实作详细数据。我们已经使用PyTorch完全实现了GraphFPN，本文中使用的所有模型作为一种常见的做法[29，28]，所有骨干网络都在ImageNet1k图像分类数据集[23]上进行预训练，然后在检测数据集的训练集上进行微调。Faster-RCNN [40]被采用作为我们的对象检测框架，并且我们遵循FPT [52]中的设置来设置到X的每一行。本地通道自2768方法培训战略APAP50AP75APSAPMAPL更快的R-CNN [40]基线33.153.834.612.635.349.5更快的R-CNN+FPN [29]基线36.259.139.018.239.052.4更快的R-CNN+FPN [29]MT+AH37.959.640.119.641.053.5潘[32]基线37.360.439.918.939.753.0潘[32]MT+AH39.060.841.720.241.554.1[28]第二十八话基线39.5–––––[28]第二十八话MT+AH40.161.242.621.942.454.3更快的R-CNN+FPN+FPT [52]基线41.660.944.023.441.553.1更快的R-CNN+FPN+FPT [52]啊41.162.046.624.242.153.3更快的R-CNN+FPN+FPT [52]Mt41.262.146.024.141.953.2更快的R-CNN+FPN+FPT [52]MT+AH42.662.446.924.943.054.5我们基线42.161.346.123.641.153.3我们啊42.763.047.225.643.153.3我们Mt42.462.746.924.343.153.6我们MT+AH43.7（↑1.1）64.0（↑1.6）48.2（↑1.3）27.2（↑2.3）43.4（↑0.4）54.2（↓0.3）表1.与MS-COCO 2017测试开发中基于最新特征金字塔的方法进行比较[31]。“AH” and “MT” stand for augmented head and multi-scale training strategies [所有列出的方法的主干是ResNet101 [12]。方法检测框架APAP50AP75APSAPMAPLRetinaNet + FPN [30]RetineNet40.460.243.224.044.352.2更快的R-CNN+FPN [29]Faster R-CNN42.062.545.925.245.654.6DETR [5]集合预测44.964.747.723.749.562.3可变形DETR [56]集合预测43.862.647.726.447.158.0稀疏R-CNN+FPN [52]稀疏R-CNN45.664.649.528.348.361.6我们Faster R-CNN46.7（↑1.1）65.1（↑0.5）50.1（↑0.6）29.2（↑0.9）49.1（↓0.8）61.8（↓0.2）表2.与MS-COCO 2017 val set上的其他流行对象检测器的比较[31]。所有列出的方法的主干是ResNet101 [12]。探测头在训练过程中，我们采用Adam [19]作为优化器，并将权重衰减和动量分别设置为0.0001和0.9。每个mini-batch包含- s 16个图像，并以同步批处理规范（SBN [53]）分布在8个GPU上。为了公平的比较，输入图像的大小调整为800/1,000像素沿较短/较长的边缘。在所有实验中使用的模型在检测训练集上用36个时期进行训练。初始学习率被设置为0.001，其分别在第27和第33历元处减小10倍。在COCO数据集上训练与我们的GraphFPN集成的更快的RCNN模型需要38小时我们使用COB项目1[34]提供的代码来计算分层分割，并在数据准备期间为每个图像需要平均0.120秒来构建图像的超像素层次，这对于对象检测任务来说是合理的。注意，COB中使用的机器学习模型总是在与检测任务相同的训练集上进行训练1https://cvlsegmentation.github.io/cob/4.1. 与最新方法的我们将我们的方法（GraphFPN+FPN）的对象检测性能与现有的最先进的基于特征金字塔的方法进行了比较，包括特征金字塔网络（FPN [29]），路径聚合网络（PANet [32]），ZigZagNet [28]和特征金字塔变换器（FPT [52]），使用Faster-RCNN作为检测框架来验证两种方法中特征交互的有效性。上下文层和分层。表1显示了在各种设置中使用上述最先进方法在MSCOCO 2017测试开发[31]上我们的方法实现了最高的AP（43.7%），优于其他国家的最先进的算法至少1.1% ，并保持领先地位的 AP50 ， AP75 ， APS ，和APM。与Faster-RCNN基线[40]相比，我们方法的AP高出10.6%。这表明多尺度高级特征学习对于目标检测至关重要。当我们的方法与单独的FPN [29]相比时，AP的改善达到7.5%，这进一步表明GraphFPN显著增强了原始的多尺度特征学习2769儿子尔森沙发人人每人P人员人员M电机P电机电机RMoto尔森人手袋沙发键盘手袋椅子沙发键盘电机电机电机电机人电机人人沙发椅子椅子盆栽书盆栽书盆栽电机电机人人奥托尔(a)图像（b）FPN（c）FPT（d）GraphFPN图3.来自FPN [29]、FPT [52]和我们的基于GraphFPN的方法的样品检测结果方法ParamsGFLOPS测试速度（s）更快的RCNN [40]34.6百万172.30.139更快的RCNN + FPN [29]64.1百万240.60.051更快的RCNN + FPN + FPT [52]88.2百万346.20.146RCNN + FPN + GraphFPN100.0百万380.00.157COB +更快的RCNN + FPN + GraphFPN121.0个月393.10.277表3.可学习参数的数量、总计算成本和几个检测模型的平均测试速度。所有实验均在NVidia TITAN 2080Ti GPU上运行。多尺度特征的交互与融合是一种有效的目标检测方法。这样的改进还示出了构建在超像素层级之上的图能够捕获图像的固有结构，并且有助于高级图像理解任务。与FPT [52]相比，我们的方法在五个评估指标上实现了更好的性能，包括AP，AP 50，AP 75，AP S和AP M，但AP L除外。我们将这种表现归因于三个因素。首先，图神经网络通过动态连接节点在不同语义尺度上传播信息的效率更高，而FPT必须以自顶向下和自底向上组合的级联方式广播信息。其次，超像素层次结构捕获图像的内在结构，这有利于小尺度对象的检测S.然后，我们的方法实现了2.3%的改善APS相比FPT。第三，超像素层次结构不太适合检测大规模对象，这可以通过APL上的较差结果来验证。4.2. 与其他物体探测器的除了与基于特征金字塔的检测方法进行比较之外，我们还将我们的方法与其他流行的检测器进行了比较。如表2所示，我们的方法基于更快的R-CNN + FPN + GraphFPN优于所有此类检测器，包括RetinaNet [30]，DETR [5]，Deformable DETR[56]和Sparse R-CNN+FPN [52]，当它们使用与我们的方法相同的主干时，它们的表现明显。我们的方法在所有六个性能指标下实现了令人信服的性能这表明我们的GraphFPN能够显著增强检测网络的特征表示，从而带来卓越的检测性能。4.3. 可学习参数和计算成本表3提供了一些检测模型的可学习参数的数量、总计算成本和平均测试速度更快的RCNN [40]作为我们的基线，它有 3460 万个可学习的参数和 172.3GFLOPs。处理一张图像平均需要0.139秒。我们的GraphFPN工作在更快的RCNN和FPN之上，整个管道的可学习参数增加了1.89倍，GFLOPs增加了1.21倍，测试时间延长了12.9%如果我们考虑到超像素层次结构的构建，COB [34]模型具有21（+21%）mil。狮子参数， 13.1 （ +3.4% ） GFLOPs ，和 0.12（+76.4%）秒的时间成本。这是因为COB [34]需要检测图像中的轮廓并构建分层分段，2770××C C ×× C ×36.2 19.2 36.3 54.4电话：+86-510 - 88888888传真：+86-510 - 88888888表4.GraphFPN中上下文层和层次层的消融研究 C和代表一个模块的存在与否。检测结果报告在MS-COCO 2017 val set [31]中。SA LCA LSA AP APSAPMAPLC × CC C ×37.6 21.8 37.7 55.1C × × 37.1 21.1 36.7 54.1表5.注意机制的消融研究。“SA”代表空间注意模块，“LCA”代表局部通道注意模块，“LSA”代表局部通道自注意模块。C和是否代表模块的存在。检测结果报告在MS-COCO2017 val set [31]中。NAPAP50AP75APSAPMAPL136.156.335.419.337.955.4237.257.638.521.238.355.8339.158.339.422.438.956.7438.157.838.922.238.656.3537.157.138.021.937.955.4表6.GraphFPN中层数的烧蚀研究N是三组层中的每一组中的层数。因此，层的总数为3N。检测结果报告在MS-COCO2017 val set [31]中。在CPU上。事实上，分层分割可以使用CUDA实现并在GPU上运行，这将大大减少测试时间。4.4. 消融研究为了研究我们的GraphFPN中单个组件的有效性，我们通过从我们的管道中更换或移除单个组件来进行消融研究。我们针对GNN层的配置（不同类型GNN层的组合和排序）、GNN层的总数以及空间和通道注意机制专门设计了消融研究。GNN层配置。在我们的最终管道中，层的具体配置如下：上下文层、一组分级层和第二组上下文层。所有组中的层数相同。表4显示了这些层配置的消融研究结果。当我们删除第一组上下文层时，AP下降了0.9%。这意味着在跨尺度操作之前，有必要在相同尺度然后，我们移除第二组上下文层，AP下降0.4%，这表明上下文信息传播仍然有帮助，即使在第一组上下文层之后是一组分层层-S.如果我们只保留一组上下文层或层次层，AP分别下降2.9%和1.9%，这表明这两种类型的层是真正互补的。GNN层数。GNN中的层数影响其整体辨别能力。表6示出了在每种类型中具有不同层数的实验结果。当L=3时，这意味着三个组中的每一个都有3层，总层数为9，我们的方法在所有五个性能指标上都取得了最佳结果。当存在太多的图形层时，性能变差。我们将其归因于梯度消失。注意力机制。在表5所示的消融研究中，我们验证了空间自我注意和两个局部通道注意机制的有效性当我们去除空间自我注意时，AP下降了1.3%。这意味着空间注意力在建模邻域依赖性方面是强大的。如果我们去除基于局部平均池化的信道关注或局部信道自关注，AP分别下降1.2%和1.5%。这表明这两种局部通道注意机制是互补的，并显著提高了深层特征的区分能力。如果我们完全移除两个信道注意机制，AP差2%。5. 结论在本文中，我们提出了图形特征金字塔网络，能够适应其拓扑结构的输入图像的不同的内在结构，并支持跨所有尺度的同时功能交互。我们的图特征金字塔网络继承了其结构来自根据分层分割构造的超像素分层。上下文和层次图神经网络层被定义为分别在同一尺度内和不同尺度之间实现特征交互。为了使这些层更强大，我们进一步为图神经网络引入了两种类型的局部通道注意力。广泛的实验表明，与我们的图特征金字塔网络集成的 Faster R-CNN+FPN 在 MS-COCO 2017验证和测试数据集上的性能优于现有的最先进的对象检测方法。CCGL-1HGLCGL-2APAPSAPMAPLCCC39.122.438.956.7×CC38.238.722.122.138.738.956.156.6CCC39.1 22.438.956.7×CC37.8 21.937.9 21.637.437.356.256.42771引用[1] 异构图形注意力网络。在2019年的万维网大会上。3[2] Serge Belongie Jitendra Malik和Jan Puzicha。使用形状上下文的形状匹配和物体识别。IEEE模式分析与机器智能学报，24（4）：509-522，2002。3[3] Elie Bienenstock Stuart Geman和Daniel Potter组合性、MDL先验和对象识别。神经信息处理系统进展，第838-844页，1997。3[4] 彼得·比林斯基和维克多·普拉萨卡留。用于单遍语义分割的密集解码器快捷连接。在IEEE计算机视觉和模式识别会议的论文集，第6596-6605页，2018年。2[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中，第213Springer，2020年。一、六、七[6] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3146- 3154页，2019年。5[7] Hongyang Gao和Shuiwang Ji。图u网。在2019年第36届机器学习国际会议上。3[8] G. Ghiasi，T. Y. Lin和Q. V. Le. Nas-fpn：学习可缩放的特征金字塔结构用于对象检测。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。1[9] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5801[10] 公与羌成。利用图神经网络的边缘特征。在IEEE计算机视觉和模式识别会议上，2019年6月。3[11] C.郭湾，澳-地范角，澳-地Zhang，S. Xiang和C.锅Augfpn：改进用于对象检测的多尺度特征学习。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。1[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1、6[13] 杰弗里·辛顿心理意象中结构描述Cognitive Science，3（3）：231-250，1979. 1[14] 杰弗里·辛顿如何在神经网络中表示部分-整体层次结构arXiv预印本arXiv：2102.12627，2021。3[15] Geoffrey E Hinton，Sara Sabour，and Nicholas Frosst.带有电磁路由的矩阵胶囊。在2018年学习表征国际会议上。1[16] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页，2018年。5[17] DebeshJha ， MichaelAR iegler， DagJohansen ， P a˚ lHalvors- en，andHa˚vardDJohansen.Doubleu-net：一种用于医学图像分割的深度卷积2020年IEEE第33届基于计算机的医疗系统国际研讨会（CBMS），第558-564页。IEEE，2020年。一、二[18] Y. 金湾，澳-地N. Kang和D.Kim. San：用于多尺度对象检测的卷积特征之间的学习关系：第15届欧洲会议，慕尼黑，德国，2018年9月8日至14日，会议记录，第五部分。Springer，Cham，2018. 1[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[20] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。3[21] T.孔氏F.太阳，W。Huang和H.刘某用于对象检测的深度特征金字塔重构。2018. 1[22] Adam R Kosiorek ， Sara Sabour ， Yee Whye Teh 和Geoffrey E Hinton。堆叠式胶囊自动编码器。arXiv预印本arXiv：1906.06818，2019。1[23] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。神经信息处理系统的进展，第1097-1105页，2012年。一、五[24] Guohao Li，Matthias Muller，Ali Thabet，and BernardGhanem. Deepgcns：gcns能和cnns一样深吗？在IEEE计算机视觉国际会议的论文集，第9267-9276页，2019年。3[25] Yanghao Li ， Yuntao Chen ， Naiyan Wang ， andZhaoxiang Zhang.用于对象检测的尺度感知三叉神经网络。在IEEE/CVF计算机视觉国际会议论文集，第6054-6063页，2019年。1[26] Zeming Li，Chao Peng，Gang Yu，Xiangyu Zhang，Yangdong Deng，and Jian Sun.Detnet：设计对象检测的主干。在欧洲计算机视觉会议（ECCV）的会议记录中，第334-350页，2018年。2[27] Di Lin，Yuanfeng Ji，

下载后可阅读完整内容，剩余1页未读，立即下载