提高单次目标检测准确性的NETNet网络

148 浏览量更新于2023-10-23 收藏 17.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yazhao Li1, Yanwei Pang1∗, Jianbing Shen2, Jiale Cao1, Ling Shao21{lyztju, pyw, connor}@tju.edu.cn,2{shenjianbingcg@gmail.com, ling.shao@ieee.org}Person: 0.953Person: 0.989Sports ball:0.982Tennis racket: 0.933Person: 0.837Person: 0.676Surfboard:0.915Person: 0.999Surfboard: 0.985133490NETNet：邻居擦除和传输网络以实现更好的单次目标检测01 天津大学电气与信息工程学院，脑启发智能技术天津市重点实验室，中国天津 2阿布扎比人工智能研究所，阿联酋0摘要0由于实时检测和性能改进的优势，单次检测器近年来受到了极大的关注。为了解决复杂的尺度变化，单次检测器基于多个金字塔层进行尺度感知预测。然而，金字塔中的特征对尺度感知不够敏感，这限制了检测性能。单次检测器中由对象尺度变化引起的两个常见问题如下：(1)小对象容易被漏检；(2)大对象的显著部分有时会被检测为对象。基于这一观察，我们提出了一种新的邻居擦除和传输（NET）机制来重新配置金字塔特征并探索尺度感知特征。在NET中，设计了一个邻居擦除模块（NEM）来擦除大对象的显著特征，并在浅层中强调小对象的特征。引入了一个邻居传输模块（NTM）来传输被擦除的特征并在深层中突出显示大对象。通过这种机制，构建了一个名为NETNet的单次检测网络，用于尺度感知目标检测。此外，我们提出了聚合最近邻金字塔特征以增强我们的NET。NETNet在MS COCO数据集上以27FPS的速度实现了38.5%的AP，以55FPS的速度实现了32.0%的AP。因此，NETNet在实时和准确的目标检测方面取得了更好的权衡。01. 引言0随着深度神经网络[ 26 , 43 , 7]的出现，基于深度网络的目标检测在检测准确性[ 13 , 5 ,27 ]和检测效率[ 39 , 40 , 18]方面取得了显著进展。尽管取得了这一成功，实际场景中的复杂尺度变化仍然存在作为准确目标检测的基本挑战和瓶颈。0� 通讯作者：Yanwei Pang0(a) 基准线 (b) 基准线特征0(c) 我们的 (d) 我们的特征 (I)解决漏检问题0(e) 基准线 (f) 基准线特征0(g) 我们的 (h) 我们的特征 (II)解决部分误报问题0图1. 基准线SSD [ 35]的两个常见检测问题及使用我们的NETNet的解决方案。可视化特征是从第一个金字塔层中提取的，用于检测小对象。 (I)漏检问题。小对象（网球拍，运动球）在(a)中被漏检，因为小对象的特征在相应的金字塔特征(b)上不明显。我们的NETNet通过擦除大对象的特征并专注于小对象来高置信度地检测小对象，如(c,d)所示。 (II)部分误报问题。在基准线中，头部被检测为另一个人，因为这个部分区域在用于检测小对象的特征(f)上被突出显示。我们的NETNet通过抑制大对象的显著部分特征来解决这个问题，如(h)所示。0tection [ 44 , 45 , 20]。由于实时检测效率和准确检测性能之间的最佳权衡，单次检测器[ 35 , 31]最近越来越受欢迎。探索多级特征对于解决复杂的尺度变化是必不可少的[ 36 , 58 , 50 ]。单次检测器SSD [ 35]是基于金字塔特征表示提出和发展的。SSD通过在金字塔的不同层中检测不同大小的对象来实现尺度感知目标检测，这是因为具有小特征分辨率的深层特征对于大对象包含更多的语义信息，而小对象的特征则在具有大特征分辨率的浅层中找到[ 24 , 59 ]。因此，浅层负责检测小对象和DDDDDDDDErase &TransferErase &TransferDDDD133500深层主要用于检测大物体。基于特征金字塔，一些方法通过使用额外的特征金字塔融合多尺度特征来进一步增强特征表示，已经被证明对于提高检测性能很有用[25, 12, 30, 31,22]。尽管单次检测器通过采用特征金字塔取得了很大进展，但仍然存在一些失败案例，例如缺失小物体和定位不准[17,23]，这限制了检测性能。在大多数先前的单次检测器中，特征在一个特定的金字塔层上即使是在一个特定的金字塔层上也是混淆的，而不是尺度感知的。例如，在特征金字塔的一些浅层中，既存在小物体的特征，也存在大物体的特征。如图1所示，在用于检测小物体的浅层特征(b)中，大物体的特征占主导地位，削弱了小物体的特征，从而阻止了小物体的检测（例如，图(a)中的运动球在最终结果中没有被检测到）。此外，大物体的某些部分在浅层特征上具有强响应区域。例如，图1(e)中的头部区域在(f)中被突出显示，导致头部区域的错误检测。因此，特征是混淆的，很难解决这两个问题，即假阴性问题和部分假阳性问题。基于这一观察，我们提出生成尺度感知特征以实现更好的单次目标检测。为了实现这一目标，我们通过消除冗余特征来减轻特征尺度混淆。因此，我们只保留浅层的小物体特征，擦除大物体的特征。然后，我们使用这些小尺度感知特征来检测小物体。如图1(d)所示，大多数大物体的特征被移除。小物体的特征因此得到强调，使得小运动球能够被精确检测到。大物体的显著特征也可以被抑制，以减轻部分假阳性问题，如(h)所示。同时，将这些被擦除的特征转移到合适的尺度（即大尺度）空间可以增强大物体的特征，并提高整体检测性能。我们方法的主要贡献如下：我们提出了一种邻居擦除和转移（NET）机制来生成尺度感知特征。我们的NET机制中设计了两个模块，邻居擦除模块（NEM）和邻居转移模块（NTM），分别用于解决尺度混淆和增强特征聚合。NEM采用反向门导向的擦除过程，从浅层提取和擦除大物体特征。然后，NTM通过将大物体特征转移到深层金字塔层来增强深层特征。通过我们的NET机制，我们构建了一个修改后的单次网络NET-Net，同时嵌入了尺度感知特征和尺度感知预测。在NETNet中，0(a) 尺度不可知检测器 (b) 多分支尺度感知检测器0(c) 尺度感知检测器 (d) 带有尺度感知特征的尺度感知检测器0图2. 不同的目标检测器。0我们通过引入最近邻融合模块（NNFM）来丰富金字塔特征。因此，我们的NETNet能够以比先前的单次检测器更好的平衡快速和准确的目标检测。02. 相关工作0尺度不可知检测器。最近的大多数目标检测器都是基于深度网络构建的。具有CNN特征的区域（R-CNN）方法[14,13]将CNN集成到目标检测中，并取得了有希望的性能。作为两阶段方法，FasterR-CNN[41]提出了一个轻量级网络用于生成候选框，并构建了一个完整的端到端网络作为检测网络。像YOLO[39]、Faster R-CNN[13]、R-FCN[5]和其他变种[29, 6,1]一样的方法在提高检测精度和效率方面取得了显著进展。如图2(a)所示，这类方法通过利用最深的单尺度高级特征来检测各种尺度的所有物体。因此，这些检测器是尺度不可知的检测器。尺度感知检测器。由于复杂的尺度变化，许多研究人员已经探索利用多尺度金字塔特征进行目标检测[30,10]以及其他视觉任务[37, 48, 46,51]。SSD[35]是一种单次（即单阶段）检测器，它提出基于多层金字塔特征进行尺度感知预测。浅层特征用于检测小物体，深层特征用于大物体。RF-BNet[33]嵌入多尺度感受野以增强特征的可辨识性。DES[59]通过语义分割分支和全局激活模块丰富了物体特征的语义。FPN[30]、DSSD[10]和RONet[24]涉及额外的自顶向下特征金字塔，并在这些金字塔的每个尺度上检测物体，如图2(c)所示。最近的方法[31,21, 19, 61,60]已经探索了金字塔特征的优势，并取得了有希望的结果。Kong等人[22]提出通过聚合多层特征并将其重新分配到不同的层级来重新配置金字塔特征。最近的TridentNet[28]尝试通过嵌入不同的感受野来通过并行的多分支架构生成尺度特定的特征，如图2(b)所示，133510通过引入擦除和传递机制，我们为单次目标检测生成了尺度感知特征，并在两阶段检测器上取得了有希望的改进。与这些方法不同，我们提出使用擦除和传递机制生成尺度感知特征进行单次目标检测。擦除策略在弱监督目标定位[54,57]、弱监督语义分割[16]和显著目标检测[4]中也得到了研究。在这些方法中，已经识别出的区域被擦除以迭代地改进预测结果。与它们不同的是，我们提出使用擦除策略通过去除尺度不相关的特征来重新配置金字塔特征为尺度感知特征。浅层中的擦除特征进一步传递以增强深层特征，而不是像以前的擦除方法那样丢弃它们。此外，注意力机制最近得到了广泛的探索。我们引入了一个注意力来指导擦除和传递。如图2(d)所示，我们旨在通过擦除和传递操作重新配置金字塔特征为尺度感知特征，并减轻尺度混淆。然后，我们构建了一个单次尺度感知检测器以实现更准确的目标检测。03. NET机制0为了解决复杂的尺度变化，我们提出为目标检测生成尺度感知特征。从图1(b)和(f)可以观察到，浅层金字塔层中的特征包含大目标和小目标的详细信息。然而，大目标的特征更加显著，这导致小目标在图1(a)中被忽略，并且在图1(e)中出现部分误检问题。我们提出了一种NET机制来重新配置基本的金字塔特征为尺度感知特征，而不是像以前的自顶向下特征金字塔[30,10]那样进行特征融合。如图3(a)所示，在NET机制中，包含一个特征擦除模块（即NEM）和一个特征传递模块（即NTM）。NEM被设计用于从浅层中去除大目标特征并强调小目标的特征。然后，NTM用于将这些特征传递以增强深层特征。由于我们的方法旨在生成尺度感知特征进行尺度感知预测，我们将典型的单次检测器SSD[35]作为基线，其中采用了来自主干网络的金字塔进行多尺度预测。我们首先分析了基线SSD中的特征金字塔。然后，我们介绍了NET机制中NEM和NTM的细节。03.1. 基本特征金字塔0在SSD中，探索特征金字塔以检测不同尺度的目标。我们用特定尺度 s 表示对象 x s 。所有 S 个尺度的对象表示为0X = {x 1 , x 2 , ..., x S }，其中 x 1 表示最小尺度的对象，xS表示最大尺度的对象。SSD通过利用多个CNN层在金字塔层次结构中检测对象，每个层负责检测特定尺度的对象[38]。在具有 S 层的特征金字塔中，我们将来自第 s层的特征表示为 p s ，并将所有金字塔特征表示为 P = {p 1, p 2 , ..., p S }，其中 p 1表示浅层金字塔层中用于检测小目标 x 1的最高分辨率特征。通过金字塔中的特征池化，特征分辨率从 p 1 降低到 p S。显然，从浅层到深层逐渐丢弃了小目标的信息。由于SSD的输入图像尺寸较小（例如，300 ×300），深层（例如，具有空间尺寸 5 ×5）仅包含大目标的特征。因此，我们可以近似得到：p s =f s (x s , x s +1 , ..., x S) ，(1)0在金字塔中，f s ( x )表示金字塔的特征提取。浅层中的特征尺度混淆（例如，p1包含各种尺度的目标特征）使得检测小目标变得困难，并导致大量的部分检测，如图1所示。我们提出重新配置金字塔特征为尺度感知特征，并解决这些问题。03.2.邻居擦除模块0为了减轻特征尺度混淆，我们提出了邻居擦除模块(NEM)来过滤掉冗余特征。假设两个相邻的金字塔层，sth层和(s+1)th层。显然，sth层中的特征ps=fs(xs,xs+1,...,xS)∈Rhs×ws×cs对于对象xs比(s+1)th层中的特征ps+1=fs+1(xs+1,...,xS)∈Rhs+1×ws+1×cs+1具有更多的信息，其中(hs>hs+1,ws>ws+1)。基于这种特征分布，我们可以通过擦除尺度范围为[s+1,S]的对象的特征pes=fs(xs+1,...,xS)来生成尺度为s的对象的特征˜ps=fs(xs)，如下所示：0˜ps=ps�pes=fs(xs,...,xS)�fs(xs+1,...,xS),(2)其中�表示逐元素减法。注意到金字塔特征ps+1仅包含尺度范围为[s+1,S]的对象的信息，因此我们使用ps+1来指导等式2中的特征擦除。具体而言，我们通过以下方式从ps中提取特征pes：0pes=ps⊙Fs+1→s(ps+1)，(3)其中⊙表示哈达玛积。Fs+1→s(ps+1)可以表示为一个软空间门gss+1∈[0,1]hs×ws×c0(c来自{1,cs})。我们通过使用(s+1)th金字塔层的特征来生成该门，并将其用于指导抑制ps中对象{xs+1,...,xS}的特征。在我们的实现中，我们计算这个空间门如下：0gss+1=Fs+1→s(ps+1)=101+e−G(U(ps+1);Wss+1)，(4)𝑝5𝑠78 Pyramid Feature𝑝̂5𝑠78 Scale-Aware Pyramid Feature𝑝:5#; Enhanced FeatureGenerated Soft Spatial Gate𝒈𝒔#𝟏𝒔𝑠 + 178 Pyramid Feature𝑝5#;𝑝@5𝑠78 Erased Feature𝓕𝒔#𝟏→𝒔 Gate Generation Module in NEM𝓣𝒔→𝒔#𝟏 Transferring Module in NTM133520� � � �#�0��0��#�→�0��#�0��0�0�. �0(b)邻居擦除模块0� � � �#�0��0�. �#�0��→�#�0�0�1�0(c)邻居传递模块0函数逐元素求和�哈达玛积�0�下采样�0逐元素减法�0NEM0NTM0� � � �#�0(a)邻居擦除和传递机制0�. � �. �#�0图3.邻居擦除和传递(NET)机制(a)，包括(b)邻居擦除模块(NEM)和(c)邻居传递模块(NTM)。经过NETM后，˜ps突出显示小物体，深层特征˜ps+1包含更多大物体的信息。0其中U(ps+1)将ps+1上采样到pss+1∈Rhs×ws×cs+1，以保持门gss+1和特征ps之间的一致空间分辨率。我们使用可学习权重Wss+1来实现门函数G(.)。实际上，由于G(.)可以表示为一个自注意函数[53]，其中可以从输入特征中提取对象的注意力，我们可以基于[53]和[11]中的空间注意机制构建它。或者，我们可以选择沿通道方向使用最大池化或平均池化来生成一个空间注意图(c=1)，就像[55]中的那样：G(pss+1)=Pmax(pss+1)或Pavg(pss+1)，(5)0或通过使用卷积层Wss+1来组合最大池化Pmax(.)和平均池化Pavg(.)。在我们的实现中，我们使用一个1×1×cs的卷积层C1×1，如下所示：0G(pss+1)=C1×1(pss+1;Wss+1)，(6)通过生成通道级空间门来提取和抑制pss中较大物体的特征，因为根据第5.1节的证明，这是精度和效率之间的最佳权衡。总之，我们通过反向门抑制较大物体的特征，从而为较小物体xs生成尺度感知特征˜ps，如下所示：˜ps=fs(xs)=ps�pes=ps�(ps⊙gss+1)。(7)03.3. 邻居传递模块0如上所述，在金字塔特征 p s 中，也包含了一些对象 { x s+1 , x s +2 , ..., x S } 的详细信息.尽管这些详细信息会干扰对较小对象 x s的特征提取，但对于增强较大对象 x n ( n > s )的特征以实现更准确的分类和定位是有帮助的.因此，我们提出将这些特征从浅层（例如 p s）传递到深层（例如 p s +1 ）. 如第3.2节中所述，由 p s+1 生成的软空间门 g s s +1 在对象 { x s +1 , ..., x S }的区域上具有较大的激活值. 因此，方程式3中的 p es有助于提取这些较大对象的详细信息.0这些较大对象的详细信息. 我们将这些详细信息 p es进行传递，并得到新的金字塔特征 ˜ p s +1 ∈ R h s +1× w s +1 × c s +1 ，如下所示: ˜ p s +1 = T s → s +1 (p es , p s +1 )0= C 1 × 1 ( D ( p es ); W s +1 s ) ⊕ p s +1 ,(8)0由下采样操作 D ( . ) 和可学习的卷积层 C 1 × 1(具有可学习参数 W s +1 s ∈ R 1 × 1 × c s × c s +1，用于保持一致的通道数) 组成，以匹配特征分辨率.我们通过元素级求和操作 ⊕ 来通过结合来自 p es的详细信息来增强 p s +1 . 我们在图3(c)中展示了这个邻居传递模块（NTM）. 增强的特征 ˜ p s+1被用作后续的尺度感知特征生成和尺度感知目标检测的新金字塔特征.04. 单次检测器: NETNet0像SSD[35]这样的单次目标检测器直接基于预定义的锚点进行回归和分类.这为SSD提供了更好的权衡，以实现实时检测和有希望的性能.但是，SSD在检测小物体方面表现不佳，并且在定位方面也存在不准确的问题，如图1所示.为了解决这些问题，我们设计了一个新的单次目标检测网络，称为NETNet，将提出的NET机制作为尺度感知检测器进行嵌入. 在NETNet中，我们构建了与SSD相同的主干网络.以输入图像尺寸为300×300的网络为例，我们在图4(a)中展示了NETNet的主要网络架构.从主干网络中提取六个金字塔级别的特征 { p 1 , p 2 , p 3 ,p 4 , p 5 , p 6 } ，分辨率分别为 { 38 × 38, 19 × 19, 10 ×10, 5 × 5, 3 × 3, 1 × 1 } .基于基本金字塔，我们构建了NET模块（NETM）来生成尺度感知特征并解决上述尺度问题.在实现中，最近邻金字塔级别之间存在一些尺度重叠 [34,62]𝒑𝒔,𝟏𝒑𝒔𝒑𝒔-𝟏𝒑𝒇𝒔In typical single-shot detectors, features in the shallowlayers (e.g., p1 with larger feature resolution 38×38) areused for detecting smaller objects, while features in deeperlayers (e.g., p3 with smaller resolution 10×10) are usedfor detecting larger objects. Because features with smallresolutions (e.g., 3×3) have large receptive ﬁelds and lessspatial information, we ﬁnally embed two NETMs in NET-Net for feature erasing and transferring without using fea-tures p5 and p6. Due to the anchor conﬁguration in SSD,two anchors in the nearest pyramid layers (e.g., p1 and p2)may share the same ground truth. That is, one small objectshould be detected in p1 and p2 simultaneously. To avoiddisturbing the overlapped supervision, our NETNet is elab-orately designed by embedding two skipped NETMs.One NETM is built upon the pyramid features of p1 andp3. To erase the features of larger objects from the shallowlayer p1, we ﬁrst upsample p3 and use a 1 × 1 convolu-tion to generate soft spatial gate as Eq. 4 for larger objects.We evaluate the effects of several different spatial attentionmethods and choose channel-wise spatial attention as Eq. 6.Then, an erasing operation in Eq. 7 generates features forsmaller objects. We also embed a light fusion module into133530主干网络0� " � # � $ � %0� & � '0NNFM NNFM NNFM NNFM0NTM0NETM0NTM0NETM0DH 1 DH 2 DH 3 DH 40DH 50DH 60(b) 最近邻融合模块 (a) NETNet的主要架构0C,�×�0C,�×�0C,�×�0�0�0�0DH # 检测头 C, 1×1 卷积层0� 上采样 � 下采样 � 元素级求和 � �� 金字塔特征通过融合增强的特征0NNFM 最近邻融合模块0NETM 邻居擦除和传递模块0图4. 提出的NETNet. (a) NETNet的主要架构. 我们以输入尺寸为300×300为例进行说明. 使用六个金字塔层来构建检测器，与SSD [35]相同.在NETM之前使用嵌入的NNFM (b) 进行特征融合.0在典型的单次检测器中，浅层的特征（例如p1，具有较大的特征分辨率38×38）用于检测较小的物体，而深层的特征（例如p3，具有较小的分辨率10×10）用于检测较大的物体。由于具有小分辨率（例如3×3）的特征具有较大的感受野和较少的空间信息，我们最终在NETNet中嵌入了两个NETM，用于特征擦除和传输，而不使用p5和p6的特征。由于SSD中的锚点配置，最近的金字塔层（例如p1和p2）中的两个锚点可能共享相同的真实值。也就是说，一个小物体应该同时在p1和p2中被检测到。为了避免干扰重叠的监督，我们精心设计了NETNet，嵌入了两个跳过的NETM。一个NETM是基于p1和p3的金字塔特征构建的。为了从浅层p1中擦除较大物体的特征，我们首先上采样p3，并使用1×1卷积生成用于较大物体的软空间门，如公式4所示。我们评估了几种不同的空间注意力方法的效果，并选择了通道级的空间注意力，如公式6所示。然后，公式7中的擦除操作生成用于较小物体的特征。我们还将一个轻量级融合模块嵌入到04.1. 以跳跃方式构建的NETM0为了使生成的具有尺度感知性的特征更加鲁棒，我们构建了融合模块作为残差块，类似于[15]，通过堆叠（1×1、3×3和1×1卷积层）和跳跃连接。在应用传输模块NTM时，我们首先从p1中获取有助于较大物体的详细信息pes，如公式3所示。然后，这些详细信息通过公式8增强了p3的特征。另一个NETM是基于p2和p4的金字塔特征构建的，具有类似的配置。04.2. 最近邻融合模块0正如特征金字塔研究中所指出的[19,38]，相邻金字塔层的特征是互补的。因此，从不同层次引入上下文信息有助于特征表示。通常，从上到下合并特征是构建特征金字塔的常用方法[10]。然而，由于我们的目的是从浅层中去除大物体特征并生成具有尺度感知性的特征，引入其他更尺度特征可能会增加特征尺度混淆问题。因此，我们提出了一种更有效的融合模块，NNFM，以增强金字塔特征。如图4(b)所示，在NNFM中，只有相邻金字塔层的特征被融合，如下所示：0pfs = Hs-1(ps-1) ⊕ Hs(ps) ⊕Hs+1(ps+1)，其中我们将第s个金字塔层的融合特征表示为pfs ∈Rhswscs。Hs-1由一个池化层和一个1×1卷积层构成。Hs由一个1×1卷积层构成。Hs+1由一个双线性上采样层和一个1×1卷积层构成。最后，这些特征通过逐元素求和操作进行融合。因此，我们通过聚合p1、p2和p3的互补信息来增强p2的特征，而不是像自顶向下的金字塔网络那样使用{p6，p5，p4，p3，p2}的特征。执行NNFM不会加剧特征的NEM29.448.930.413.232.244.3NTM25.842.426.96.528.544.4NETM30.449.731.413.433.045.6NETM + TDP30.649.931.912.833.046.3NETNet31.150.532.413.635.045.4NEM29.448.930.413.232.244.3NEM1328.948.730.212.831.044.4NEM2428.546.630.010.631.744.5NNEM29.148.830.112.731.944.4NEM29.448.930.413.232.244.3133540方法 AP AP 50 AP 75 AP s AP m AP l0基准SSD 25.1 41.8 26.1 6.3 28.3 43.30表1. 在COCO minival 上对NETM和NNFM的评估结果。0方法 AP AP 50 AP 75 AP s AP m AP l0最大注意力 28.7 47.3 29.9 11.5 31.4 43.4 平均注意力 28.847.6 29.6 12.5 32.0 43.9 全局注意力 29.3 48.6 30.5 12.5 32.044.20表2. NEM不同注意力方法的评估结果。0尺度混淆，因为通过池化操作丢弃了p1中微小物体的信息，并且p3中较大物体的信息将被后续的NEM擦除。因此，应该在p2上检测的物体的特征通过与NNFM融合互补信息得到增强。05. 实验0数据集：我们在基准检测数据集MS COCO[32]上评估我们的方法（即COCO）。它包含80个物体类别和超过140k张图片。我们按照[35,30]的方法，在80k张训练图片和35k张验证图片的联合集（train-val35k）上训练NETNet，并在剩余的5k张验证图片（minival）上进行消融评估。最终结果通过在20k张测试图片（test-dev）上进行测试并提交到官方服务器。COCO中物体的尺度变化非常复杂。APs、APm和APl评估了三种尺度物体的检测精度。训练协议：我们基于Pytorch框架重新实现了SSD[35]作为我们的基准。所有模型都使用相同的训练损失在160个epoch上进行训练。对于消融实验，我们将初始学习率设置为0.002，并在第90、120和140个epoch后分别降低0.1倍。我们按照[33]的方法，在前5个epoch中使用热身学习率。我们将权重衰减设置为0.0005，动量设置为0.9。每个模型在2个GPU上使用批量大小为32进行训练。05.1. 消融研究0NETNet的配置。对于消融实验，我们使用在ImageNet[42]上预训练的VGG-16作为NETNet的主干，并使用300×300的输入尺寸训练模型。在SSD的基础上，我们截断主干的最后几个全连接层，并添加一系列较小的卷积层构建特征金字塔。0方法 AP AP 50 AP 75 AP s AP m AP l0基准SSD 25.1 41.8 26.1 6.3 28.3 43.30表3. NEM不同配置的评估结果。0NETNet的评估结果：整体NEM。如表1所示，与SSD相比，NEM在AP上取得了4.3%的绝对改进。因为我们的NEM可以消除浅层特征中较大物体的特征，从而激活用于检测较小物体的特征，提高了对较小物体的检测性能，小物体的AP提高了6.9%，中等物体的AP提高了3.9%，这证明了NEM在特征擦除方面的有效性。NTM和NETM。我们提出使用NTM来传递特征，以补充较大物体的详细信息。如表1所示，仅使用NTM对大物体进行了1.1%的改进，因为增强了大物体的特征。通过对抗策略，将NEM和NTM结合起来可以促进每个模块学习更好的特征。我们的NETM使用NEM和NTM进一步提高了整体AP1.0%。NNFM。我们将我们的NNFM与基于我们的NETM的典型自顶向下金字塔（TDP）（如FPN[30]）进行了比较。将TDP与我们的NETM结合使用时，整体上获得了轻微的改进，0.2%的AP。然而，我们发现使用TDP会降低小物体的检测性能（从13.4%的AP降至12.8%的AP），这可能是由于特征混淆与我们的NET机制不一致所致。当将NETM与NNFM（即NETNet）结合使用时，获得了31.1%的AP性能。我们的NNFM进一步大幅提高了中等物体的性能（即2.0%）。NEM的注意力。我们只使用两个NEM进行训练，以评估不同的空间门生成方法，如第3.2节所讨论。由于[53,11]中的自注意力方法计算量较大，我们只实现了一个简化版本的“全局注意力”，通过减少内部通道数。如表2所示，使用Eq.6中的注意力作为我们NEM中的注意力，为浅层金字塔特征的每个通道生成通道级空间门，获得了更好的性能，AP为29.4%。不同层上的NEM。我们评估了每个NEM的影响，并在表3中显示了结果。仅在p1和p3上添加NEM（NEM13）可以在APs上获得6.5%的改进，比NEM24（在p2和p4上）更好，因为p1中有更多的小物体特征。对于中等物体，我们获得了更好的改进。5010015020025028303234363840133550方法骨干网络图像尺寸时间（毫秒） FPS AP AP 50 AP 75 AP s AP m AP l0无锚点检0CornerNet [ 27 ] Hourglass-104 511 × 511 244 4.1 40.5 56.5 43.1 19.4 42.7 53.9 CenterNet [ 8 ] Hourglass-104 511 × 511 340 2.9 44.962.4 48.1 25.6 47.4 57.4 FCOS [ 47 ] Res101-FPN 1333 × 800 - - 41.5 60.7 45.0 24.4 44.8 51.60单阶0SSD300 [ 35 ] VGG-16 300 × 300 17* 58.9 25.1 43.1 25.8 6.6 25.9 41.4 DFPR [ 22 ] VGG-16 300 × 300 - - 28.4 48.2 29.1 - - - PFPNet-S300[ 19 ] VGG-16 300 × 300 - - 29.6 49.6 31.1 10.6 32.0 44.9 Re�neDet320 [ 56 ] VGG-16 320 × 320 26 38.7 29.4 49.2 31.3 10.0 32.0 44.4RFBNet [ 33 ] VGG-16 300 × 300 15 (19*) 66.7 30.3 49.3 31.8 11.8 31.9 45.9 EFIP [ 38 ] VGG-16 300 × 300 14 71.4 30.0 48.8 31.7 10.9 32.846.3 HSD [ 2 ] VGG-16 320 × 320 25 40.0 33.5 53.2 36.1 15.0 35.0 47.80DSSD513 [ 10 ] ResNet-101 513 × 513 182 5.5 33.2 53.3 35.2 13.0 35.4 51.1 RetinaNet [ 31 ] ResNet-101 500 × 500 90 11.1 34.4 53.1 36.814.7 38.5 48.5 STDN512 [ 61 ] DenseNet-169 513 × 513 - - 31.8 51.0 33.6 14.4 36.1 43.4 DFPR [ 22 ] ResNet-101 512 × 512 - - 34.6 54.337.3 14.7 38.1 51.9 Re�neDet512 [ 56 ] ResNet-101 512 × 512 - - 36.4 57.5 39.5 16.6 39.9 51.4 SSD512 [ 35 ] VGG-16 512 × 512 28 35.728.8 48.5 30.3 10.9 31.8 43.5 DES512 [ 59 ] VGG-16 512 × 512 - - 32.8 53.2 34.6 13.9 36.0 47.6 RFBNet [ 33 ] VGG-16 512 × 512 33 (37*)30.3 34.4 55.7 36.4 17.6 37.0 47.6 EFIP [ 38 ] VGG-16 512 × 512 29 34.5 34.6 55.8 36.8 18.3 38.2 47.1 TripleNet [ 3 ] ResNet-101 512 ×512 - - 37.4 59.3 39.6 18.5 39.0 52.70NETNet（我们的方法）ResNet-101 512 × 512 37 27.0 38.5 58.6 41.3 19.0 42.3 53.90表4. 在COCO测试集上的比较。结果是针对单尺度推理的情况报告的。我们在一台带有Pytorch 0.3.1的Titan X PascalGPU上测试时间。带有*的时间是在与NETNet相同的环境中测试得到的。0NEM 24 . 在p 1 和 p 2中存在一些地面真值和特征的重叠，这使得每个NEM都能提升小型和中型物体的性能。通过将它们组合起来，我们获得了最佳结果。这些结果证明了我们的方法在消除冗余特征方面的有效性。跳过的NEM。我们还构建了一个模型，该模型在（p 1 ，p 2 ），（p 2 ，p 3 ）和（p 3 ，p 4）上分别建立了三个常规NEM。这是一种建立在两个最近邻层的特征上的最近邻消除模块。我们在表3中将该模型称为NNEM。NNEM模型的性能（29.1%）低于我们的NEM（29.4%）。因为同一个地面真值可能被分配给两个相邻层的预定义锚点，使用NNEM会干扰地面真值的监督。使用跳过的NEM可以使网络训练更好地得到结果。网络配置的评估：我们评估了NETNet在不同配置下的性能。通过调整学习率（使用0.004作为初始学习率），我们在300 ×300的输入尺寸下获得了最佳性能31.8%的AP。当我们进一步使用[ 2]中的改进预测过程时，获得了34.7%的AP性能。此外，更大的图像尺寸和更好的骨干网络有助于提高性能。使用VGG-16和512 ×512的尺寸，获得了36.1%的AP。使用ResNet-101将NETNet带到了最佳性能，38.2%的AP。05.2. 在COCO测试集上的结果0我们在COCO测试集上评估了NETNet，并与先前的最先进方法进行了比较，如表4所示。我们的NETNet在只有轻微的额外时间成本的情况下显著优于基准SSD。使用300 ×300和VGG-16的输入尺寸，我们的NETNet获得了32.0%的AP和55.6 FPS，优于其他最先进的方法。0推理时间（毫秒）0COCOmAP0检测器时间 mAP0RFBNet300 [33] 19 � 30.30EFIP300 [38] 14 30.00Re�neDet320 [56] 26 29.40SSD512 [35] 28 28.80EFIP512 [38] 29 34.60RetinaNet512 [31] 90 34.40RFBNet512 [33] 37 � 34.40ConnerNet511 [27] 244 40.50CenterNet511 [8] 340 44.90NETNet300

下载后可阅读完整内容，剩余1页未读，立即下载