快速准确的SaccadeNet物体探测器

44 浏览量更新于2023-10-23 收藏 1.01MB PDF 举报

目标检测

快速准确

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10397MSCOCOAPSaccadeNet：一种快速准确的目标检测器蓝世义1任周2吴毅2李伟.戴维斯1刚华21马里兰大学帕克分校2Wormpex AI Researchsylan@cs.umd.edu，lsd@umiacs.umd.edu，{renzhou200622，ywu.china，ganghua}@ gmail.com摘要42目标检测是实现整体39场景理解大多数现有的目标检测算法-rithms注意到某些对象区域一次，然后预36dict对象的位置。然而，神经科学家们重新-他说，人类并不是以固定不变的方式看待这个场景。奈斯相反，人类的眼睛四处移动，定位信息-了解物体的位置。这种活跃的每-30这种感知运动的过程称为眼跳。受此机制的启发，我们提出了一种快速和ac-27一个名为SaccadeNet的物体探测器。它包含四主要模块，中心注意力模块，角落At-24不同的信息对象关键点，并从粗到细预测对象位置。角落注意模块仅在训练期间使用，以提取更多信息的角落特征，从而带来免费午餐性能提升。在MS COCO数据集上，我们在28 FPS下实现了40.4%mAP的性能，在118 FPS下实现了30.5%mAP的性能在所有的实时目标检测器中，我们的SaccadeNet实现了最好的检测性能，这证明了所提出的检测机制的有效性。1. 介绍人类的视觉系统是准确和快速的。作为感知物理世界的第一道大门，我们的视觉系统扫视一个场景，立即理解那里有什么物体以及它们在哪里。这种高效、有效的视觉系统使人类能够用很少的有意识的思维来感知视觉世界。在机器智能中，类似地，快速且准确的对象检测器是必不可少的，其可以允许机器高效且有效地感知物理世界，并解锁后续过程，例如理解整体场景并在其中交互。这项工作是在Shiyi Lan是Wormpex AI Research的研究实习生时完成SaccadeNet CenterNet RetinaNetHSDYOLOv3图1. COCO test-dev的性能比较Sacca- deNet优于所有以前的快速检测器[31，16，1，22]。最好用彩色观看。许多最近的算法已经被提出来推进对象检测。一方面，基于锚点的方法[24，23，16，18，7]提出预先定义大量的锚点位置，然后直接回归对象边界框位置，或者基于锚点生成区域建议这些方法通常实现竞争性的性能，因为它们聚合每个区域内的详细图像特征。然而，耗时的区域建议阶段是推理速度的瓶颈。另一方面，研究人员提出了无锚检测器[13，32，5，31]。这种类型的方法被提出来通过利用在对象中心或边界框边缘上的某些预定义对象关键点处的特征来大多数基于边缘关键点的方法并不快，因为组合多个检测到的关键点以形成单个对象边界框的耗时的分组过程。最近提出的基于中心关键点的检测器[31]避免了复杂的注意力传递模块（Attention Transitive Module）0102030405060聚合注意模块，它允许它参加推断时间（ms）10398分组过程和运行更快。现有的大多数目标检测算法都是只对特定的目标区域进行一次检测，然后预测目标位置。在这一次扫描对象期间，不同的算法关注不同的区域，或者关注锚框，或者关注建议的对象区域，或者关注中心关键点，或者关注边缘关键点。然而，神经科学家已经揭示[4]，为了理解物体的位置，人类并不稳定地看着场景。相反，我们的眼睛四处移动，定位信息部分以了解物体的位置。受这种机制的启发，我们提出了一种快速准确的对象检测器，名为SaccadeNet，它有效地关注信息对象关键点，并从粗到细预测对象位置我们的SaccadeNet包含四个主要模块：中心注意力模块、角落注意力模块、注意力传递模块和聚集注意力模块。中心注意模式预测对象中心位置和类别。同时，对于每个预测的目标中心，使用注意传递模块预测对应边界框角点的粗略位置为了提取信息丰富的角点特征，使用角点关注模块来强制CNN主干更加关注对象边界，使得回归的边界框更加准确。最后，聚集注意模块利用从中心和角聚集的特征来细化对象边界框。SaccadeNet采用包括中心点和角点在内的多个目标关键点，编码并提取多个层次的丰富细节的目标特征。此外，与最快的基于中心关键点的检测器相比，它几乎没有速度损失，因为我们联合预测对象中心及其对应的角点。因此，我们不需要一个分组算法来组合它们。在PASCAL VOC和MS COCO数据集上进行的大量实验表明，SaccadeNet快速准确。如图1所示，在COCO数据集上，当使用ResNet-18 [9，34]作为骨干时，SaccadeNet在118 FPS下实现了30.5%的mAP使用DLA-34 [28]，SaccadeNet在28 FPS下实现了40.4%的mAP，这比其他实时检测器要好得多[22，31]。2. 相关工作现代物体探测器大致可分为两类：基于锚的对象检测器和无锚对象检测器。2.1. 基于锚的探测器在Faster R-CNN [24]的开创性工作之后，锚点已被广泛用于现代检测器中。它通常包含两个阶段。第一阶段模块是区域建议网络（RPN），它估计所有锚点的对象概率并回归对象边界和锚。第二阶段是R-CNN，它预测类别概率并细化边界框的边界最近，基于锚的一阶段方法[23，16，18，7，30，29]在对象检测中引起了很大的关注因为架构更简单，通常运行更快[23]。他们删除RPN，直接预测类别并回归候选锚点的框。然而，基于锚点的一级检测器的性能通常低于多级检测器，这是由于训练过程中正锚点和负锚点之间的极端不平衡2.2. 无锚探测器最近，无锚探测器变得越来越流行[10，22，33，26，12，19，31，13，5，32，27]。它们避免了锚的复杂设计，通常跑得更快。目标检测通常被表示为一个关键点检测问题，因此，用于语义分割的全卷积网络[20]和姿态估计[21]可以应用于检测[31]。YOLOv1 [22]是最受欢迎的无锚检测器之一在网络的最后一层的每个位置上，它预测边界框，框的置信度和类概率。在DenseBox [10]中，Huanget.al扩展了FCN[20]用于人脸和汽车检测。地面实况是一个5通道贴图，其中第一个是对象中心的二进制遮罩，其他四个是边界框大小。在CornerNet [13]的开创性工作之后，基于关键点的无锚对象检测器引起了广泛关注。在CornerNet中，FCN直接预测角热图、嵌入和每个角的一组偏移嵌入用于对角点对进行分组以形成边界框，并且偏移将角点从低分辨率热图重新映射到高分辨率输入图像。提出了一个角点池层，以更好地定位角点。ExtremeNet[32]介绍了一种预测极值点而不是边界框角的方法，并在分组步骤中引入了中心度热图在[5]中，Duan等人通过添加中心关键点来扩展CornerNet。中心关键点用于精确地定义中心区域，然后使用该区域来细化分组的角。为了避免复杂的分组过程，CenterNet [31]直接预测中心关键点和对象的大小。此外，它通过可以在GPU上运行的峰值关键点提取来取代基于IoU的非最大值抑制（NMS），以减少推理时间。在[26]中，中心度用于表示在每个位置预测的边界框的客观性。在RepPoints [2]中，学习一组样本点来限制对象的空间范围10399角落注意模块CNN骨干图2.在SaccadeNet中，我们利用5个关键点作为检测的信息部分：对象中心和4个边界框角。在CNN主干之后，如在中间分支中，中心注意模块专注于预测对象中心关键点;然后，底部的注意力转移模块将注意力从目标中心转移，以估计目标角点的粗略位置。之后，聚集注意模块使用从中心和角关键点聚集的信息，并预测对象的精确位置。此外，为了获得信息丰富的角点特征，使用角点注意模块（仅在训练中）来强制CNN主干更加关注对象边界，如顶部分支所示。在关键点预测框架下。3. SaccadeNet0或1，因为目标关键点附近的位置应该比远处的位置获得更少的惩罚。假设关键点位于位置Xk，则X−Xk人们发现，人类的眼睛会接收信息-地面实况热图被定义为e2σ2。 σ设为积极的部分，以了解对象的位置，而不是看对象的每一个细节[4]，这使得它快速和准确。为了平衡速度和准确性之间的权衡，在对象中心点之上，我们使用四个对象边界框角点作为SaccadeNet中的信息关键点，因为它自然地定义了边界框位置。SaccadeNet参加这些信息丰富的半径的1/3，由物体大小决定以确保该地区内的所有地点都能产生边界框，其中至少t个IoU具有地面实况标注。我们遵循以前的工作[13，5，31]，并将t设为0。3 .第三章。此外，应用焦点损失的变体[16]来帮助Gaussian heatmap：关键点，然后聚合其要素来推断出物体的准确位置本节将Lhm=.（1−pi、j）αlog（pi，j），如果yi，j=1分别介绍了SaccadeNet的四个主要模块i、j（1−yi，j）β（pi，j）αlog（1−pi，j）否则训练中使用的中心注意力模块（Center-Attn）、注意力传递模块（ Attn-Trans ）、聚集注意力模块（Aggregation-Attn）和角落注意力3.1. 集中注意力模块Center-Attn为SaccadeNet提供在其中心的对象的第一视野它将CNN主干中的特征作为输入，并预测中心度热图。中心度热图用于估计图像中所有对象的类别和中心位置。中心度热图中的通道数就是类别数。图2显示了Center-Attn及其输出。在Center-Attn中，它包含2个卷积层。这种2-卷积结构被称为头模块。它是构建SaccadeNet其他模块的基本组件。我们将在第4节中详细描述它。我们使用高斯热图作为地面实况[13]。关键点的地面实况热图未定义为其中，pi，j是热图的位置（i，j）处的得分，yi，j是对应的地面真值。3.2. 注意传递模块属性（Attn）-对深度特征贴图的所有位置的角点进行预测。对于单个图像，输出形状为wf×hf×2，其中wf，hf分别表示特征图的宽度和高度。最后一个维度是设计为2，表示装订盒的宽度和高度在我们得到边界框的宽度和高度对于位置（i，j）处的每个中心，我们可以计算相应的角点为（i-wi ，j/2，j-hi，j/2），（i-wi，j/2，j+hi，j/2），（i+wi ，j/2，j-hi ，j/2），（i+wi，j/2，j+hi ，j/2）。在训练中，我们采用L1回归损失。中心-Attn和Attn-Trans，SaccadeNet可以生成具有粗糙边界的对象3.3. 聚合注意模块提出了Aggregation-Attn算法，再次关注对象中心和边界框角点，以预测一个精确的位置。集中注意力模块注意传递模块聚合注意模块10400第如图2所示，它使用双线性插值从角点和中心关键点聚合CNN特征，并输出更准确的对象边界框。如4.3.1节的实验所示，Aggregation-Attn对于我们获得更准确的边界是必不可少的。Aggregation-Attn是一个用于对象边界细化的轻量级模块。令wi，j，hi，j指示在（i，j）处的宽度和高度预测。然后，我们通过（i-w i，j / 2，j-1）计算以位置（i，j）为中心的对应的左上角、右上角、左下角、右下角。hi，j/2），（i+wi，j/2，j-hi，j/2），（i-wi，j/2，j+hi，j/2），（i+wi，j/2，j+hi，j/2）。由于先前的工作[8]表明双线性采样对于下采样的特征图是有帮助的Aggregation-Attn从Attn-Trans、Center-Attn的输出中获取角点和中心，并通过双线性插值从主干输出Aggregation-Attn的结构是一个修改后的头部模块。我们改变第一个卷积层的输入，让它把对象的中心和角的特征作为输入。最后，Aggregation-Attn通过合并来自角点和中心的特征来回归残余偏移以细化对象的边界。Aggregation-Attn的输出包括残差宽度和残差高度。我们采用L1损失来训练这个模块。3.4. 角落注意模块在训练为了提取信息丰富的角点特征，我们提出了一个辅助的Corner-Attn分支（仅在训练中）来强制CNN主干学习判别角点特征。如图2所示，Corner-Attn使用一个头部模块来处理特征并输出4通道热图，包括左上角、右上角、左下角和右下角。请注意，此分支仅在训练期间使用，因此它是提高推理准确性的免费午餐。Corner-Attn的训练也基于焦点损失和高斯热图。我们尝试了不可知和非不可知的热图，这意味着不同的对象类别是否共享相同的角热图输出。在我们的实验中，它们的性能没有显著差异。为了更短的训练时间和更容易的实现，我们在实验中使用Corner-Attn的不可知热图。3.5. 与现有方法的我们将比较我们的工作与其他相关的工作，以解决我们的贡献之一：SaccadeNet解决了基于边缘关键点的检测器缺乏整体感知的问题和基于中心关键点的检测器缺失局部细节的问题。基于边缘关键点的检测器通过装配边缘关键点（如角[13]或极端关键点[32]）来推断对象。他们首先预测边缘关键点，然后使用分组算法来生成对象建议。存在两个可能的问题，其可能使得基于角点的关键点无法对整体信息进行建模：（a）角点的特征编码较少的整体信息，因为大多数基于角点的检测器[32，5]仍然需要中心的特征来组装角点。(b)角关键点通常位于背景像素处，其可以比中心关键点编码更少的虽然SaccadeNet也利用角点进行边界框估计，但它仍然能够通过直接从中心关键点推断边界框来捕获整体同时，SaccadeNet非常快，因为它避免了耗时的分组。基于中心关键点的检测器从中心点提出对象[31]。它直接输出中心热图和回归边界。然而，中心点可能远离物体的边界，因此它们可能无法准确估计在某些情况下，特别是对于大型对象（如图3所示）。另一方面，角关键点自然接近边界，因此它可以编码更多的局部准确信息。Lack of modeling corners may beharmful for the center-keypoint-based detectors. 因此，SaccadeNet利用角关键点来缓解这个问题，以便它可以估计更准确的边界。SaccadeNet弥合了基于边缘关键点的检测器和基于中心关键点的检测器之间的差距。4. 实验实验在2个数据集上进行，PASCAL VOC 2012 [6]和MS COCO [17]。MS COCO数据集包含 80 个类别，包括用于训练的 105k 图像（train2017）和用于验证的5k图像（val2017）。PascalVOC由20个类别组成，它包含17k图像的训练集和5k图像的验证集此设置与以前的工作相同[13，5，8，31]。4.1. 执行骨干我们的主干由下采样层和上采样层组成。下采样层来自用于图像识别的CNN，例如：[28，9]。上采样层使用几个卷积层和跳过连接来融合高级和低级特征，e.G. [15 ]第10段。我们选择DLA-34 [28]和ResNet-18 [9]作为下采样主干，并使用CenterNet [31]中采用的上采样层，其中使用可变形卷积[34]。主干输出的大小是输入的1/4。高分辨率的输出有助于SaccadeNet识别和定位小物体。为了公平比较并说明SaccadeNet的有效性，我们保持所有骨干的设置与[31]相同。头部模块。头部模块是构建SaccadeNet四个模块的基本组成部分，如图2所示。我们使用2个卷积层的统一结构的所有头部模块。第一次会议-逻辑层之后是具有内核104013×3尺寸和256维输出通道。第二个卷积层使用1 ×1内核，没有激活函数。Center-Attn包含一个头部模块。的该模块的输出通道的数量取决于类别的数量，例如，Pascal VOC 20，MS COCO 80。Corner-Attn包含一个头部模块，其输出表示4个角关键点的不可知热图的4通道热图Corner-Attn包含2个头部模块，具有2通道输出，分别指示两个方向的中心偏移以及对象的宽度和高度。Aggregation-Attn包含一个模块，具有2个通道的输出，表示对象的宽度和高度的残余偏移。每个头部模块的参数数量小于200k。训练我们的实验是在一台配备4个Geforce RTX 2080Ti GPU 的机器上进行的。需要10 天训练SaccadeNet-DLA 34和5天训练SaccadeNet-Res 18。我们使用Adam [11]进行网络优化。对于数据增强，我们应用随机翻转，随机缩放（范围从0.6到1.3），裁剪和颜色抖动。在MS COCO数据集上，网络是512×512。我们使用32的批量大小（每个GPU上8张图像），初始学习率为1 .一、25×10−4，210个历元。学习率下降到1。25×10−5在第181个历元。CenterNet使用相同的训练设置 [31] 。我们对损失使用不同的损失权重。LCorner−Attn、LCenter−Attn和LAggregation−Attn的损失权重分别为1、1、0.1。Corner-Attn输出中心偏移量，角偏移。我们使用0.1表示中心-角偏移的损失重量，使用1表示中心偏移的损失重量。在PASCAL VOC 2012上，我们在单个GPU上使用32个批量进行训练，网络的输入形状为384×384。我们将初始学习率设置为1。25×10−4，70个历元。学习率降低到1。25×10−5，1 .一、在第46个历元和第61个历元分别为25×10−6所有其他设置都保持与我们的实验在MS COCO数据集上进行训练。我们使用ImageNet [3]数据集上预训练的参数来初始化下采样层。骨干和头部模块的上采样层的参数被随机初始化。推理。在MS COCO数据集上，输入图像大小为512×512.翻转测试是可选的，以获得更好的性能。当翻转的图像和原始图像两者都用作输入，我们对Center-Attn、Corner-Attn、Aggregation-Attn的输出进行平均。为了提高速度，我们使用[31]中提出的峰值拾取NMS而不是基于IoU的NMS进行后处理。峰值拾取NMS是一种3×3池化算子，它消除了所有非峰值激活，第在NMS之后，我们选择Center-Attn提供的具有前100个中心度分数的对象提案。对于Pascal VOC，我们不对测试应用数据增强。我们使用Peak-picking NMS而不是基于IoU的NMS。4.2. 与现有技术方法的表1显示了我们的方法与以前的工作的比较结果。SaccadeNet以更高的速度实现最先进的性能。SaccadeNet-DLA 34在28 FPS下实现40.4 mAP。它比CenterNet-DLA 34 [31]高出1.2% AP，由于重量轻的头部模块，没有明显的速度损失。此外，我们的方法优于经典的两阶段检测器MaskRCNN [8]。同时，我们达到了大约 3 倍的速度。与 Reti- naNet [16] 相比，SaccadeNet-DLA 34的执行速度快约4倍，准确度仅下降0.4%。如表1所示，SaccadeNet-DLA 34比YOLOv 3更快，更准确[23]。我们比较了具有不同IoU阈值和不同大小的SaccadeNet-DLA 34和CenterNet-DLA 34 [31]的结果。平均精度提高0. 5，+0。7个IoU@0.5，IoU@0.7，增益+0。5，+0。八，+1。4个物体分别具有小、中、大尺寸。SaccadeNet在高IoU和大型对象提案中比其他提案受益更多我们将在Section 中研究Aggregation-Attn和Corner-Attn如何影响不同质量和不同大小4.3.1.图3显示了SaccadeNet和CenterNet的定性结果。在Aggregation-Attn的帮助下，Sacca- deNet能够定位更准确的对象边界我们方法的另一个版本是基于ResNet- 18和可变形卷积。SaccadeNet-Res 18是第一款在MSCOCO val 2017上实现超过30% mAP的实时无锚检测器，速度快于每秒100帧。4.2.1效率研究我们将讨论效率的四个主要因素：主干、头部模块、数据增强、非最大抑制。骨干我们使用 DLA-34 [28] 和 ResNet-18 [9] 以及CenterNet [31]中使用的额外上采样层作为骨干。DLA-34以18.4 ms/图像运行。ResNet- 18每幅图像运行6.8ms。SaccadeNet与DLA-34和ResNet-18的总推理时间分别为20 ms和8.5 ms/图像。骨干网的效率是制约网络速度的主要瓶颈。头部模块。有64×256×3×3 + 256×C输出每个头部模块的参数，其中Cout表示输出通道数。推理过程中只有3个头部模块。最大的头模块是Center-Attn的预测器，它只包含168 k个参数。唯一的问题是，Aggregation-Attn的输入依赖于Center-Attn和Corner-Attn的输出它可能会导致顺序执行，从而增加推理时间。幸运的是，执行速度很快。所有头部模块的推理时间要小10402SaccadeNet[31]第三十一话一骨干FPSAPAP50AP75APSAPMAPLTridentNet [14]公司简介0.748.469.753.531.851.360.3[25]第二十五话DPN-982.546.167.051.629.648.958.1MaskRCNN [8]ResNeXt-1011139.862.343.422.143.251.2RetinaNet [16]ResNeXt-1015.440.861.144.124.144.251.2[23]第二十三话暗网-532033.057.934.418.325.441.9HSD [1]ResNet1012140.258.244.020.044.454.9HSD [1]VGG162338.858.242.521.841.950.2[32]第三十二话沙漏-1043.140.255.543.220.443.253.1CornerNet [13]沙漏-1044.140.556.543.119.442.753.9[31]第三十一话DLA-34-DCN52/2837.4/39.2-/57.1-/42.8-/19.9-/43.0-/51.4[31]第三十一话公司简介142/7128.1/30.044.9/47.529.6/31.6-/--/--/-SaccadeNetDLA-34-DCN50/2838.5/40.455.6/57.641.4/43.519.2/20.442.1/43.850.6/52.8SaccadeNet公司简介118/6730.5/32.546.7/48.932.6/34.712.0/13.933.9/36.245.8/47.9表1.实验在MS COCO测试开发平台上进行。SaccadeNet-DLA的性能比CenterNet-DLA高1.2% mAP，开销很小。这是第一款在MS COCO test-dev上实现超过40% mmAP的探测器，FPS超过25SaccadeNet-Res 18的性能比CenterNet-Res 18高2.4%mAP，开销小。我们展示了CenterNet和SaccadeNet的幼稚/翻转测试结果。破折号表示该方法不提供结果。“0”表示实验在MS COCO val2017上进行。图3. SaccadeNet和CenterNet的定性结果[31]。左边3列的图像是SaccadeNet-DLA 34的结果。右列包括CenterNet-DLA 34的结果[31]。最好用彩色观看。相比主干网，SaccadeNet-DLA 34和SaccadeNet-Res 18仅花费1.5 ms和1.6 ms。具有和不具有聚集-Attn的SaccadeNet的性能在表3中示出。显然，Aggregation-Attn对于性能的提高是非常重要的。数据扩充。为了获得更好的性能，我们向网络提供翻转的图像和原始图像。最终图像。虽然这种技术理论上会使推断时间增加一倍，但它显著提高了性能。图3显示了有和没有翻转测试的SaccadeNet的性能。非最大抑制。在SaccadeNet中，我们将流行的基于IoU的NMS替换为峰值拾取NMS。峰值拾取NMS对Center-Attn的输出热图执行3×3它的推理时间更短0.1ms以上相比之下，基于IoU的NMS需要2 ms进行后处理。表3显示了基于IoU的NMS和峰值拾取NMS之间的比较4.3. 消融研究在本节中，我们将研究Sac- cadeNet的特性。我们使用SaccadeNet进行实验10403mAP@50mAP@70mAP@90mAP@SmAP@MmAP@L基线70.6955.5016.488.1523.7457.86角落-Attn71.02/+0.3356.42/+0.9213.51/-2.979.75/+1.6024.45/+0.7158.84/+0.98聚合-收件人70.64/-0.0555.85/+0.3517.34/+0.868.30/+0.1524.30/+0.5658.39/+0.53角-Attn+聚合-Attn70.94/+0.2557.84/+2.3421.07/+4.599.69/+1.5425.17/+1.4360.40/+2.54表2.该表显示了具有或不具有Aggregation-Attn和Corner-Attn的SaccadeNet的结果我们使用不同IoU的6个指标阈值和对象大小。所有实验均在Pascal VOC上进行对于我们的方法，我们显示了与基线相比的mAP和mAP骨干聚合-收件人翻转NMS FPS 地图mAP@50mAP@70mAP@90DLAPP5237.9角落70.9457.8421.07DLACPP5038.8诊断Pts@0.870.9257.3218.27DLACPP2839.9诊断Pts@0.670.5956.4817.40DLACCPP2840.7诊断Pts@0.470.4356.1117.31DLACIOU4539.3中边缘Pts@1.070.6455.8517.34DLACCIOU2740.9中边缘Pts@0.870.4355.3317.29表3.所有实验均在MS COCO val2017上进行。PP和IoU分别代表峰值拾取NMS和基于IoU的NMS。Pascal VOC上的Res18。评估指标。为了详细评估，我们针对不同的IoU阈值和大小使用 6 个指标： AP@50 、 AP@70 、AP@90， AP@S， AP@M， AP@L AP@50，AP@70、AP@90分别代表使用50%、70%、90% IoU阈值的平均精度对于不同尺寸的物体，我们定义AP@S，AP@M，AP@L为小物体，中等物体和大物体的平均精度。小的，中的，大的物体都包含有-[0，642]，[642，1282]和[1282，∞]的面积，重新计算。4.3.1Aggregation-Attn和Corner-Attn的优势我们提出的Aggregation-Attn和Corner-Attn是为了提高边界质量而设计的。为了研究它们对高质量/低质量和大/小对象提案的影响程度，我们使用不同的IoU阈值来计算平均精度，并在不同大小的对象上对其进行评估。如表2所示，使用Aggregation-Attn和Corner-Attn，较大的对象和高质量的边界框可以获得更多的好处。4.3.2关键点选择虽然我们提出的SaccadeNet揭示了角点对于准确的边界定位非常重要，但仍然不知道其他关键点是否有助于边界框回归。我们尝试不同的观点：中间边缘点和其它内盒点。物体的中间边缘点是4个点在边界框的4条边的中间我们也重新-中缘Pts@0.670.51 55.10 16.98表4.此表显示了使用ResNet-18在PASCAL VOCCorner代表原始SaccadeNet-Res 18。Diag Pts@t（t是浮点数）表示位于pct（1-t）+pcrt处的点，其中pct，Pcr表示中心和角的位置。类似地，Mid-edge Pts@t表示位于pct_t（1-t）+pml_t处的点，其中pct和pml指示边缘的中心点和中间点。对象边界框的边缘图4描述了上述所有点的位置将角点放置在边界框的正交线上。图4描述了上面提到的关键点。我们将角点改变为其他关键点作为Aggregation-Attn 的输入，并将角点的注释改变为Corner-Attn的其他关键点。表4说明了Pascal VOC的结果。我们发现，角落是最有帮助的关键点，在所有其他关键点，除了中心。我们还发现，关键点更接近角落导致更高的性能聚合Attn和角落Attn。一个可能的原因是角定义了对象的范围，我们使用边界框进行损失计算。4.3.3迭代细化有帮助吗？改进 SaccadeNet 的一个直观想法是迭代地应用Aggregation-Attn 。在实验中，我们使用了Aggregation-Attn的几个顺序模块。上一个模块的输出用作下一个模块的输入。表5显示了PASCAL VOC的结果结果表明，迭代加密可以获得更精确的边界。越细的包围盒通过迭代细化得到越多的改进。然而，由于更多的顺序执行，迭代细化不是很有效。由于速度-准确性权衡，我们只使用10404角落中心mAP@50mAP@70mAP@9071.0256.4218.96C70.8956.5519.01C71.0457.5319.78CC70.9457.8421.07图4.紫色点和黄色点分别表示中心和角。在左边，绿线表示边界框的对角线。蓝点表示通过双线性插值计算的诊断点。在右边，黄色的点是边界框边的中点。粉色线表示边界框的中间线。中线的两端是两个相对的黄点。蓝点表示中边缘Pts。表7.此表显示了使用不同IoU阈值的Aggregation-Attn的不同输入的结果。所有实验均在Pascal VOC上使用ResNet-18进行。4.3.5聚合-Attn模块表5.该表显示了在具有不同IoU阈值的SaccadeNet上应用迭代细化的结果。所有的实验都是基于PASCAL VOC的ResNet-18。iter的迭代次数表示用于边界细化聚合-Attn-ClsmAP@50 mAP@70 mAP@9070.9257.4918.96C52.2643.2319.80表6.此表显示了使用Aggregation-Attn- Cls进行不同IoU阈值分类的结果。所有实验均在Pascal VOC上使用ResNet-18进行。所有其他实验中的一个Aggregation-Attn。4.3.4Aggregation-Attn是否也有助于分类？目标检测是理解“什么在哪里”的一步。我们已经验证了Aggregation-Attn通过融合角点和中心关键点的特征来提高对象的局部化，即它有助于“在哪里”。现在，我们想研究这样的信息汇总是否也有助于“什么”。我们添加了另一个模块，即聚集注意分类器（Aggregation-Attn-Cls）来细化分类分数。它的结构与核心注意模块相同。我们使用分类分数来替换原始对象分类器的输出。表6显示了结果。不幸的是，性能被Aggregation-Attn-Cls降级。一个可能的原因是角点的特征编码很少的用于分类的高级特色？为了解决这些问题，我们将Aggregation-Attn的输入改为中心关键点特征或角点特征。表7显示了将角和中心关键点的特征融合在一起是有用的。与不使用Aggregation-Attn模块的第一行相比，通过单独使用中心特征，它几乎没有提高性能，因为先前的中心-Attn模块已经使用中心特征。通过单独使用角特征，性能得到显著提高。通过结合角点和中心点的特征，进一步提高了检测结果，特别是在高IOU阈值。5. 结论我们介绍了SaccadeNet，一种快速，准确的目标检测算法。我们的模型积极地关注从中心到角的信息对象关键点，并从粗到细预测对象边界框。SaccadeNet运行非常快，因为这些对象关键点是联合预测的，因此我们不需要分组算法来组合它们。我们在PASCALVOC和MS COCO数据集上广泛评估了SaccadeNet，这两个数据集都证明了其有效性和效率。6. 确认Gang Hua 部分获得国家重点研发计划资助2018AAA0101400 和国家自然科学基金资助61629301。我们非常感谢周兴义和吴祖轩的帮助。第4.3.1节中的实验结果表明，ITER的缩写。mAP@50mAP@70mAP@90the aggregation of features from corners and center in071.0256.4218.96聚合-Attn对于执行非常重要-170.9457.8421.07曼斯改进。然而，271.0958.1821.32角落和中心是必要的和有用的？有多少-371.1258.4220.70证明了只使用中心或只使用角10405引用[1] 曹佳乐，庞彦伟，韩俊功，李雪龙。高性能射击探测器。在IEEE国际计算机视觉会议集，第97051、6[2] Yuntao Chen ， Chenxia Han ， Naiyan Wang ， andZhaoxiang Zhang. 重新审视一阶段物体检测的特征对齐arXiv预印本arXiv：1908.01570，2019。2[3] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[4] Heiner Deubel和Werner X Schneider。扫视目标选择和物体识别：共同注意力机制的证据。Vision research，36（12）：1827-1837，1996. 二、三[5] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在IEEE计算机视觉集，第6569一、二、三、四[6] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303-338，2010。4[7] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C Berg. Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659，2017。一、二[8] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。InICCV，2017. 四五六[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二、四、五[10] Lichao Huang，Yi Yang，Yafeng Deng，and Yinan Yu.密集盒：将地标定位与端到端对象检测相统一。arXiv预印本arXiv：1509.0

下载后可阅读完整内容，剩余1页未读，立即下载