学习可扩展特征金字塔：对象检测中的新架构

39 浏览量更新于2023-10-17 收藏 1021KB PDF 举报

特征金字塔

对象检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7036[32个]NAS-FPN：用于目标检测的学习可扩展特征金字塔林国一。谷歌大脑摘要用于对象检测的当前最先进的卷积架构是手动设计的。在这里，我们的目标是学习一个更好的结构的特征金字塔网络的对象检测。我们采用神经架构搜索，并发现一个新的功能金字塔架构在一个新的可扩展的搜索空间，覆盖所有的跨尺度连接。所发现的架构，名为NAS-FPN，由自上而下和自下而上连接的组合组成，以跨尺度融合功能。NAS-FPN与RetinaNet框架中的各种骨干模型相结合，与最先进的对象检测模型相比，实现了更好的准确性和延迟权衡。与[32]中具有MobileNetV 2模型的最先进的SS-DLite相比，NAS-FPN将移动检测精度提高了2 AP，并实现了48.3 AP，这超过了Mask R-CNN [10]检测精度，计算时间更少。1. 介绍学习视觉特征表示是计算机视觉中的一个基本问题。在过去的几年里，在设计用于图像分类[12，15，35]和对象检测[21，22]的深度卷积网络（ConvNets）的模型架构方面取得了很大进展。与预测图像的类别概率的图像分类不同为了解决这个问题，金字塔特征表示，它表示具有多尺度特征层的图像，通常由许多现代物体检测器使用[11，23，26]。特征金字塔网络（FPN）[22]是代表性的模型架构之一，用于生成用于对象检测的金字塔特征表示。它采用了一种典型的图像分类骨干模型，通过自顶向下和横向连接的方式将骨干模型中特征层次中的两个自组织层依次组合起来，构建特征金字塔。高层次的特征，语义上很强，但分辨率较低，是向上的-图1：平均精度与移动终端上精确模型（上图）和快速模型（下图）的每幅图像推理时间。绿色曲线突出显示了NAS-FPN与RetinaNet结合的结果。详情请参阅图9。采样并与更高分辨率的特征组合以生成高分辨率和语义强的特征表示。虽然FPN简单有效，但它并不是最佳的体系结构设计.最近，PANet [25]显示在FPN特征上添加额外的自下而上的路径可以改善较低分辨率特征的特征表示。许多最近的作品[7，16，17，34，38，39，40，43，41]提出了各种跨尺度的连接或操作，以组合特征来生成[23日][10个国家]7037评价金字塔特征表达。设计特征金字塔架构的挑战在于其巨大的设计空间。组合不同尺度特征的可能连接数与层数成指数增长最近，神经架构搜索算法[44]证明了在巨大的搜索空间中有效发现图像分类的最佳性能架构的有希望的结果。为了实现他们的结果，Zoph et al.[45]提出了一种模块化架构，可以重复和堆叠成可扩展的受[45]的启发，我们提出了生成金字塔表示的可扩展架构的搜索空间。我们的工作的关键贡献是在设计的搜索空间，覆盖所有可能的跨尺度连接，以生成多尺度特征表示。在搜索过程中，我们的目标是发现一个原子架构，具有相同的输入和输出功能级别，并可以重复应用。模块化的搜索空间使搜索金字塔架构易于管理。模块化金字塔架构的另一个好处是能够随时进行尽管已经尝试了这种早期退出方法[14]，但是考虑到这种约束，手动设计这种架构是相当困难的。所发现的架构，命名为NAS-FPN，提供了很大的灵活性，在建立对象检测体系结构。NAS-FPN与各种骨干模型配合良好，如MobileNet [32]，ResNet [12]和AmoebaNet [29]。它提供了更好的权衡速度和准确性的快速移动模型和准确的模型。结合RetinaNet框架中的MobileNetV2主干，它在相同的推理时间下通过2个AP比MobilenetV2 [32]的SSDLite的最先进移动检测模型更好。NAS- FPN具有强大的AmoebaNet-D骨干模型，在单一测试规模下达到48.3 AP单一模型准确率。检测精度超过了[10]中报道的Mask R-CNN，推理时间更短我们的结果总结如图1所示。2. 相关作品2.1. 金字塔表示特征金字塔表示是许多需要多尺度处理的计算机视觉应用解决方案的基础 [1] 。然而，使用 DeepConvNets通过特征化图像金字塔来生成金字塔表示会带来很大的计算负担。为了解决这个问题，最近在人体姿态估计、图像分割和对象检测方面的工作[8，11，22，28，31]在ConvNets中引入了跨尺度连接，该连接以不同尺度连接内部特征层。这样的连接有效地增强了特征表示，使得它们不仅在语义上是强的，而且还包含高分辨率信息。很多作品都研究了如何在...证明多尺度特征呈现。Liu et.al [25]提出了一种基于FPN [22]的额外自下而上途径。最近，赵等。[42]通过在主干模型之后采用多个U形模块，扩展了构建更强大的特征金字塔表示的思想。Kong等人。[16]首先组合所有尺度的特征，并通过对组合特征的全局注意力操作来生成每个尺度的特征。尽管它是一个活跃的研究领域，但与骨干模型相比，大多数跨尺度连接的架构设计仍然很肤浅。除了手动设计跨尺度连接之外，[5，27]还建议通过门控机制学习连接，以进行视觉计数和密集标签预测。在我们的工作中，我们使用可扩展搜索空间和神经架构搜索算法的组合来克服金字塔架构的大搜索空间，而不是手动设计金字塔表示的架构我们限制搜索，以找到一个可以重复应用的架构。因此，该架构可以用于随时进行对象检测（或“提前退出”）。这种早期退出的想法与[3，37]有关，特别是在图像分类[14]中。2.2. 神经架构搜索我们的工作与神经结构搜索的工作密切相关[44，2，45，29]。最值得注意的是，Zoph et al.[45]使用带有控制器RNN的强化学习来设计一个单元（或层）以获得一个网络，称为NASNet，它在ImageNet上达到了最先进的精度。搜索过程的效率通过[24]设计一个称为PNASNet的网络进一步提高，其精度与NASNet相似类似地，进化方法[29]也被用于设计改进NAS-Net和PNASNet的AmoebaNet。由于强化学习和进化控制器的表现类似，因此本文中我们只对强化学习控制器进行了与[ 44 ]相比，我们的方法有两个主要区别：（1）我们的方法的输出是多尺度特征，而[ 44 ]的输出是用于分类的单尺度特征;（2）我们的方法专门搜索跨尺度连接，而[44]只关注在相同特征分辨率内发现连接。除了图像分类，神经架构搜索也被用于改进图像分割网络[4]。据我们所知，我们的工作是第一个成功的应用神经结构搜索金字塔结构的目标检测报告。有关神经结构搜索相关方法的更广泛概述，请参见[6]。3. 方法我们的方法基于RetinaNet框架[23]，因为它简单有效。RetinaNet框架有两个主要组成部分：主干网络（通常是状态-7038现有技术的图像分类网络）和特征金字塔网络（FPN）。该算法的目标是为RetinaNet找到一个更好的FPN架构。图2显示了RetinaNet架构。NAS-FPN特征金字塔网络class+boxX N图2：RetinaNet与NAS-FPN。在我们的建议中，特征金字塔网络是由神经结构搜索算法搜索骨干模型和类和框预测的扩展遵循RetinaNet中的原始设计[23]。FPN的架构可以堆叠N次以获得更好的精度。为了发现更好的FPN，我们利用[44]提出的神经神经架构搜索训练控制器使用强化学习在给定的搜索空间中选择最佳模型架构。控制器使用子模型在搜索空间中的准确性作为奖励信号来更新其参数。因此，通过试验和错误，控制器学会随着时间的推移生成更好的架构正如之前的研究所确定的那样[36，44，45]，搜索空间发挥着在5个尺度{C3，C4，C5，C6，C7}中输入特征，相应的特征步幅为{8，16，32，64，128}像素。C6和C7是通过简单地将步幅2和步幅4最大池化应用于C5而创建的。然后将输入要素传递到金字塔网络，该网络由一系列引入跨尺度连接的合并单元（见下文）组成金字塔网络然后输出增强的多尺度特征表示{P3，P4，P5，P6，P7}。由于金字塔网络的输入和输出都是相同尺度的特征层，因此FPN的架构可以重复堆叠在第4节中，我们展示了控制金字塔网络的数量是权衡检测速度和准确性的一种简单方法。合并单元格。在以前的作品中的对象检测的一个重要观察是，它是必要的“合并”功能在不同的尺度。跨尺度连接允许模型将具有强语义的高级特征和具有高分辨率的低级特征相结合。我们提出合并单元，这是一个基本的构建块的FPN，合并任何两个输入功能层到一个输出功能层。在我们的实现中，每个合并单元需要两个输入特征层（可以来自不同的尺度），应用处理操作，然后将它们组合以产生一个所需尺度的输出特征层。FPN由N个不同的合并单元组成，其中N在搜索期间给定。在合并单元中，所有特征层具有相同数量的过滤器。构造合并单元的过程如图3所示。在建筑搜索的成功中起着至关重要的作用。在下一节中，我们为FPN设计了一个搜索空间，以生成特征金字塔表示。对于FPN的可伸缩性（即，因此FPN架构可以在RetinaNet内重复堆叠），在搜索期间，我们还强制FPN重复自身N次，然后连接成大架构。我们称之为金字塔建筑-要素图层合并单元结构NAS-FPN。3.1. 架构搜索空间在我们的搜索空间中，特征金字塔网络由许多“合并单元”组成，这些单元在下文中，我们将描述特征金字塔网络的输入，以及如何构建每个合并单元。功能金字塔网络。要素金字塔网络将多比例要素图层作为输入，并生成相同比例的输出要素图层，如图2. 我们遵循RetinaNet [23]的设计，它使用每组特征层中的最后一层作为第一个金字塔网络的输入第一个金字塔网络的输出是下一个金字塔网络的输入。我们用作图3：合并单元格中需要的四个预测步骤。请注意，输出要素图层将被推回到候选要素图层的堆栈中，并可供下一个合并单元格选择。如何构造合并单元的决定由控制器RNN做出。RNN控制器选择任何两个候选特征层和二进制操作以将它们组合成新的特征层，其中所有特征层可以具有不同的分辨率。每个合并单元具有由不同的softmax分类器进行的4个步骤1.从候选层中选择一个要素层h i。步骤2. 从候选层中选择另一个特征层hj，而不进行替换。步骤3. 选择输出要素分辨率。124二进制操33x3转换appendclass+boxclass+box...7039总和+X最大池步骤4. 选择一个二进制运算符来组合步骤1和步骤2中选择的hi和hj，并生成具有步骤3中选择的分辨率的特征层在第4步中，我们在搜索空间中设计了两个二元操作，求和和全局池化，如图4所示。选择这两种操作是因为它们简单有效。它们不添加任何额外的可训练参数。求和运算通常用于组合特征[22]。全局池操作的设计受到[20]的启发。我们遵循金字塔注意力网络[20]，除了在原始设计中删除卷积层。在应用二进制运算之前，通过最近邻上采样或最大池化（如果需要）将输入要素图层调整为输出合并后的特征层后面总是跟着一个ReLU、一个3x3卷积和一个批量归一化层。(a) 总额（b）图4：二进制操作。金字塔网络的输入要素图层形成合并像元的输入候选项的初始列表。在步骤5中，新生成的特征层被附加到现有输入候选者的列表中，并成为下一个合并单元格的新候选者。在架构搜索期间，可以有多个候选特征共享相同的分辨率。为了减少发现的架构中的计算，我们避免在步骤3中选择步幅8特征用于中间合并单元。最后，将最后5个合并单元设计为输出特征金字塔{P3，P4，P5，P6，P7}。输出特征水平的顺序由控制器预测。然后通过重复步骤1、2、4生成每个输出要素图层，直到完全生成输出要素金字塔。与[44]类似，我们将所有尚未连接到任何输出层的特征层相加，得到具有相应分辨率的输出层。3.2. 深度监督的随时目标检测用堆叠金字塔网络缩放NAS-FPN的一个优点是可以在任何给定金字塔网络的输出处获得特征金字塔表示。此属性支持随时检测，可以生成提前退出的检测结果。受[19，13]的启发，我们可以在所有中间金字塔网络之后附加分类器和框回归头，并使用深度超它可以在任何金字塔网络的输出处停止并生成检测结果。当计算资源或延迟是关注点时，这可以是期望的属性，并且提供了可以动态地决定分配多少计算资源用于生成检测的解决方案在Ap蛋白A中，NAS-FPN可用于随时检测。4. 实验在本节中，我们首先描述我们的神经架构搜索实验然后，我们证明了所发现的NAS-FPN适用于不同的骨干模型和图像大小。NAS-FPN的容量可以通过改变金字塔网络的堆叠层数和特征维数来调整。我们展示了如何在实验中建立准确和快速的架构。4.1. 实现细节我们使用RetinaNet1的开源实现进行实验。这些模型在TPU上训练，一批中有64张图像。在训练过程中，我们使用[0.8，1.2]之间的随机尺度对输出图像大小进行多尺度训练。在所有卷积层之后应用批归一化层。我们使用α= 0。25且γ= 1。五是失焦。我们使用0.0001的重量衰减和0.9的动量。该模型使用50个epochs进行训练。初始学习率0.08应用于前30个时期，并在30和40个时期衰减0.1。对于使用DropBlock [9]的实验，我们使用了150个epoch的更长的训练时间表，第一次衰减为120，第二次衰减为140 epoch。逐步学习率计划对于在1280x1280的图像大小上使用AmoebaNet主干训练我们的模型并不稳定，对于这种情况，我们使用余弦学习率计划。该模型在COCO train2017上进行训练，并在COCO val2017上进行评估。在表1中，我们报告了与现有方法相比的测试开发准确度。4.2. NAS-FPN体系结构研究代理任务。为了加快RNN控制器的训练，我们需要一个代理任务[45]，它具有较短的训练时间，并且与真实任务相关。然后，可以在搜索期间使用代理任务来识别良好的FPN架构。我们发现，我们可以简单地缩短目标任务的训练，并使用它作为代理任务。我们只训练代理任务 10 个 epoch ，而不是我们用来训练RetinaNet收敛的50个 epoch为了进一步加快训练代理任务的速度，我们使用了一个小型的主干架构，pervision [19]. 在推理过程中，模型不需要完成所有金字塔网络的前向传递1https://github.com/tensorflow/tpu/tree/master/models/official/retinanet7040图5：左：奖励超过RL训练。奖励计算为代理任务上采样架构的AP。右：采样的唯一体系结构数与采样体系结构总数之比。当控制器收敛时，控制器采样更多相同的架构。ResNet-10，输入512×512图像大小。通过这些减少，TPU上的代理任务的训练时间为1小时。我们在代理任务中重复金字塔网络3次。初始学习率0.08应用于前8个时期，并在时期8衰减0.1倍。我们从COCO train2017集合中随机选择7392张图像作为验证集，我们使用它来获得奖励。Controller. 与[44]类似，我们的控制器是一个递归神经网络（RNN），它使用邻近策略优化（PPO）[33]算法进行训练。控制器对具有不同架构的子网络进行采样。这些架构使用一个工人池在代理任务上进行训练。我们实验中的工作队列由100个张量处理单元（TPU）组成。所得到的检测准确度的平均精度（AP）的一个保持出验证集被用作奖励更新控制器。图5-左图显示了不同训练迭代的采样架构的AP。可以看出，随着时间的推移，控制器生成了更好的架构。图5-右显示了采样架构的总数以及RNN控制器生成的唯一架构的总数。独特体系结构的数量在大约8000步之后收敛。在我们的实验中，我们在RL训练期间使用所有采样架构中具有最高AP的架构。该架构首先在8000步处采样，然后多次采样。图6显示了这个架构的细节。发现了功能金字塔架构。什么是好的功能金字塔架构？我们希望通过可视化发现的架构来阐明这个问题在图7（b-f）中，我们绘制了在RL训练期间具有渐进式更高奖励的NAS-FPN架构。我们发现RNN控制器可以在早期学习阶段快速拾取一些重要的跨尺度连接。例如，它可以发现高分辨率输入和输出要素图层之间的连接，这对于生成用于检测小物体的高分辨率特征。当控制器收敛时，控制器发现具有自顶向下和自底向上连接的架构，这与图7（a）中的普通FPN不同。我们还发现更好的功能重用的控制器收敛。控制器不是从候选层池中随机挑选任何两个输入层，而是学习在新生成的层上建立连接，以重用先前计算的特征表示。4.3. 可扩展的功能金字塔架构在本节中，我们将展示如何通过调整（1）主干模型，（2）重复金字塔网络的数量，以及（3）金字塔网络的维数来控制模型容量。我们讨论这些调整如何我们定义了一个简单的符号来表示骨干模型和NAS-FPN容量。例如，R-50、5@256表示使用ResNet-50主干模型、5个堆叠NAS-FPN金字塔网络和256个特征维度的模型。堆叠金字塔网络。我们的金字塔网络有一个很好的属性，它可以通过堆叠多个重复的架构扩展到一个更大的架构。在图8a中，我们表明，堆叠普通FPN架构并不总是提高性能，而堆叠NAS-FPN则显著提高了准确性。这个结果突出了我们的搜索算法可以找到可扩展的架构，这可能很难手动设计有趣的是，虽然我们在架构搜索阶段只为代理任务应用了3个金字塔网络，但应用了多达7个金字塔网络后，性能仍然有所提高采用不同的骨干网架构。一个常见的方法来权衡准确性和速度的对象检测和灰架构是改变骨干架构。尽管NAS-FPN中的金字塔网络是通过使用轻量级的ResNet-10骨干架构发现的，但我们表明它可以在不同的骨干架构之间很好地传输。图8b显示了NAS-FPN在不同主干上的性能，从较轻的架构（如MobilenetV 2）到非常高的容量架构（如AmoebaNet-D）[29]。当我们将NAS-FPN与MobilenetV 2一起应用于640×640 ，我们得到 36.6 AP 和 160BFLOP 。使用AmoebaNet的最先进的图像分类架构D [29]作为主干将FLOP增加到390B，但也增加了约5AP。具有轻型和重型骨干架构的NAS-FPN受益于堆叠更多的金字塔网络。调整特征金字塔网络的特征尺寸. 另一种增加模型容量的方法是7041图6：NAS-FPN中发现的7-merging-cell金字塔网络的架构，具有5个输入层（黄色）和5个输出特征层（蓝色）。GP和R-C-B分别代表Global Pooling和ReLU-Conv-BatchNorm。图7：NAS-FPN的架构图每个点表示一个要素图层。同一行中的要素图层具有相同的分辨率。分辨率在自下而上的方向上降低箭头指示内部层之间的连接图被构造成使得输入层在左侧。金字塔网络的输入用绿色圆圈标记，输出用红色圆圈标记。(a)基线FPN架构。(b-f)神经结构搜索在RNN控制器的训练中发现的7-cell NAS-FPN结构所发现的架构收敛的奖励（AP）的代理任务逐步提高。（f）我们在实验中使用的最终NAS-FPN以增加NAS-FPN中特征层的特征维度。图8 c显示了具有ResNet-50主干架构的NAS-FPN中128、256和384特征尺寸的结果。毫不奇怪，增加特征维度改善了检测性能，但它可能不是改善性能的有效方式。在图8 c中，R-50 7@256，具有更少的FLOP，实现了与R-503@384类似的AP增加特征维数将需要模型正则化技术。在第4.4节中，我们讨论了使用DropBlock [9]来正则化模型。高检测精度的架构。通过可扩展的NAS-FPN架构，我们讨论了如何在保持效率的同时构建在图9a中，我们首先表明NAS-FPN R-50 5@256模型具有与R-101 FPN基线相当的FLOP，但具有2.5 AP增益。这表明使用NA S-FPN比用更高容量模型替换骨干更有效。为了获得更高精度的模型，可以使用更重的主干模型或更高的特征维度。图9a示出了与现有方法相比，NAS-FPN架构在推理时间图的准确性方面处于左上部分NAS-FPN与最先进的Mask R-CNN模型一样准确，计算时间更少。快速推理的架构。设计具有低延迟和有限计算预算的对象检测器是一个活跃的研究课题。在这里，我们介绍NAS-FPNLite7042(a) 金字塔网络的数量（b）主干架构（c）特征维度图8：NAS-FPN的模型容量可以通过（a）堆叠金字塔网络，（b）改变骨干架构，以及（c）增加金字塔网络中的特征维度来控制所有模型都是在640 x640的图像大小上训练/测试的。标记上方的数字表示NAS-FPN中金字塔网络的数量。(a) 精确的模型(b) 快速模型图9：检测精度与推理时间（左）、FLOP（中）和参数（右）的关系。(a)与其他高精度模型进行比较。所有模型的推理时间都是在P100 GPU上计算的绿色曲线突出显示了具有不同骨干架构的NAS-FPN标记上方的数字表示NAS-FPN中金字塔网络的重复次数NAS-FPN/FPN的特征尺寸和输入图像尺寸在每个数据点旁边提到。(b)我们与其他快速模型进行比较。所有模型的输入图像大小为320x320，推理时间在Pixel 1 CPU上计算。我们的模型是用MobileNetV2的轻量级模型训练的。用于移动对象检测。NAS-FPNLite和NAS-FPN的主要区别在于，我们搜索一个金字塔网络，其输出从P3到P6。此外，我们遵循SS-DLite [32]并在NAS-FPN中用深度可分离卷积我们发现了一个15细胞的-并将其应用于实验中。我们在RetinaNet框架中结合了NAS-FPNLite和Mo-bileNetV 2 [32]。为了实现公平的计算，我们创建了一个FPNLite基线，它遵循原始FPN结构并替换了所有卷积层7043模型图像尺寸#FLOPs #params推断时间（ms）测试开发AP[30]第三十话320 ×32038.97 B-22（泰坦X）28.2[36]第三十六话320 ×3201.6B4.3M200（像素1CPU）22.1[36]第三十六话320 ×3201.4B4.3M190（像素1CPU）22.3[36]第三十六话320 ×3202.0B5.3M227（像素1CPU）22.9FPNLite MobileNetV2@64320 ×3201.51B2.02M192（像素1CPU）22.7FPNLite MobileNetV2@128320 ×3202.03B2.20M264（像素1CPU）24.3NAS-FPNLite MobileNetV2（3@48）NAS-FPNLite MobileNetV2320 ×320320 ×3201.52 B1.96 B2.16 M 210（Pixel 1 CPU）2.62 M 285（Pixel 1 CPU）24.225.7[30]第三十话608 ×608140.69 B-51（泰坦X）33.0[18]第十八话512 ×512--244（泰坦X）40.5Mask R-CNN X-152-32x8d [9]1280 ×800--325（P100）45.2[41]第四十一话832 ×500--90（泰坦X）34.4[23]第二十三话640 ×640193.6B34.0M37.5（P100）37.0[23]第二十三话640 ×640254.2B53.0M51.1（P100）37.8[23]第二十三话1024 ×1024495.8B34.0M73.0（P100）40.1[23]第二十三话1024 ×1024651.1B53.0M83.7（P100）41.1[23]第二十三话1280 ×1280小行星1311 B1.144亿210.4（P100）43.4NAS-FPN R-50（7@256）640 ×640281.3B60.3M56.1（P100）39.9NAS-FPN R-50（7@256）1024 ×1024720.4B60.3M92.1（P100）44.2NAS-FPN R-50（7@256）1280 ×12801125.5B60.3M131.9（P100）44.8NAS-FPN R-50（7@384）1280 ×12802086.3B103.9米192.3（P100）45.4NAS-FPN R-50（7@384）+DropBlock1280 ×12802086.3B103.9M192.3（P100）46.6NAS-FPN AmoebaNet（7@384）1280 ×1280小行星2633 B166.5百万278.9（P100）48.0NAS-FPN AmoebaNet（7@384）+DropBlock1280 ×1280小行星2633 B166.5百万278.9（P100）48.3表1：RetinaNet与NAS-FPN和其他最先进探测器在COCO测试开发集上的性能深度可分离卷积在[36，32]之后，我们使用开源对象检测API训练NAS-FPNLite和FPNLite。2在图9 b中，我们将NAS-FPN的特征维度控制为48或64，以便其在Pixel 1上具有与基线方法相似的FLOP和CPU运行时间，并显示 NAS-FPNLite 优于 SS-DLite [32] 和FPNLite。4.4. 对DropBlock的进一步改进由于NAS-FPN架构中引入的新层数量增加，因此需要适当的模型正则化来防止过拟合。遵循[9]中的技术，我们在NAS-FPN层中的批量归一化层之后应用块大小为3x 3的DropBlock。图10显示了DropBlock提高了NAS-FPN的性能。特别是，它改善了更多的架构，有更多的新引入的过滤器。请注意，默认情况下，我们在之前的实验中没有将DropBlock应用于现有作品的公平竞争。5. 结论在本文中，我们提出使用神经结构搜索来进一步优化设计用于目标检测的特征金字塔网络的过程。我们的经验-2https://github.com/tensorflow/models/tree/master/research/object检测7044图10：当使用和不使用DropBlock（DB）训练时，具有256或384的特征维度的NAS-FPN的性能比较使用ResNet-50的主干在1024 x1024的图像大小上训练模型。当我们在金字塔网络中增加特征维度时，添加DropBlock更为重要。在COCO数据集上的实验结果表明，NAS-FPN是一种灵活、高效的检测模型。NAS-FPN在准确性和速度的广泛权衡下，对许多骨干网架构产生了显著的改进。7045引用[1] E. H.阿德尔森角H.安德森，J。R.卑尔根，P. J.伯特，J. M.奥格登图象处理中的金字塔方法。RCA工程师，1984年。2[2] B. 贝克岛古普塔，加-地Naik和R.拉斯卡使用强化学习设计ICLR，2016年。2[3] T. Bolukbasi，J.Wang，O.Dekel和V.Saligrama. 用于高效推理的自适应神经网络。ICML，2017。2[4] L- C. Chen，M.D. Collins，Y.Zhu，G.帕潘德里欧湾Zoph，F. Schroff，H. Adam和J.史伦斯寻找用于密集图像预测的有效多尺度架构在NIPS，2018年。2[5] R. J.L. - S. D. Ooro-Rubio，M.尼珀特学习对象计数的捷径连接。BMVC，2018年。2[6] T. Elsken，J. H. Metzen和F.哈特神经架构搜索：一个调查。arXiv预印本arXiv：1808.05377，2018。2[7] C.傅，W. Liu，中国粘蝇A. Ranga、黑腹拟步行虫A.Tyagi和A. C. 伯格。 DSSD：Deconvolutional SingleShot Detector。CoRR，abs/1701.06659，2017。1[8] G. Ghiasi和C.C. 福克斯用于语义分割的拉普拉斯金字塔在ECCV，2016年。2[9] G. Ghiasi，T.Lin和Q.诉乐DropBlock：卷积网络的正则化方法。NIPS，2018年。四、六、八[10] R. 格尔希克岛 Rados avo vic，G. Gkioxari，P. Doll a'r和K. 他外探测器 https://github.com/ facebookresearch/detectron，2018. 一、二[11] K. 他，G. Gkioxari ，P. Doll a'r和R. 娘娘腔。面罩R-CNN. InICCV，2017. 一、二、八[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。一、二[13] G. Huang，黄氏拟谷盗D. Chen，T. Li，F.吴湖，加-地van der Maaten，以及K.温伯格多尺度稠密网络用于资源有效的图像分类。在ICLR，2018年。4[14] G. Huang，黄氏拟谷盗D. Chen，T. Li，F.吴湖，加-地van der Maaten，以及K. Q.温伯格多尺度密集网络用于资源有效的图像分类。在ICLR，2017。2[15] G. Huang，Z.Liu和K.Q. 温伯格密集连接的卷积网络。在CVPR，2017年。1[16] T.孔氏F.太阳，W。Huang和H.刘某用于目标检测的深度特征金字塔重配置。在ECCV，2018。一、二[17] T. 孔氏F.Sun，A.Yao，H.Liu，M.Lu和Y.尘RON：反向连接对象先验网络进行对象检测。在CVPR，2017年。1[18] H. Law和J. Deng. Cornernet：将对象检测为成对的关键点。在ECCV，2018。8[19] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深层监控网。InAISTATS，2015. 4[20] H. Li，P. Xiong，J. An和L.王.金字塔式注意网络的语义分割。BMVC，2018年。4[21] Z. Li ， C.Peng ， G.Yu ， X.Zhang ， Y.Deng 和 J. 太阳Detnet：用于目标检测的骨干网络。在ECCV，2018。1[22] T.- Y. Lin，P.多尔河B. 格希克角他，B.Hariharan和S. J·贝隆吉用于目标检测的特征金字塔网络。在CVPR，2017年。一、二、四7046[23] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。InICCV，2017. 一二三八[24] C. 刘湾，澳-地Zoph，J.Shlens，W.华湖，澳-地J. 利湖，澳-地飞飞A. Yuille，J. Huang，和K.墨菲渐进式神经结构搜索。在ECCV，2017年。2[25] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络。在CVPR，2018年。一、二[26] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。SSD：单次触发多盒探测器。在ECCV，2016年。1[27] N. D. B. B. Md Amirul Islam、Mrigank Rochan和Y.王.用于密集图像标记的门控反馈细化网络。CVPR，2017年。2[28] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。2[29] E.真实的，A. Aggarwal，Y. Huang和Q. V. Le.用于图像分类器架构搜索的正则化进化。在AAAI，2018。二、五[30] J. Redmon和A.法哈迪。Yolov3：增量改进。arXiv预印本arXiv：1804.02767，2018。8[31] O.龙内贝格山口Fischer和T.布洛克斯U-Net：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预，2015年。2[32] M. Sandler ， A. Howard ， M. Zhu ，中国茶青冈 A.Zhmoginov和L.-C.尘 MobileNetV2：反演残差和线性瓶。CVPR，2019年。一、二、七、八[33] J·舒尔曼，F. 沃尔斯基P. Dhariwal，A. 雷德福，还有O.克里莫夫近似策略优化算法。arXiv预印本arXiv：1707.06347，2017。5[34] J. - Y. S. M.- C. K. S.- J. K.金胜旭，郭亨根。用于目标检测的平行特征金字塔网络。ECCV，2018年。1[35] C. 塞格迪W. 刘先生，Y. 贾，P. Sermanet，S. E.里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。用于图像识别的深度残差学习。 CVPR，2015。1[36] M.坦湾陈河，巴西-地Pang，V. Vasudevan，and Q. V.Le. Mnasnet：平台感知的神经架构搜索移动。arXiv预印本arXiv：1807.11626，2018。三、八[37] S.泰拉皮塔亚农湾McDanel和H.阿坤Branchynet：通过早期退出深度神经网络进行快速推理见ICPR，第2464-2469页。IEEE，2016. 2[38] S.吴，S。黄和我S.奎恩StairNet：自上而下的语义聚合，用于精确的单次检测。在WACV，2018。1[39] D. K.金永铉奉南康San：学习卷积特征之间的关系，用于多尺度对象检测。ECCV，2018年。1[40] F. Yu，D. Wang，中国山核桃E. Shelhamer和T.达雷尔。深层聚合。在CVPR，2018年。1[41] S.张丽文，X.卞氏Z. Lei和S. Z.李用于目标检测的单次细化神经网络。在CVPR，2018年。1、8[42] Q. Zhao，T.盛，Y. Wang， Z.唐，Y。陈湖，澳-地蔡和H.凌M2det：基于多级特征金字塔网络的单次目标检测器。AAAI，2019年。27047[43] P. Zhou，B. Ni，C. Geng，J. Hu，and Y.徐可缩放物体检测.在CVPR，2018年。1[44] B. Zoph 和 Q. V. Le. 神经结构搜索与强化学习。在ICLR，2017。二三四五[45] B. Zoph，V. Vasudevan，J. Shlens和Q. V. Le.可扩展图像识别的学习可转移架构。在CVPR，2018年。二、三、四

下载后可阅读完整内容，剩余1页未读，立即下载