SpineNet：同时识别和定位的编码器-解码器结构

201 浏览量更新于2023-10-25 收藏 720KB PDF 举报

卷积神经网络

对象检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11592SpineNet：用于识别和定位的林鹏冲金高纳兹·贾西明兴谭寅崔国五世。乐晓丹宋谷歌研究，大脑团队{贤智，宗义，彭冲，高乃智，谭明星，尹翠，qvl，小丹松}@ google.com摘要51SpineNet-143卷积神经网络通常将输入图像编码为一系列分辨率递减的中间特征 While this structure is suited toclassification tasks, it does not perform well for tasksrequiring simulta- neous recognition and localization (e.g.,对象检测）。提出了编码器-解码器结构来解决4849@89645494296HRNetSpineNet-143Mask R-CNNRetinaNetNAS-FPN#FLOPS ▲AP这是通过将解码器网络应用到为分类任务设计的骨干模型上来实现的。在本文中，我们认为编码器-解码器架构是无效的，因为规模减少骨干产生强大的多尺度功能。我们提出了SpineNet，一个具有尺度排列中间特征和跨尺度连接的3949 S36YOLOv333SpineNet-49SSpineNet-49SpineNet-49@896SpineNet-96SpineNet-143SpineNet-143<$ SpineNet-190<$39.985.4B 42.8167.4B 45.3265.4B 47.1524.4B 48.1524.4B 50.71885.0B 52.1这是通过神经架构搜索在对象检测任务上学习的。使用类似的构建块，SpineNet模型在各种尺度下的性能优于 ResNet-FPN 模型 3%+ AP特别是， SpineNet-190 在COCO上实现了52.1%的AP，在没有测试时间增加的情况下实现了单模型对象检测SpineNet可以转移到分类任务，在具有挑战性的iNaturalist细粒度数据集上实现5%的前1精度改进代码位于：https://github.com/tensorflow/tpu/tree/master/models/official/detection。1. 介绍在过去的几年里，我们见证了深度卷积神经网络设计的显著进步。尽管网络通过增加深度和宽度变得更加强大[10，42]，但自卷积神经网络发明以来，元架构设计一直没有改变。大多数网络遵循的设计是将输入图像编码成具有单调递减分辨率的中间特征网络架构设计的大多数改进是在特征分辨率组内添加网络深度和连接[19，10，14，44]。LeCunet0 200 400 600 800 1000 1200 1400浮点数（亿）图1：SpineNet使用ResNet块构建，性能远远优于ResNet-FPN[22]和NAS-FPN [6]，并实现了单模型对象检测的最新性能详情见第5节和表2。al. [19]解释了这种规模缩减架构设计背后的动机：可能需要高分辨率来检测特征的存在，而其确切位置不需要以同样高的精度来确定。然而，尺度减小的模型可能不能为识别和定位都很重要的多尺度视觉识别任务提供强特征（例如，对象检测和分割）。Lin等人。[21]表明，由于低特征分辨率，直接使用来自尺度减小模型的顶级特征在检测小对象方面表现不佳。包括[21，1]在内的几项工作提出了多尺度编码器-解码器架构来解决这个问题。一个规模减小的网络被用作编码器，这通常被称为骨干模型。然后将解码器网络应用于骨干以恢复特征分辨率。解码器网络的设计与骨干网模型有很大的不同。典型的解码器网络由一系列COCO AP（%）11593跨尺度连接，其将来自主干的低级和高级特征组合以生成强大的多尺度特征图。典型地，主干模型具有更多的参数和计算（例如，ResNets [10]）比解码器模型（例如，特征金字塔网络[21]）。在保持解码器规模不变的情况下增加骨干模型的规模是获得更强的编解码器模型的常用策略。在本文中，我们的目标是回答这个问题：规模缩小的模型是一个很好的骨干架构设计的同时识别和定位？直观地说，尺度减小的主干通过下采样丢弃空间有鉴于此，我们提出了一个Meta架构，称之为规模置换模型，与骨干架构设计的两个主要改进。首先，中间特征图的尺度应该能够在任何时候增加或减少，以便模型可以随着深度的增加而保留第二，特征图之间的连接应该能够跨越特征尺度，以便于多尺度特征融合。图2展示了尺度缩减网络和尺度置换网络之间的差异。尽管我们头脑中有一个简单的元架构设计，但可能的实例化随着模型深度的增加而组合增长为了避免手动筛选大量的设计选择，我们利用Neu- ral ArchitectureSearch（NAS）[43]来学习架构。主干模型是在COCO数据集[23]中的对象检测任务上学习的，这需要同时识别和定位。受NAS-FPN [6]最近成功的启发，我们在实验中使用简单的一级RetinaNet检测器[22]。与NAS-FPN中学习特征金字塔网络相比，我们学习骨干模型架构，并将其直接连接到以下分类和边界框回归模型。换句话说，我们消除了主干和解码器模型之间的区别整个主干模型可以作为一个特征金字塔网络来查看和使用。以ResNet-50 [10]主干作为我们的基线，我们使用ResNet-50中的瓶颈块作为搜索空间中的候选特征块。我们学习（1）特征块的排列和（2）每个特征块的两个输入连接搜索空间中的所有候选模型都具有与ResNet-50大致相同的计算，因为我们只是排列特征块的顺序以获得候选模型。在目标检测任务中，学习到的尺度排列模型比ResNet-50-FPN好（+2.9%AP）。通过添加搜索选项来调整比例和类型（例如，残差块或瓶颈块）。我们命名为学习规模置换骨干架构SpineNet。广泛的实验恶魔-图2：规模缩减网络（左）与标度置换网络（右）。块的宽度指示特征分辨率，并且高度指示特征尺寸。虚线箭头表示与未绘制的块之间的连接。对尺度排列和跨尺度连接进行分级对于构建用于对象检测强骨干模型是关键的。图1显示了SpineNet与最近在对象检测方面的工作的综合比较。我们进一步在ImageNet和iNatural- ist分类数据集上评估SpineNet尽管SpineNet架构是通过对象检测学习的，但它可以很好地转移到分类任务中。特别是，SpineNet在iNaturalist细粒度分类数据集上的top-1准确率比ResNet高出5%，其中类需要通过细微的视觉差异和局部特征来区分直接将SpineNet应用于分类任务的能力表明，尺度置换的主干是通用的，有可能成为许多视觉识别任务的统一模型架构。2. 相关工作2.1. 骨干模型开发卷积神经网络的进展主要在ImageNet分类数据集上得到了证明[4]。研究人员一直在通过增加网络深度[18]，新颖的网络连接[10，36，37，35，14，13]，增强模型容量，[42]和效率[33，32，12，38]。一些工作已经证明，使用具有更高ImageNet精度的模型作为骨干模型，在其他视觉预测任务中可以实现更高的精度[16，21，1]。然而，为ImageNet开发的主干可能对本地化任务无效，即使与解码器网络（如[21，1]）结合也是如此。DetNet [20]认为下采样功能会损害其本地化能力。HRNet [33]试图通过添加并行多尺度互连分支来解决这个问题。Stacked Hourglass [27]和FishNet [34]提出了具有跳过连接的循环下采样和上采样架构与为ImageNet开发的主干不同，它们大多是规模减小的，上面的几个作品考虑了使用向下采样和向上采样构建的主干115942我FPNR50-FPNSP30R23R0-SP53SpineNet-49（a）R50-FPN@37.8%AP（b）R23-SP30@39.6%AP（c）R0-SP53@40.7%AP（d）SpineNet-49@40.8% AP图3：通过置换ResNet构建规模置换网络。从（a）到（d），计算逐渐从ResNet-FPN转移to scale规模-permuted排列networks网络. (a)R50-FPN模型在ResNet-50中花费了大部分计算，其次是FPN，实现了37.8%的AP;(b)R23-SP30，在ResNet中投资7个块，在规模置换网络中投资10个块，实现了39.6%的AP;（c）R 0-SP 53，将所有块投资于尺度置换网络，实现40.7% AP;（d）SpineNet-49架构实现了40.8%的AP，FLOP减少了10%（85.4B vs. 95.2B）通过学习额外的块调整。矩形块表示瓶颈块，菱形块表示残差块。输出块由红色边框表示。运营在第5.5节中，我们比较了尺度置换特征水平Li。 Li块中的特征图具有模型与沙漏和鱼形架构。分辨率为1的输入分辨率。中的块2.2. 神经架构搜索在过去的几年里，神经架构搜索（NAS）已经显示出对图像分类的手工模型的改进[44，25，26，40，29，38]。与手工制作的网络不同，NAS通过优化指定的奖励来学习给定搜索空间中的架构。最近的工作已经将NAS应用于分类之外的视觉任务。NAS-FPN [6]和Auto-FPN [41]是将NAS应用于对象检测的先驱作品，并专注于学习多层特征金字塔网络。DetNAS [2]学习主干模型并将其与标准FPN [21]相结合。除了对象检测之外，Auto-DeepLab [24]还学习主干模型，并将其与DeepLabV 3 [1]中的解码器结合起来进行语义分割。除了Auto-DeepLab之外，所有上述作品都学习或使用尺度减小的骨干模型进行视觉识别。3. 方法所提出的骨干网络模型的结构由一个固定的主干网络和一个学习的尺度置换网络组成。主干网络采用规模缩减的结构设计.主干网络中的块可以是以下尺度置换网络的候选输入。一个规模排列的网络是用一个建筑物同一层具有相同的架构。受NAS-FPN [6]的启发，我们定义了从L3到L7的5个输出块，并将1 ×1卷积附加到每个输出块，以产生具有相同特征尺寸的多尺度特征P3到P7其余的构建块用作输出块之前的中间块。在神经架构搜索中，我们首先搜索中间块和输出块的尺度排列，然后确定块之间的跨尺度连接。我们通过在搜索空间中添加块调整来进一步改进模型。3.1. 搜索空间比例排列：块的排序很重要，因为块只能连接到具有较低排序的父块。我们通过分别排列中间块和输出块来定义尺度排列的搜索空间，从而得到搜索空间大小为（N-5）！五！.在搜索架构的其余部分之前，首先确定尺度排列。跨尺度连接：我们定义两个输入connec- tions为每个块在搜索空间。父块可以是具有较低排序的任何块或来自主干网络的块。恢复空间和要素维度当在不同特征le v中连接块Q时埃尔斯搜索空间的大小为N+m−1Ci，其中mi=m2块{B1，B2，· · ·，BN}。每个块Bk具有关联的是词干网络中的候选块的数量。11595KK在ConvHo x Wo xαCo1x1ConvH2 x W2 xC21x1Ho x Wo xOutCo+在ConvH1xW1xαC1ConvMaxH2xW2xαC1ConvH2xW2xC2英寸H2xW2xC21x13x 3/2游泳池1x 1H2 x W2x αCoNN上采样出来H1 x W1 x C1空间重采样图4：暂缓行动。对上采样（顶部）和下采样（底部）输入特征进行空间重采样，然后在特征融合之前进行特征维度重采样。整组调整数：我们允许块调整其规模水平和类型。中间块可以通过{-1，0，1，2}调整级别，导致搜索空间大小为4N-5。允许所有块在[10]中描述的两个选项{瓶颈块，残差块}之间选择一个，导致搜索空间大小为2N。3.2. 在跨尺度连接跨尺度特征融合中的一个挑战是父块和目标块之间的分辨率和特征维度可能不同在这种情况下，我们执行空间和特征重建以将分辨率和特征尺寸与目标块匹配，如图4中详细所示。这里，C是残差或瓶颈块中3×3卷积的特征维数我们使用Cin和Cout来表示块的输入和输出维度对于下颈块，C_in=C_out=4C;对于残差块，C_in=C_out=C。由于保持计算成本保持在较低水平非常重要，因此我们引入了缩放因子α（默认值为0. 5）将父块中的输出特征尺寸C调整为αC。然后，我们使用最近邻插值进行上采样，或使用步幅-23×3卷积（如果需要，随后使用步幅-2最大池）进行下采样特征映射，以匹配目标分辨率。最后，应用1×1卷积以将特征维度αC匹配到目标特征维度C。遵循FPN [21]，我们使用元素加法合并两个重新采样的输入特征图3.3. 基于置换ResNet的标度置换模型在这里，我们通过置换ResNet架构中的特征块来构建尺度置换模型我们的想法是在使用相同的构建块时，在尺度排列模型和尺度减小模型之间进行公平的比较。我们通过将ResNet中的一个L5块替换为一个L6和一个L7块，并将 L5， L6和 L7块的特征维数设置为256，除了比较完全尺度缩减和尺度置换模型之外，我们还创建了一系列模型，这些模型逐渐将模型从尺度缩减的主干网络转移到尺度置换的主干网络。表1：词干和标度排列网络的每层区块数. 如图3所示，标度置换网络建立在标度减小的主干网络之上。降尺度干网络的规模逐渐减小，表明了尺度置换网络的有效性。在手工制作的茎网络中指定N个特征层，学习的尺度置换网络中的M个为了进行公平的比较，我们将搜索空间限制为仅包括尺度排列和跨尺度连接。然后，我们使用强化学习来训练控制器生成模型架构。类似于[6]，对于不连接到生成的架构中具有更高排序的任何块的中间块，我们将它们连接到相应级别的输出块。请注意，如第3.2节所述，跨尺度连接仅引入少量计算开销。因此，该系列中的所有模型都具有与ResNet-50相似的计算能力。图3显示了该系列中学习的模型架构的选择。3.4. SpineNet架构为此，我们设计了尺度置换模型，与ResNet进行了然而，使用ResNet-50构建块可能不是构建比例置换模型的最佳选择我们怀疑最佳模型可能具有与ResNet不同的特征分辨率和块类型分布因此，我们进一步在搜索空间中包括额外的块调整，如第3.1节所述。学习模型架构被命名为SpineNet-49，其架构如图3d所示，每级的块数量如表1所示。基于SpineNet-49，我们构建了SpineNet系列中的四种架构，其中模型在广泛的延迟性能权衡中表现良好。这些模型被表示为 SpineNet-49 S/96/143/190 ：SpineNet-49 S具有与SpineNet-49相同的架构，但整个网络中的特征尺寸被均匀地缩小了 0 倍。六十五SpineNet-96通过将每个块Bk重复两次，使模型大小加倍。构建块Bk被复制成B1和B2，然后它们被测序。K K置换网络。表1示出了块a1-a2的概述。模型在族中的位置我们使用R[N]-SP[M]来输入-基本连接。第一块B1连接到输入部分，ent块，最后一个块B2连接到输出目标主干网络{L2，L 3，L4，L 5}尺度置换网络{L2，L 3，L 4，L 5，L 6，L 7}R50{3，4，6，3}联系我们R35-SP18{2，3，5，1}{1，1，1，1，1，1}R23-SP30{2，2，2，1}{1，2，4，1，1，1}115965出来块在出来块²块在出来块³块²块在图5：通过块重复增加模型深度。从左到右：SpineNet-49、SpineNet-96和SpineNet-143中的块个街区. SpineNet-143和SpineNet-190重复每个块3次和4次，以增加模型深度并将重建操作中的α调整为1。0的情况。图5显示了通过重复块增加模型深度的示例。注意我们没有将最近的工作应用于新的构建块（例如，DetNas [2]中使用的ShuffleNetv2块）或SpineNet的有效模型缩放[38这些改进可以与这项工作正交。4. 应用4.1. 对象检测SpineNet架构是通过简单地替换默认的ResNet-FPN骨干模型来学习RetinaNet检测器的。我们遵循[22]中的类和框卷积的架构设计：对于SpineNet-49 S，我们在特征维度128处使用4个共享卷积层;对于SpineNet-49/96/143，我们在特征维度256处使用4个共享卷积层;对于SpineNet-190，我们通过在特征维度512处使用7个共享卷积层来扩展卷积。我们证明了SpineNet也可以用作Mask R-CNN检测器[9]中的骨干模型，并改进了框检测和实例分割。4.2. 图像分类为了证明SpineNet具有推广到其他视觉识别任务的潜力，我们将SpineNet应用于图像分类。我们利用相同的P3到P7功能网络工作分类体系的构建。具体test-dev分裂和val 2017分裂上的其他人。对于图像分类，我们在 ImageNet ILSVRC-2012 [31] 和iNaturalist-2017 [39]上训练SpineNet，并报告Top-1和Top-5验证准确度。5.1. 实验设置训练数据预处理：对于对象检测，我们将一个更大的图像（从640到896，1024，1280）馈送到一个更大的SpineNet。图像的长边被调整为目标大小，然后短边用零填充，一个正方形的图像。对于图像分类，我们使用标准尺度和长宽比数据增强。网络输入是从增强图像或其水平翻转中随机裁剪的224×224输入图像通过每个颜色通道的平均值和标准差进行归一化培训详情：对于对象检测，我们通常遵循[22，6]采用相同的训练协议，表示为协议A，以训练图3中描述的SpineNet和ResNet-FPN模型。简而言之，我们使用随机梯度下降在Cloud TPU v3设备上进行训练，具有4 e-5 重量衰减和 0.9 动量。所有模型都是在COCOtrain2017上从头开始训练的，256个批量，250个epoch。初始学习率设置为0.28，在前5个epoch中应用线性预热。我们采用逐步学习率，衰减到0。1×和0。01×在最后30和10个时期。我们遵循[8]应用同步批量归一化，其中 0.99 动量跟随 ReLU ，并实现DropBlock [5]进行正则化。我们应用多尺度训练，随机尺度在[0. 八，一。[2]如[6]。在RetinaNet实现中，我们为SpineNet-96或更小的模型设置基本锚点大小为3，为SpineNet-143或更大的模型设置4。对于我们的最终结果，我们采用了表示为协议B的训练协议.为了简单起见，协议B删除了DropBlock并应用了更强的多尺度训练，其中随机尺度介于[0. 五二0]，共350个时期。为了在大型模型中获得最具竞争力的结果，我们为SpineNet-143/190 添加了随机深度 [15] 和 swish 激活[28]，表示为协议C。对于图像分类，所有模型都是以4096的批量大小训练200个epochs。我们用余弦最终的特征图P=17I=3U（Pi）是gener-学习率衰减[11]与学习率通过对特征图进行上采样和平均来进行，其中U（·）是最近邻上采样，以确保所有特征图具有与最大特征图P3相同的比例。应用P上的标准全局平均池化来产生256维特征向量，然后是使用softmax进行分类的线性分类器。5. 实验对于对象检测，我们在 COCO 数据集上评估SpineNet [23]。所有模型都在train2017分割上训练我们与COCO AP一起报告我们的主要结果，在前5个时期逐渐升温[7]。NAS详细信息：我们实现了[ 43 ]中提出的基于递归神经网络的控制器用于架构搜索，因为它是我们所知道的支持搜索排列的唯一方法。我们从train2017中保留了7392张图像作为搜索的验证集。为了加快搜索过程，我们通过将SpineNet- 49的特征维度统一缩减为0.25，将resource中的α设置为0.25，并在框和类网络中使用特征维度64来到11597主干模型决议#FLOPS▲#参数APAP50AP75APSAPMAPLSpineNet-49S[30]第三十话640×640608×60833.8B70.3B12.0M-39.933.059.357.943.134.420.918.342.235.454.341.9SpineNet-49640×64085.4B28.5M42.862.346.123.745.257.3R50-FPN [22]640×64096.8B34.0M37.055.739.817.840.950.6R50-NAS-FPN [6]640×640140.0B60.3M39.9-----SpineNet-49896×896167.4B28.5M45.365.149.127.047.957.7SpineNet-961024×1024265.4B43.0M47.167.151.129.150.259.0[22]第二十二话1024×1024325.9B53.1M41.160.644.423.544.352.3SpineNet-1431280×1280524.4B66.9M48.167.652.030.251.159.9R50-NAS-FPN[6]1280×12801043.0B103.0M46.665.950.529.949.856.6AmoebaNet-NAS-FPN [6]1280×12801316.5B166.5M48.3-----SpineNet-143†1280×1280524.4B66.9M50.770.454.933.653.962.1SpineNet-190†1280×12801885.0B163.6M52.171.856.535.455.063.6表2：COCO test-dev上的一阶段对象检测结果。我们在没有测试时增强的单个模型上比较了使用不同的RetinaNet骨干，除了YOLOv3 [30]。默认情况下，我们应用带有大规模抖动和ReLU激活的协议B来训练SpineNet模型，如第5.1节所述。标记为dagger的SpineNet模型使用协议C通过进一步应用随机深度和swish激活进行训练其他方法的编号均采用文献中的FLOP由Multi-Adds表示模型决议AP推理延迟SpineNet-49S640×64039.911.7msSpineNet-49640×64042.815.3msSpineNet-49896×89645.334.3ms表3：R50-FPN和标度置换模型在COCOval 2017上采用方案A的结果比较。随着更多的计算被分配给尺度置换网络，性能得到改善我们还在第3.1节中展示了通过调整规模和块类型来提高效率。模型浮点数#参数APAAPBSpineNet-4985.4B28.5M40.842.7R50-FPN96.8B34.0M37.840.4R50-NAS-FPN140.0B60.3M-42.4表4：使用第5.1节中描述的训练方案A（APA）和B（APB）训练的模型的性能改进。.为了防止搜索空间呈指数级增长，我们限制中间块在最后5个块中搜索父块，并允许输出块从所有现有块中搜索在每个样本处，在图像分辨率512下训练代理任务5 个收集保留验证集上代理任务的 AP 控制器使用100Cloud TPU v3并行采样子模型。R35-SP18、R23-SP30、表5：在配备NVIDIA TensorRT的 V100 GPU针对包括预处理、检测生成和后处理（例如，NMS）。R14-SP39、R 0-SP 53和SpineNet-49是在6 k、10 k、13k、13 k和14 k架构采样后发现的。5.2. 学习规模置换体系结构在图3中，我们观察到尺度排列模型具有排列，使得中间特征经历不断上采样和下采样特征映射的变换，与尺度减小的主干相比显示出很大的差异。两个相邻的中间块体连接形成深通道是非常常见的。输出块展示了不同的选择器，更喜欢更长范围的连接。在第5.5节中，我们进行了消融研究，以显示学习的规模排列和连接的重要性。5.3. ResNet FPN与SpineNet我们首先展示了第3.3节中讨论的4个尺度置换模型的对象检测结果，并与ResNet 50-FPN基线进行了比较表3中的结果支持我们的主张：（1）规模缩减的主干模型是模型块调整浮点数APR50-FPN-96.8B37.8R35-SP18-91.7B38.7R23-SP30-96.5B39.7R14-SP39-99.7B39.6R0-SP53-95.2B40.7SpineNet-49✓85.4B40.811598检测器主干模型决议#FLOPS▲#参数APAP50AP75AP掩模AP掩模50AP掩模75掩码R-CNN†SpineNet-49640×640225.0B43.6M43.664.447.538.661.141.5Faster R-CNN[33]第三十三话800×1200263.4B45M42.6-----掩码R-CNN†SpineNet-961024×1024325.0B57.5M47.968.352.741.965.645.4Mask R-CNNR50-FPN [8]800×1280370.1B45.8M43.3--38.5--Mask R-CNNR101-FPN [8]800×1280445.9B67.8M45.065.749.339.562.542.1掩码R-CNN†SpineNet-1431280×1280518.8B79.1M49.369.854.243.267.247.0Mask R-CNNX152-FPN [8]800×1280784.3B142.6M46.467.151.140.563.943.4表6：两阶段对象检测和实例分割结果。我们使用我们的Mask R-CNN实现来测量SpineNets的性能，使用1000个建议（标记为†）。基线Mask R-CNN的性能在[8]中报告，其FLOP和参数在我们的Mask R-CNN实现中测量。HRNets [33]与Faster R-CNN的性能报告使用开源实现中的512个提案。所有结果均基于COCOval2017，使用单一模型，未增加测试时间。没有很好地设计用于对象检测的骨干模型;(2)在所提出的尺度置换模型上分配计算产生更高的性能。与R50-FPN基线相比，R 0-SP 53使用相似的构建块，增益为2。9%的AP具有学习的尺度排列和跨尺度连接。SpineNet- 49模型通过将FLOP减少10%来进一步提高效率，同时通过以下方式实现与R 0-SP 53相同的精度：添加比例和块类型调整。5.4. 对象检测结果RetinaNet：我们使用RetinaNet检测器在COCO边界框检测任务上评估SpineNet架构。结果总结在表2中。SpineNet模型在准确性和效率方面都优于其他流行的检测器，如YOLO、ResNet-FPN和NAS-FPN。我们最大的SpineNet-190在没有测试时增强的情况下，在单个模型对象检测上实现了52.1%的AP。我们还在表4中显示了采用训练协议A和B的SpineNet，ResNet-FPN和NAS-FPN的性能比较。Mask R-CNN：在这里，我们展示了SpineNet在框检测和物体分割中使用Mask R-CNN实现了强大的性能。表6显示了SpineNet和其他主干（例如，ResNet-FPN [8]和HRNet [33]）。我们在Mask R-CNN实现 1中测量SpineNet的性能。HRNet的性能采用了开源的实现2.与RetinaNet结果一致，SpineNets能够使用更少的FLOP和参数，但在各种模型尺寸下实现更好的AP和掩码AP。请注意，SpineNet是在RetinaNet的框检测上学习的，但与Mask R-CNN配合使用效果很好。实时目标检测：我们的SpineNet-49 S和SpineNet-49与RetinaNet在NVIDIA上运行速度超过30 fps1https://github.com/tensorflow/tpu/tree/master/models/official/detection2https://github.com/HRNet/HRNet-Object-DetectionV100 GPU上的TensorRT。我们使用端到端对象检测流水线测量推理延迟，包括预处理、边界框和类分数生成以及具有非最大抑制的后处理，如表5所示。5.5. 消融研究Scale Permutation的重要性：我们研究的重要性，学习规模排列比较学习规模排列固定排序特征尺度。我们在编码器-解码器网络中选择两种流行的架构形状：（1）受[27，21]启发的沙漏形状;（2）受[ 34 ]启发的鱼形状。表8显示了沙漏形状和鱼形状架构中功能块的顺序。然后，我们使用3.1节中描述的相同搜索空间学习跨尺度连接。性能表明，联合学习规模排列和跨规模连接比只学习具有固定结构形状的连接更好请注意，可能存在一些架构变体，以使沙漏和鱼形状模型表现得更好，但我们只使用最简单的固定比例排序进行实验。跨尺度连接的重要性：的跨尺度连接在尺度置换网络中融合不同分辨率的特征中起着至关重要的作用。通过图形损伤的方法来研究其重要性。对于R 0-SP 53的标度置换网络中的每个块，跨标度连接以三种方式损坏：（1）拆除短程连接;（2）消除远程连接;（3）移除两个连接，然后经由顺序连接将一个块连接到其前一个块。在这三种情况下，一个块只连接到另一个在表9中，我们显示了尺度置换网络对这里提出的任何边缘去除技术都的(2)以及（3）产生比（1）更大的破坏，这可能是因为短距离连接或顺序连接不能有效地处理频繁的分辨率变化。11599网络ImageNet ILSVRC-2012（1000级）iNaturalist-2017（5089-class）#FLOPS▲#参数前1%前5%浮点数#参数前1%前5%SpineNet-493.5B22.1M77.093.33.5B23.1M59.381.9ResNet-343.7B21.8M74.492.03.7B23.9M54.176.7ResNet-504.1B25.6M77.193.64.1B33.9M54.677.2SpineNet-965.7B36.5M78.294.05.7B37.6M61.783.4ResNet-1017.8B44.6M78.294.27.8B52.9M57.079.3SpineNet-1439.1B60.5M79.094.49.1B61.6M63.684.8ResNet-15211.5B60.2M78.794.211.5B68.6M58.480.2表7：ImageNet和iNaturalist上的图像分类结果。网络按增加的FLOP数排序。请注意，ResNet中的倒数第二层为分类器输出2048维的特征向量，而SpineNet的特征向量只有256维。因此，在iNaturalist上，ResNet和SpineNet分别有大约8M和1M的参数。模型形状固定块排序AP沙漏{3L2，3L 3，5L 4，1L 5，1L 7，1L 6，1L5，1L 4，1L 3}百分之三十八点三鱼{2L2，2L 3，3L 4，1L 5，2L4，1L 3，1L2、1L 3、1L 4、1L 5、1L6、1L 7}百分之三十七点五R0-SP53-40.7%表8：学习量表排列的重要性。我们比较我们的R 0-SP 53模型沙漏和鱼模型与固定块排序。所有模型通过NAS学习跨尺度连接。模型长短顺序APR0-SP53✓ ✓-40.7%图形损坏（1）✓-百分之三十五点八图形损坏（2）我...百分之二十八点六图形损坏（3）✗ ✗ ✓百分之二十八点二表9：学习的跨尺度连接的重要性。我们通过移除以下各项的边缘来执行三个图形损伤，从而量化学习到的跨尺度连接的重要性：（1）短距离连接;（2）长距离连接;（3）所有连接然后顺序地连接每对相邻块。5.6. SpineNet图像分类表 7 示出了图像分类结果。在相同的设置下，SpineNet的性能与ImageNet上的ResNet相当，但使用的FLOP要少得多。在iNaturalist上，SpineNet的表现比ResNet高出请注意，iNaturalist-2017是一个具有挑战性的细粒度分类数据集，包含来自5，089个类的579，184个为了更好地理解 iNaturalist 的改进，我们创建了iNaturalist-bbox，其中对象由[39]中收集的地面实况边界框我们的想法是创建一个iNaturalist版本，在每个图像的中心都有一个标志性的单一缩放对象，以便更好地理解性能11600改进. 具体来说，我们裁剪了所有可用的边界框（我们将裁剪区域扩大到原始边界框宽度和高度的1.5倍在iNaturalist-bbox上，SpineNet-49的Top-1/Top-5准确率为63.9%/86.9%在原始iNat uralist数据集上，Top-1中SpineNet- 49相对于ResNet-50的改进为4.7%。基于实验，我们认为iNaturalist的改进不是由于捕获不同尺度的对象，而是以下2个原因：1）由于SpineNet中的多尺度特征，可以捕获细微的局部差异; 2）更紧凑的特征表示（256维），不太可能过拟合。6. 结论在这项工作中，我们发现，传统的规模缩小模型，即使与解码器网络，是不是有效的同时识别和定位。我们提出了一种新的元体系结构--尺度置换模型来解决这个问题。为了证明尺度置换模型的有效性，我们在目标检测中通过神经结构搜索学习SpineNet，并证明它可以直接用于图像分类。 SpineNet 在COCOtest-dev上以52.1%的AP实现了最先进的对象检测性能。相同的SpineNet架构在ImageNet上实现了相当的top-1准确度，在具有挑战性的iNaturalist数据集上具有更少的FLOP和5%的top-1准确度提升在未来，我们希望尺度置换模型将成为超越检测和分类的许多视觉任务的骨干的元架构设计。致谢：我们要感谢Yeqing Li、Youlong Cheng、JingLi、Jianwei Xie、Russell Power、Hongkun Yu、ChadRichards 、 Liang-Chieh Chen 、 Anelia Angelova 和Google Brain团队的帮助。11601引用[1] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。一、二、三[2] Yukang Chen ，Tong Yang ，Xiangyu Zhang，GaofengMeng，Xinyu Xiao，and Jian Sun.Detnas：用于对象检测的主干搜索。在神经信息处理系统的进展，2019。三、五[3] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习在CVPR，2017年。2[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。2[5] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock：卷积网络的正则化方法。在神经信息处理系统的进步，2018年。5[6] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le. Nas-fpn：学习可扩展的特征金字塔体系结构，用于对象检测

下载后可阅读完整内容，剩余1页未读，立即下载