没有合适的资源?快使用搜索试试~ 我知道了~
3035404550107810Ef�cientDet:可扩展和高效的目标检测0Mingxing Tan Ruoming Pang Quoc V. LeGoogle研究,Brain团队{tanmingxing,rpang,qvl}@google.com0摘要0模型效率在计算机视觉中变得越来越重要。在本文中,我们系统地研究了目标检测的神经网络架构设计选择,并提出了几个关键优化来提高效率。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它可以轻松快速地进行多尺度特征融合;其次,我们提出了一种复合缩放方法,同时对所有骨干网络、特征网络和框/类别预测网络进行分辨率、深度和宽度的均匀缩放。基于这些优化和Ef�cientNet骨干网络,我们开发了一种名为Ef�cientDet的新型目标检测器系列,在广泛的资源约束范围内始终比先前的技术实现更好的效率。特别是,我们的Ef�cientDet-D7在COCO测试集上以单模型和单尺度的方式实现了52.2%的AP,参数为52M,FLOPs为325B[1],比先前的检测器小4倍至9倍,使用的FLOPs少13倍至42倍。代码可在https://github.com/google/automl/tree/master/efficientdet中找到。01. 引言0近年来,在目标检测方面取得了巨大的进展;与此同时,最先进的目标检测器也变得越来越昂贵。例如,最新的基于AmoebaNet的NAS-FPN检测器[42]需要167M参数和3045BFLOPs(比RetinaNet[21]多30倍)才能达到最先进的准确性。庞大的模型大小和昂贵的计算成本阻碍了它们在许多实际应用中的部署,如机器人和自动驾驶汽车,这些应用对模型大小和延迟有很高的约束。鉴于这些实际资源约束,模型效率对于目标检测变得越来越重要。已经有许多先前的工作旨在开发更高效的检测器架构,例如一01 类似于[12, 36],FLOPs表示乘加的数量。00 200 400 600 800 1000 1200 FLOPs(十亿)0COCOAP0D20D50D40Ef�cientDet-D7 D60D10D30YOLOv30MaskRCNN0RetinaNet0ResNet + NAS-FPN0AmoebaNet + NAS-FPN + AA0AP FLOPs(比例)0Ef�cientDet-D0 33.8 2.5B YOLOv3 [31] 33.0 71B (28x)0Ef�cientDet-D1 38.9 6.1B RetinaNet [21] 39.6 97B (16x)MaskRCNN [11] 37.9 149B (25x)0Ef�cientDet-D4 49.4 55B AmoebaNet+ NAS-FPN +AA [42]48.6 1317B (24x)0Ef�cientDet-D6 51.7 229B AmoebaNet+ NAS-FPN +AA[42] † 50.7 3045B (13x) † 未绘制。0图1:模型FLOPs与COCO准确性-所有数字均为单模型单尺度。我们的Ef�cientDet在参数和FLOPs比先前的检测器少得多的情况下实现了新的52.2%的COCOAP。关于不同骨干网络和FPN/NAS-FPN/BiFPN的更多研究请参见表4和表5。完整结果请参见表2。0阶段[24, 30, 31, 21]和无锚点检测器[18, 41,37],或者压缩现有模型[25,26]。虽然这些方法往往能够实现更好的效率,但它们通常会牺牲准确性。此外,大多数先前的工作只关注特定或一小范围的资源需求,但现实世界中的应用程序的多样性,从移动设备到数据中心,往往需要不同的资源约束。一个自然的问题是:是否可能构建一个在广泛的资源约束范围内具有更高准确性和更好效率的可扩展检测架构(例如,从3B到300BFLOPs)?本文旨在通过系统地研究检测器架构的各种设计选择来解决这个问题。基于一阶段检测器范例,我们研究了骨干网络、特征融合和类/框网络的设计选择,并确定了两个主要挑战:挑战1:高效的多尺度特征融合-自从[20]引入以来,FPN已被广泛用于多107820尺度特征融合。最近,PANet [23],NAS-FPN[8]和其他研究[17, 15,39]为跨尺度特征融合开发了更多的网络结构。在融合不同的输入特征时,大多数先前的工作只是简单地将它们相加而没有区分;然而,由于这些不同的输入特征具有不同的分辨率,我们观察到它们通常对融合的输出特征的贡献不均等。为了解决这个问题,我们提出了一种简单但非常有效的加权双向特征金字塔网络(BiFPN),它引入了可学习的权重来学习不同输入特征的重要性,同时反复应用自上而下和自下而上的多尺度特征融合。挑战2:模型扩展-虽然先前的工作主要依赖于更大的主干网络[21, 32, 31,8]或更大的输入图像尺寸[11,42]以获得更高的准确性,但我们观察到在同时考虑准确性和效率时,扩展特征网络和盒子/类别预测网络也是关键的。受最近的工作[36]的启发,我们提出了一种用于目标检测器的复合缩放方法,它同时为所有主干网络、特征网络、盒子/类别预测网络缩放分辨率/深度/宽度。最后,我们还观察到最近引入的Ef�cientNets[36]比先前常用的主干网络实现了更好的效率。将Ef�cientNet主干网络与我们提出的BiFPN和复合缩放相结合,我们开发了一系列新的目标检测器,名为Ef�cientDet,它在比先前的目标检测器使用更少的参数和FLOPs的情况下始终实现更好的准确性。图1和图4展示了在COCO数据集[22]上的性能比较。在类似的准确性约束下,我们的Ef�cientDet使用的FLOPs比YOLOv3 [31]少28倍,比RetinaNet[21]少30倍,比最近基于ResNet的NAS-FPN[8]少19倍。特别地,通过单模型和单测试时间尺度,我们的Ef�cientDet-D7在拥有52M参数和325BFLOPs的情况下实现了52.2AP的最新水平,超过了之前最佳检测器[42]的1.5AP,同时体积缩小了4倍,使用的FLOPs减少了13倍。我们的Ef�cientDet在GPU/CPU上也比先前的检测器快3倍到8倍。通过简单的修改,我们还证明了我们的单模型单尺度Ef�cientDet在Pascal VOC2012语义分割上实现了81.74%的mIOU准确性,比DeepLabV3+[4]的准确性提高了1.7%,同时使用的FLOPs减少了9.8倍。02. 相关工作0一阶段检测器:现有的目标检测器大多根据是否具有感兴趣区域提案步骤进行分类(两阶段[9, 32, 3, 11]或一阶段[33,24, 30,21])。虽然两阶段检测器更灵活、更准确,但一阶段检测器通常通过利用预定义的锚点来简化和提高效率。最近,一阶段检测器0由于其效率和简单性,已经引起了广泛关注[18, 39,41]。在本文中,我们主要遵循一阶段检测器的设计,并展示了通过优化网络架构可以同时实现更好的效率和更高的准确性。0多尺度特征表示:目标检测中的一个主要困难是有效地表示和处理多尺度特征。早期的检测器通常直接基于从主干网络提取的金字塔特征层次结构进行预测[2, 24,33]。作为开创性的工作之一,特征金字塔网络(FPN)[20]提出了一种自上而下的路径来组合多尺度特征。在这个思想的基础上,PANet[23]在FPN之上添加了一个额外的自下而上的路径聚合网络;STDL[40]提出了一个尺度传输模块来利用跨尺度特征;M2det[39]提出了一个U形模块来融合多尺度特征,G-FRNet[1]引入了门控单元来控制特征之间的信息流动。最近,NAS-FPN[8]利用神经架构搜索自动设计特征网络拓扑。尽管它取得了更好的性能,但NAS-FPN在搜索过程中需要数千个GPU小时,并且得到的特征网络是不规则的,因此难以解释。在本文中,我们旨在通过一种更直观和原则性的方式优化多尺度特征融合。0模型缩放:为了获得更好的准确性,通常会通过使用更大的骨干网络(例如从移动尺寸模型[35, 13]和ResNet[12]到ResNeXt [38]和AmoebaNet[29])或增加输入图像的尺寸(例如从512x512[21]到1536x1536[42])来扩大基线检测器。一些最近的工作[8,42]表明,增加通道大小和重复特征网络也可以提高准确性。这些缩放方法主要集中在单一或有限的缩放维度上。最近,[36]通过同时扩大网络的宽度、深度和分辨率,展示了在图像分类中的显著模型效率。我们提出的用于目标检测的复合缩放方法主要受到[36]的启发。03. BiFPN0在本节中,我们首先阐述多尺度特征融合问题的形式化,然后介绍我们提出的BiFPN的主要思想:高效的双向跨尺度连接和加权特征融合。03.1. 问题形式化0多尺度特征融合旨在聚合不同分辨率的特征。形式上,给定一个多尺度特征列表�Pin = (Pinl1, Pinl2,...),其中Pinli表示级别li的特征,我们的目标是找到一个能够有效聚合不同特征并输出一组新特征的转换f:�Pout =f(�Pin)。作为一个具体的例子,...107830P70P60P50P40P30(a) FPN (d) BiFPN (b) PANet (c) NAS-FPN0P70P60P50P40P30P70P60P50P40P30P70P60P50P40P30重复的块 重复的块0图2:特征网络设计 - (a) FPN [20]引入自顶向下的路径将多尺度特征从级别3到7(P3-P7)融合;(b) PANet[23]在FPN之上添加了一个额外的自底向上的路径;(c) NAS-FPN[8]使用神经架构搜索找到一个不规则的特征网络拓扑结构,然后重复应用相同的块;(d)是我们的BiFPN,具有更好的准确性和效率的权衡。0图2(a)显示了传统的自顶向下FPN[20]。它接收3-7级输入特征�Pin = (Pin3, ...Pin7),其中Pini表示输入图像分辨率的1/2i的特征级别。例如,如果输入分辨率为640x640,则Pin3表示特征级别3(640/2 3 =80),分辨率为80x80,而Pin7表示分辨率为5x5的特征级别7。传统的FPN以自顶向下的方式聚合多尺度特征:0Pout7 = Conv(Pin7)0Pout6 = Conv(Pin6 + Resize(Pout7))0Pout3 = Conv(Pin3 + Resize(Pout4))0其中Resize通常是用于分辨率匹配的上采样或下采样操作,Conv通常是用于特征处理的卷积操作。03.2. 跨尺度连接0传统的自顶向下FPN受单向信息流的固有限制。为了解决这个问题,PANet[23]在图2(b)中添加了一个额外的自底向上路径聚合网络。[17, 15, 39]进一步研究了跨尺度连接。最近,NAS-FPN[8]采用神经架构搜索来寻找更好的跨尺度特征网络拓扑结构,但在搜索过程中需要数千个GPU小时,并且找到的网络是不规则的,难以解释或修改,如图2(c)所示。通过研究这三个网络的性能和效率(表5),我们观察到PANet的准确性优于FPN和NAS-FPN,但代价是更多的参数和计算。为了改进模型0为了提高效率,本文针对跨尺度连接提出了几种优化方法:首先,我们移除那些只有一个输入边的节点。我们的直觉很简单:如果一个节点只有一个没有特征融合的输入边,那么它对于旨在融合不同特征的特征网络的贡献较小。这导致了一个简化的双向网络;其次,如果原始输入和输出节点在同一层级上,则添加一个额外的边,以便融合更多特征而不增加太多成本;第三,与只有一个自顶向下和一个自底向上路径的PANet[23]不同,我们将每个双向(自顶向下和自底向上)路径视为一个特征网络层,并重复相同的层多次以实现更多高级特征融合。第4.2节将讨论如何使用复合缩放方法确定不同资源约束下的层数。通过这些优化,我们将新的特征网络命名为双向特征金字塔网络(BiFPN),如图2和图3所示。03.3. 加权特征融合0在融合具有不同分辨率的特征时,一种常见的方法是首先将它们调整为相同的分辨率,然后将它们相加。金字塔注意力网络[19]引入了全局自注意力上采样来恢复像素定位,这在[8]中进一步研究。所有先前的方法都将所有输入特征视为平等的,没有区别。然而,我们观察到由于不同的输入特征具有不同的分辨率,它们通常对输出特征的贡献不均等。为了解决这个问题,我们提出为每个输入添加一个额外的权重,并让网络学习每个输入特征的重要性。基于这个想法,我们考虑了三种加权融合方法:0无界融合:O = �0加权融合:O = �iwi107840可学习的权重可以是标量(每个特征),向量(每个通道)或多维张量(每个像素)。我们发现一个标量权重可以在最小的计算成本下实现可比较的准确性。然而,由于标量权重是无界的,它可能导致训练不稳定。因此,我们采用权重归一化来限制每个权重的值范围。0基于Softmax的融合:O = �0�0j e w j ∙ I i。一种直观的0我们的想法是对每个权重应用softmax,使得所有权重都被归一化为0到1的概率值,表示每个输入的重要性。然而,正如我们在第6.3节的消融研究中所示,额外的softmax会导致GPU硬件的显著减速。为了最小化额外的延迟成本,我们进一步提出了一种快速融合方法。0快速归一化融合:O = �0i w i0� + �0j w j ∙ I i,其中0通过在每个w i之后应用Relu来确保w i ≥ 0,并且� =0.0001是一个小值,用于避免数值不稳定。同样,每个归一化权重的值也介于0和1之间,但由于这里没有softmax操作,所以更加高效。我们的消融研究表明,这种快速融合方法具有与基于softmax的融合非常相似的学习行为和准确性,但在GPU上运行速度更快(表6)。0我们最终的BiFPN结合了双向跨尺度连接和快速归一化融合。作为一个具体的例子,我们在图2(d)中描述了BiFPN在第6层的两个融合特征:0P td 6 = Convolutional operation with weightsw 1 ∙ P in 6 + w 2 ∙ Resize P in 70Weighted sum of w 1,w 2, and �0�0P out 6 = Convolutional operation with weights w ′ 1 ∙ P in6 + w ′ 2 ∙ P td 6 + w ′ 3 ∙ Re out 50Weighted sum of w ′ 1, w ′ 2,w ′ 3, and �0�0其中P td 6是自顶向下路径上第6级的中间特征,P out6是自下而上路径上第6级的输出特征。所有其他特征都以类似的方式构建。值得注意的是,为了进一步提高效率,我们使用深度可分离卷积 [ 5 , 34]进行特征融合,并在每个卷积之后添加批归一化和激活。04. Ef�cientDet0基于我们的BiFPN,我们开发了一种名为Ef�cientDet的新型检测模型系列。在本节中,我们将讨论网络架构和Ef�cientDet的新型复合缩放方法。04.1. Ef�cientDet架构0图3显示了Ef�cientDet的整体架构,它主要遵循一阶段检测器的范例[ 24 , 30 , 20 , 21]。我们使用ImageNet预训练的Ef�cientNets作为骨干网络。我们提出的BiFPN作为特征网络,它从骨干网络中获取级别3-7的特征{ P 3 , P 4 , P 5 , P 6 , P 7},并重复应用自顶向下和自下而上的双向特征融合。这些融合的特征被馈送到类别和框网络,分别产生对象类别和边界框预测。与[ 21]类似,类别和框网络的权重在所有特征级别上共享。04.2. 复合缩放0为了优化准确性和效率,我们希望开发一系列能够满足各种资源约束的模型。这里的一个关键挑战是如何扩展基线Ef�cientDet模型。以前的工作主要通过使用更大的骨干网络(例如ResNeXt [ 38 ]或AmoebaNet [ 29])、使用更大的输入图像或堆叠更多的FPN层[ 8]来扩展基线检测器。这些方法通常是无效的,因为它们只关注单个或有限的缩放维度。最近的工作[ 36]通过同时扩展网络宽度、深度和输入分辨率的所有维度,在图像分类方面取得了显著的性能。受到这些工作的启发[ 8 ,36],我们提出了一种新的复合缩放方法用于目标检测,它使用一个简单的复合系数φ来同时扩展骨干网络、BiFPN网络、类别/框网络和分辨率的所有维度。与[ 36]不同,目标检测器具有比图像分类模型更多的缩放维度,因此对所有维度进行网格搜索是非常昂贵的。因此,我们使用基于启发式的缩放方法,但仍然遵循同时扩展所有维度的主要思想。0骨干网络 - 我们重复使用Ef�cientNet-B0到B6 [ 36]的相同宽度/深度缩放系数,以便可以轻松重用它们的ImageNet预训练检查点。0BiFPN网络 - 我们线性增加BiFPN的深度D bifpn(#层),因为深度需要舍入为小整数。对于BiFPN的宽度W bifpn (#通道),我们像[ 36]一样指数增长BiFPN的宽度W bifpn(#通道)。具体来说,我们在值列表{ 1.2, 1.25, 1.3, 1.35,1.4, 1.45}上进行网格搜索,并选择最佳值1.35作为BiFPN宽度缩放因子。形式上,BiFPN的宽度和深度按以下方程进行缩放:0W bifpn = 64 ∙ � 1 . 35 φ � , D bifpn = 3 + φ (1)0类别/框预测网络 - 我们将它们的宽度固定为与BiFPN相同(即Wpred = W bifpn ),但是线性增加它们的深度。RinputWbifpnDbifpnDclassD0 (φ = 0)512B06433D1 (φ = 1)640B18843D2 (φ = 2)768B211253D3 (φ = 3)896B316064D4 (φ = 4)1024B422474D5 (φ = 5)1280B528874D6 (φ = 6)1280B638485D6 (φ = 7)1536B638485Dbox = Dclass = 3 + ⌊φ/3⌋(2)Rinput = 512 + φ · 128(3)107850输入0P 1 / 20P 2 / 40P 3 / 80P 4 / 160P 5 / 320P 6 / 640P 7 / 1280卷积0EfficientNet骨干网络0BiFPN层0卷积0卷积 卷积0类别预测网络0Box预测网络0图3:Ef�cientDet架构 - 它使用Ef�cientNet[36]作为骨干网络,BiFPN作为特征网络,共享的类别/框预测网络。根据不同的资源约束,BiFPN层和类别/框网络层在表1中重复多次。0输入 骨干网络 BiFPN Box/class0尺寸 网络 通道数 层数 层数0表1:Ef�cientDet D0-D6的缩放配置 - φ是控制所有其他缩放维度的复合系数;BiFPN、box/class网络和输入尺寸分别使用方程1、2、3进行缩放。0根据方程式提前增加深度(层数):0输入图像分辨率 -由于BiFPN使用了3-7级特征,输入分辨率必须可以被2^7=128整除,因此我们使用方程式线性增加分辨率:0根据不同的φ,使用方程式1、2、3,我们开发了Ef�cientDet-D0 ( φ = 0 )到D7 ( φ = 7),如表1所示,其中D7与D6相同,只是分辨率更高。值得注意的是,我们的缩放是基于经验的,可能不是最优的,但我们将展示这种简单的缩放方法可以显著提高效率,优于其他单维度缩放方法(见图6)。05. 实验05.1. 目标检测的Ef�cientDet0我们使用118K张训练图像在COCO2017检测数据集[22]上评估Ef�cientDet。每个模型使用带有动量0.9和权重衰减4e-5的SGD优化器进行训练。学习率在第一个训练周期中从0线性增加到0.16,然后使用余弦衰减规则逐渐减小。在每个卷积之后添加了批归一化,批归一化衰减为0.99,epsilon为1e-3。与[36]一样,我们使用swish激活函数[28,6]和衰减为0.9998的指数移动平均值。我们还使用常用的focal loss[21],其中α=0.25,γ=1.5,以及宽高比{1/2, 1,2}。每个模型在32个TPUv3核心上以每个核心4个样本的批量大小进行训练,批量大小为128。我们使用RetinaNet[21]的预处理方法,包括训练时的多分辨率裁剪/缩放和翻转增强。值得注意的是,我们没有对任何模型使用自动增强[42]。表2比较了Ef�cientDet与其他目标检测器,在单模型单尺度设置下没有使用测试时增强。我们报告了测试集(20K张没有公开标注的测试图像)和验证集(5K张带有标注的验证图像)的准确性。我们的Ef�cientDet在各种准确性或资源约束下比以前的检测器更加高效,体积减小了4倍至9倍,FLOPs减少了13倍至42倍。在相对低准确性的情况下,我们的Ef�cientDet-D0的准确性与YOLOv3相似,但FLOPs减少了28倍。与RetinaNet[21]和Mask-RCNN[11]相比,我们的Ef�cientDet-D1在准确性上达到了相似的水平,但参数减少了最多8倍,FLOPs减少了21倍。在高准确性的情况下,我们的Ef�cientDet始终表现出色。EfficientDet-D0 (512)33.852.235.833.53.9M1x2.5B1x160.32YOLOv3 [31]33.057.934.4---71B28x51†-EfficientDet-D2 (768)43.062.346.242.58.1M1x11B1x241.2RetinaNet-R50 (1024) [21]40.1---34M4.3x248B23x517.5RetinaNet-R101 (1024) [21]41.1---53M6.6x326B30x659.7ResNet-50 + NAS-FPN (640) [8]39.9---60M7.5x141B13x414.1EfficientDet-D3 (896)45.865.049.345.912M1x25B1x422.5ResNet-50 + NAS-FPN (1024) [8]44.2---60M5.1x360B15x7911ResNet-50 + NAS-FPN (1280) [8]44.8---60M5.1x563B23x11917ResNet-50 + NAS-FPN (1280@384)[8]45.4---104M8.7x1043B42x17327EfficientDet-D4 (1024)49.469.053.449.021M1x55B1x744.8AmoebaNet+ NAS-FPN +AA(1280)[42]---48.6185M8.8x1317B24x25938EfficientDet-D5 (1280)50.770.254.750.534M1x135B1x14111EfficientDet-D6 (1280)51.771.256.051.352M1x226B1x19016AmoebaNet+ NAS-FPN +AA(1536)[42]---50.7209M4.0x3045B13x60883EfficientDet-D7 (1536)52.271.456.351.852M1x325B1x26224107860tet-dev val 延迟 模型 AP AP 50 AP 75 AP 参数比例 FLOPs比例 GPU ms CPU s0Ef�cientDet-D1 (640) 39.6 58.6 42.3 39.1 6.6M 1x 6.1B 1x 20 0.74 RetinaNet-R50 (640) [21] 37.0 - - - 34M 6.7x 97B 16x 27 2.8RetinaNet-R101 (640)[21] 37.9 - - - 53M 8.0x 127B 21x 34 3.60我们省略了集成和测试时多尺度的结果[27, 10]。† 标记为†的延迟来自论文,其他延迟是在相同的Titan VGPU上测量的。0表2:COCO[22]上Ef�cientDet的性能-结果是单模型单尺度的。test-dev是COCO测试集,val是验证集。Params和FLOPs表示参数数量和乘法加法数量。延迟表示批量大小为1的推理延迟。AA表示自动增强[42]。如果模型的准确性相似,我们将它们分组,并在每个组中比较它们的模型大小、FLOPs和延迟。0与最近的NAS-FPN[8]及其增强版本[42]相比,我们的Ef�cientDet模型具有更少的参数和FLOPs。特别是,我们的Ef�cientDet-D7在test-dev上实现了新的最先进的52.2AP,以及在val上实现了51.8AP,这是单模型单尺度的结果。值得注意的是,与需要特殊设置(例如,将锚点从3x3更改为9x9,使用模型并行训练,并依赖昂贵的自动增强)的大型AmoebaNet + NAS-FPN+AutoAugment模型[42]不同,所有Ef�cientDet模型都使用相同的3x3锚点进行训练,且没有使用模型并行训练。0除了参数大小和FLOPs之外,我们还比较了在Titan-VGPU和单线程XeonCPU上的实际延迟。我们以批量大小为1的方式运行每个模型10次,并报告平均值和标准差。图4展示了模型大小、GPU延迟和单线程CPU延迟的比较结果。为了公平比较,这些图表只包含在相同机器上以相同设置进行测量的结果。与之前的检测器相比,Ef�cientDet模型在GPU上的速度提高了最多3.2倍,在CPU上提高了8.1倍,这表明它们在实际硬件上也具有高效性。0模型 mIOU 参数 FLOPs0DeepLabV3+ (ResNet-101) [ 4 ] 79.35% - 298BDeepLabV3+ (Xception) [ 4 ] 80.02% - 177B我们的Ef�cientDet † 81.74% 17M 18B0† Ef�cientDet-D4的修改版本。0表3:Pascal VOC语义分割性能比较。05.2. 用于语义分割的高效检测器0虽然我们的Ef�cientDet模型主要设计用于目标检测,但我们也对它们在语义分割等其他任务上的性能感兴趣。根据[16]的方法,我们修改了我们的Ef�cientDet模型,保持BiFPN中的特征级别{P2,P3,...,P7},但仅使用P2进行最终的像素级分类。为了简化起见,我们只评估了基于Ef�cientDet-D4的模型,该模型使用了一个与ResNet-50大小相似的ImageNet预训练的Ef�cientNet-B4骨干网络。我们将BiFPN的通道大小设置为128,分类头设置为256。BiFPN和分类头都重复3次。表3显示了我们模型之间的比较结果。35.037.540.042.545.047.550.052.5MaskRCNND0D1D2D3D4D5EfficientDet-D6RetinaNetResNet + NAS-FPNANParams RatioEfficientDet-D28MRetinaNet [21]53M6.6xEfficientDet-D421MResNet+NASFPN [8]104M5.1xEfficientDet-D652MAmoebaNet + NAS-FPN [42] 209M4.0x38404244464850523840424446485052ResNet50 + FPN37.034M97BEfficientNet-B3 + FPN40.321M75BEfficientNet-B3 + BiFPN44.412M24Bclass/box prediction network, and the same training settingsfor all experiments. As we can see, the conventional top-down FPN is inherently limited by the one-way informa-tion flow and thus has the lowest accuracy. While repeatedFPN+PANet achieves slightly better accuracy than NAS-FPN [8], it also requires more parameters and FLOPs. OurBiFPN achieves similar accuracy as repeated FPN+PANet,but uses much less parameters and FLOPs. With the addi-tional weighted feature fusion, our BiFPN further achievesthe best accuracy with fewer parameters and FLOPs.1078700 50 100 150 200 参数(M)00 . 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 GPU延迟(秒)0D10D20D30D40D5 EfficientDet-D60RetinaNet0ResNet + NAS-FPN0AN0LAT比率0EfficientDet-D2 24毫秒 RetinaNet [21] 65毫秒2.7倍0EfficientDet-D4 74毫秒 ResNet+NASFPN [8]173毫秒 2.3倍0EfficientDet-D6 190毫秒 AmoebaNet +NAS-FPN [42] 608毫秒 3.2倍00 20 40 60 80 CPU延迟(秒)0D10D20D30D40D5 EfficientDet-D60RetinaNet0ResNet + NAS-FPN0AN0LAT比率0EfficientDet-D2 1.2秒 RetinaNet [21] 9.7秒8.1倍0EfficientDet-D4 4.8秒 ResNet+NASFPN [8]27秒 5.6倍0EfficientDet-D6 16秒 AmoebaNet +NAS-FPN [42] 83秒 5.2倍0(c)CPU延迟图4:模型大小和推理延迟比较 - 延迟是在配备Titan V GPU和XeonCPU的相同机器上使用批量大小1进行测量的。AN表示使用自动增强[42]训练的AmoebaNet +NAS-FPN。我们的EfficientDet模型比其他检测器小4倍-6.6倍,GPU上快2.3倍-3.2倍,CPU上快5.2倍-8.1倍。0和之前的DeepLabV3+ [4]在Pascal VOC 2012[7]上的结果。值得注意的是,我们排除了那些使用集成、测试时间增强或COCO预训练的结果。在相同的单模型单尺度设置下,我们的模型在FLOPs减少9.8倍的情况下实现了比DeepLabV3+[4]更好的1.7%准确率。这些结果表明,EfficientDet对于语义分割也非常有前景。06.消融实验0在本节中,我们对我们提出的EfficientDet的各种设计选择进行了消融实验。为简单起见,这里的所有准确率结果都是针对COCO验证集的。06.1. 解开骨干网络和BiFPN之间的关系0由于EfficientDet同时使用了强大的骨干网络和新的BiFPN,我们想要了解它们各自对准确性和效率改进的贡献。表4比较了骨干网络和BiFPN的影响。从具有ResNet-50[12]骨干网络和自顶向下FPN[20]的RetinaNet检测器[21]开始,我们首先用EfficientNet-B3替换骨干网络,这样可以提高大约3个AP的准确率,同时参数和FLOPs稍微减少。通过进一步用我们提出的BiFPN替换FPN,我们在更少的参数和FLOPs的情况下获得了额外的4个AP增益。这些结果表明,EfficientNet骨干网络和BiFPN对于我们的最终模型都至关重要。06.2. BiFPN跨尺度连接0表5显示了具有不同跨尺度连接的特征网络的准确性和模型复杂性,这些连接在图2中列出。值得注意的是,原始的FPN [20]和PANet[23]只有一个自顶向下或自底向上的流动,但为了公平比较,这里我们将每个流动重复多次,并用深度可分离卷积替换所有卷积,这与BiFPN相同。我们对所有实验使用相同的骨干网络和类/框预测网络,并使用相同的训练设置。从结果中可以看出,传统的自顶向下FPN受限于单向信息流,因此准确性最低。而重复的FPN+PANet的准确性略高于NAS-FPN[8],但需要更多的参数和FLOPs。我们的BiFPN的准确性与重复的FPN+PANet相似,但使用的参数和FLOPs要少得多。通过额外的加权特征融合,我们的BiFPN在更少的参数和FLOPs的情况下实现了最佳准确性。0AP参数FLOPs0表4:解开骨干网络和BiFPN之间的关系 -从标准的RetinaNet(ResNet50+FPN)开始,我们首先用EfficientNet-B3替换骨干网络,然后用我们提出的BiFPN替换基准FPN。0AP #参数 #FLOPs0比例 比例0重复的自顶向下FPN 42.29 1.0x 1.0x重复的FPN+PANet 44.08 1.0x 1.0x NAS-FPN 43.160.71x 0.72x 全连接FPN 43.06 1.24x 1.21xBiFPN(无加权) 43.94 0.88x 0.67xBiFPN(有加权) 44.39 0.88x 0.68x0表5:不同特征网络的比较 -我们的加权BiFPN在参数和FLOPs更少的情况下实现了最佳准确性。02500050000750001000000.400.450.5002500050000750001000000.20.30.40.502500050000750001000000.4500.4750.5000.52534363840424446107880输入1权重(%)0softmax快速0(a)示例节点10输入1权重(%)0softmax快速0(b)示例节点20输入1权重(%)0softmax快速0(c)示例节点30图5:softmax与快速归一化特征融合的比较 -(a)-(c)显示了三个代表性节点在训练过程中的归一化权重(即重要性);每个节点有两个输入(input1和input2),它们的归一化权重始终总和为1。0模型 softmax融合 快速融合 加速 AP AP(增量)0模型1 33.96 33.85(-0.11) 1.28x 模型2 43.7843.77(-0.01) 1.26x 模型3 48.79 48.74(-0.05)1.31x0表6:不同特征融合方法的比较 -我们的快速融合在准确性上与基于softmax的融合相似,但速度提高了28% - 31%。06.3. softmax与快速归一化融合0如第3.3节所讨论的,我们提出了一种快速归一化特征融合方法,以摆脱昂贵的softmax,同时保留归一化权重的好处。表6比较了三个具有不同模型大小的检测器中的softmax和快速归一化融合方法。结果显示,我们的快速归一化融合方法在准确性上与基于softmax的融合方法相似,但在GPU上运行速度提高了1.26倍-1.31倍。为了进一步了解基于softmax和快速归一化融合的行为,图5示意了从Ef�cientDet-D3的BiFPN层中随机选择的三个特征融合节点的学习权重。值得注意的是,归一化权重(例如,e w i / �0j e w j 用于基于softmax的融合,以及 w i / ( � + �0j w j )用于快速归一化融合)对于所有输入总和始终为1。有趣的是,归一化权重在训练过程中变化很快,表明不同的特征对
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功