没有合适的资源?快使用搜索试试~ 我知道了~
14918Rethinking ImageNetPre-trainingFacebookAI Research(FAIR)摘要我们报告竞争力的结果对象检测和立场分割COCO数据集使用标准模型训练随机初始化。即使使用基线系统(Mask R-CNN )的超参数,其结果也不会比ImageNet预训练的结果更差,这些超参数是为了微调预训练模型而优化的从随机初始化训练是令人惊讶的强大;即使在以下情况下,我们的结果仍然有效:(i)仅使用10%的训练数据,(ii)用于更深和更广的模型,以及(iii)用于多个任务和指标。实验表明,ImageNet预训练在训练早期加快了收敛速度,但不一定提供正则化或提高最终目标任务的准确性。为了突破极限,我们在不使用任何外部数据的情况下在COCO对象检测上展示了50.9 AP-这一结果与使用ImageNet预训练的COCO 2017竞赛结果相当。这些观察结果挑战了ImageNet对依赖性任务进行预训练的传统智慧,我们希望这些发现将鼓励人们重新思考计算机视觉中当前事实上的“预训练和微调”范式1. 介绍深度卷积神经网络[21,23]革命性的计算机视觉可以说是由于发现在预训练任务中学习的特征表示可以将有用的信息传递到目标任务[9,6,50]。近年来,一个行之有效的范例是使用大规模数据(例如,ImageNet [39]),然后对目标任务的模型进行微调,这些任务通常具有较少的训练数据。预训练已经在许多任务上实现了最先进的结果,包括对象检测[9,8,36],图像分割[29,13]和动作识别[42,4]。然后,“解决”计算机视觉的道路尝试沿着这条道路,已经将边界推到了3000×[30] ImageNet的大小然而,这些成功实验是混合的:尽管已经有了改进,bbox AP:R50-FPN,GN4540353025201510500 1 2 3 4 5迭代(105)图1.我们在COCOtrain 2017集合上使用ResNet-50 FPN[26]和 GroupNorm [48] 骨 干 训 练 Mask R-CNN [13] , 并 在 val2017集合上评估边界框AP,通过随机权重或ImageNet预训练初始化模型。我们通过改变学习率降低的迭代(准确度飞跃)来探索不同的训练时间表从随机初始化训练的模型需要更多的迭代来收敛,但收敛到一个不比微调对应物更差的解。表1显示了所得到的AP数。观察到,特别是对于对象检测,它们很小,并且与预训练数据集大小的比例很差这条道路将“解决”计算机视觉是值得怀疑的本文通过探索相反的制度,进一步质疑预训练的范式:我们报告说,当在COCO上从随机初始化(“从头开始”)进行训练时,竞争性对象检测和实例分割准确性是可以实现的,而无需任何预训练。更令人惊讶的是,我们可以通过使用基线系统[8,36,26,13]及其超参数来实现这些结果,这些超参数是为了微调预训练模型的。我们发现,如果:(i)我们使用适当的归一化技术进行优化,(ii)我们训练模型足够长的时间来补偿预训练的不足(图1)。我们表明,COCO上的随机初始化训练可以与其ImageNet预训练相媲美。典型微调时间表随机初始化预训练14919三分之一的各种基线,涵盖平均精度(AP,百分比)从40到超过50。此外,我们发现,即使我们用10%的COCO训练数据进行训练,这种可比性也是成立的。我们还发现我们可以训练大型模型,从零到比ResNet- 101大4倍[17]-没有过拟合。基于这些实验我们注意到以下情况:(i) ImageNet预训练加速了收敛,特别是在训练的早期,但是随机初始化的训练可以在训练后赶上,这与ImageNet预训练加上微调计算的总时间大致相当-它必须学习预训练提供的低/中级别特征(如边缘,纹理)由于ImageNet预训练的时间/资源开销(ii) ImageNet预训练不会自动提供更好的正则化。当使用较少的图像(低至COCO的10%)进行训练时,我们发现必须选择新的超参数进行微调(从预训练)以避免过度拟合。然后,当使用这些相同的超参数从随机初始化进行训练时,即使只有10%的COCO数据,模型也可以在没有(iii) ImageNet预训练在目标任务/指标对空间定位预测更敏感时没有任何好处。当从头开始训练时,我们观察到高框重叠阈值的AP显著改善;我们还发现,需要精细空间定位的关键点AP从头开始收敛得相对更快。直觉上,基于分类的、类似ImageNet的预训练与定位敏感的目标任务之间的任务差距可能限制预训练的益处。鉴于目前的文献,这些结果令人惊讶,并挑战了我们对ImageNet预训练效果的理解这些观察结果表明,ImageNet预训练是一种历史性的解决方案(并且可能会持续一段时间),当社区没有足够的目标数据或计算资源来使目标任务的训练可行时。此外,ImageNet在很大程度上被认为是一个但展望未来,当社区将继续进行更多的数据和更快的计算时,我们的研究表明,收集数据并对目标任务进行训练是一个值得考虑的解决方案,特别是当源预训练任务和目标任务之间存在显着差距时。本文为人们重新思考计算机视觉中的类ImageNet预训练范式提供了新的实验证据和讨论。2. 相关工作预训练和微调。将深度学习应用于对象检测的初步突破(例如,R-CNN[9] 和OverFeat [40])是通过微调为ImageNet分类预先训练的网络来实现的。根据这些结果,大多数现代物体检测器和许多其他计算机视觉算法采用“预训练和微调”范式。 最近的工作推动通过在比ImageNet大6倍(ImageNet-5 k [14]),300倍(JFT [44])甚至3000倍(Instagram [30])的数据集上进行预训练,虽然这项工作证明了图像分类迁移学习任务的显着改进,但对Objectives的改进,对象检测相对较小(在COCO上的+1.5 AP规模上,具有3000×更大的预训练数据[30])。迄今为止使用的大规模预训练数据的边际效益迅速减少。从头开始侦查。在“预训练和微调”范例流行之前[31,38,45])--一个事实,今天被忽视事实上,物体检测器可以从头开始训练,这不应该令人惊讶。鉴于R-CNN论文[9]中预训练的成功,后来的分析[1]发现,当训练数据有限时,预训练在检测器准确性方面起着重要作用,但也说明了在更多检测数据上从头开始训练是可能的,并且可以达到90%的微调准确性,这为我们的结果奠定了基础。随着现代物体检测器[9,15,8,36,35,28,26,13]在预训练范式下的发展,从头开始训练是不平凡的信念成为传统智慧。Shen等人[41]提出了一套新的设计原则,以获得在从头开始训练时他们设计了一种由深度监督网络[24]和密集连接[18]驱动的特殊检测器DetNet [25]和CornerNet [22]也展示了从头开始训练检测器时的结果。与[41]类似,这些作品[25,22]专注于设计特定于检测的架构。然而,在[41,25,22]中,几乎没有证据表明这些专门的架构是从头开始训练模型所必需的。与这些论文不同,我们的重点是理解ImageNet预训练在非专业架构上的作用(即,最初设计时没有考虑从头开始训练的模型我们的工作表明,即使没有进行任何架构专业化,从头开始训练时,也常常可以匹配微调我们的研究是在与对比的基础上在其中结构不被定制的受控设置下,“没有149203. 方法我们的目标是通过控制实验消除ImageNet预训练的作用,这些实验可以在没有ImageNet预训练的情况下完成鉴于这一目标,架构改进不是我们的目的;实际上,为了更好地理解ImageNet预训练可以产生的影响,希望能够在最小的修改下从头开始训练典型的架构。我们描述了唯一图像实例像素ImageNet预训练1.28M im × 100ep来自随机初始化的COCO 115k im ×72 ep131.0M149.1MCOCO微调115kim × 24 ep9.5T9.2T我们发现有必要进行两个修改,这两个修改与模型标准化和训练长度有关,下面将讨论。3.1. 正常化图像分类器训练需要归一化来帮助优化。标准化的成功形式包括标准化参数初始化[11,16]和激活标准化层[20,2,46,48]。当从头开始训练对象检测器时,他们面临着类似于从头开始训练图像分类器的问题[11,16,20]。忽视标准化的作用可能会给人一种误解,即检测器很难从头开始训练。批量归一化(BN)[20]是用于训练现代网络的流行归一化方法,部分地使从头开始训练检测器变得困难。与图像分类器不同,对象检测器通常用高分辨率输入来训练。这减少了受内存限制的批量大小,并且小批量大小严重降低了BN的准确性[19,34,48]。如果使用预训练,则可以避免这个问题,因为微调可以采用预训练批次统计作为固定参数[17];然而,当从头开始训练时,冻结BN无效。我们研究了最近工作中的两种规范化策略,它们有助于缓解小批量问题:(i) 组归一化(GN)[48]:作为最近提出的BN的替代方案,GN执行独立于批次维度的计算。GN(ii) 同步批量归一化(SyncBN)[34,27]:这是BN[20]的实现,具有跨多个设备(GPU)计算的批量这增加了BN的有效批量,许多GPU,这避免了小批量。我们的实验表明,GN和SyncBN都可以使检测模型从头开始训练。我们还报告说,使用适当的归一化初始化[16],我们可以从没有BN或GN的随机初始化中训练具有VGG网络[433.2. 收敛期望从随机初始化训练的模型与从ImageNet预训练初始化的模型一样快地收敛是不现实和不公平的忽略了这一事实图2.在所有训练迭代过程中看到的图像、实例和像素的总数,用于预训练+微调(绿色条)与从随机初始化(紫色条)。我们认为预训练在ImageNet中需要100个epoch,而微调随 机 初 始 化 采 用 6× 时 间 表 ( COCO 上 为 172 个 我 们 将ImageNet中的实例计数为每个图像1个(vs. COCO中的像素为224×224,COCO中的像素为800×1333。对于从头开始训练的模型的真实能力,可以得出不完整或不正确的结论典型的ImageNet预训练涉及超过一百万张图像,迭代一百个epoch。除了从这个大规模数据中学习到的任何语义信息之外,预训练模型还学习了低级特征(例如边缘、纹理),在微调期间不需要重新学习。1另一方面,当从头开始训练时,模型必须学习低级和高级语义,因此可能需要更多的迭代才能很好地收敛出于这种动机,我们认为从头开始训练的模型必须比典型的微调时间表训练更长实际上,就提供的训练样本数量而言,这是一个更公平的我们考虑三“样本”的粗略定义100个时期的一个图像被计数为100个图像级样本)。我们在图2中绘制了样本数量的比较。图2显示了一个从头开始的案例,它比COCO上的微调对应物多训练了3倍的迭代次数。尽管在COCO上使用了更多的迭代,但如果计算图像级别的样本,从头开始的情况仍然比微调的情况少实际上,如果我们计算像素级的样本,样本数只会更接近(图2,底部)-这是对象检测器使用更高分辨率图像的结果。我们的实验表明,在图2中的时间表下,从头开始的检测器可以赶上它们的微调对应物。这表明,从随机初始化训练的模型需要足够大数量的总样本(可以说是像素)才能很好地收敛。1事实上,通常的做法是[8,36]在微调时冻结前几层的卷积8.6M62.8M149214. 实验设置45我们追求对基线系统进行最小的来精确定位实现从头开始训练的关键。40总体而言,我们的基线和超参数遵循Mask35R-CNN [13]在Detectron的公开代码30[10],除了我们使用标准化并改变训练迭代。具体实现如下。25架构 我们 探讨 掩模 R-CNN [13]与20ResNet [17]或ResNeXt [49]加上特征金字塔Net-15工作(FPN)[26]骨干。我们采用端到端培训方式[37]区域提案网络(RPN)10与Mask R-CNN合作。GN/SyncBN用于取代5所有“冻结BN”(通道式仿射)层。 为了公平-bbox AP:R101-FPN,GNparisons,在本文中,微调模型(具有预训练)也使用GN或SyncBN进行调整,而不是冻结它们。它们比冷冻的准确性更高[34,27,48]。学习率调度。Detectron[10]中的原始Mask R-CNN模型对于本文中的模型,我们研究了更长的训练,我们使用了类似的术语,例如,所谓的“6×调度”具有540k次迭代。遵循2×schedule中的策略,无论迭代次数多少,我们总是在最后60k和最后20k次迭代中分别将学习率降低10倍总迭代(即,降低的学习速率总是运行相同次数的迭代)。我们发现,在第一个(大)学习率下训练更长时间是有用的,但在小学习率下训练更长时间往往会导致过拟合。超参数。所有其他超参数都遵循Detectron[10]中的参数。特别地,初始学习率为0.02(线性预热[12])。重量衰减为0.0001动量是0.9所有模型都使用同步SGD在8个GPU中进行训练,每个GPU的小批量大小为默认情况下,Detectron中的Mask R-CNN不使用数据增强进行测试,仅使用水平翻转增强进行训练。我们使用相同的设置。此外,除非另有说明,图像比例尺为800像素的短边。5. 结果和分析5.1. 从零开始训练到比赛准确性我们第一个令人惊讶的发现是,当只使用COCO数据时,从头开始训练的模型可以在准确性上赶上微调的模型。在本小节中,我们在拥有118k(118,287)张图像的 COCOtrain2017split 上 训 练 模 型 , 并 在 5kCOCOval2017split 中 进 行评 估 。 我 们 评估 边 界 框(bbox)的平均精度(AP)的对象检测和掩模AP的实例分割。00 1 2 3 4 5迭代(105)图3.使用Mask R-CNN和R101-FPN和GN在COCOval 2017上学习APbbox的曲线。表1显示了结果AP数。bbox AP:R50-FPN,SyncBN4540353025201510500 1 2 3 4 5迭代(105)图 4. 使 用 Mask R-CNN 与 R50-FPN 和 SyncBN[34 , 27] 在COCOval 2017上学习APbbox的曲线(跨GPU同步批量统计数据6×时间表的结果是39.3(随机初始化)和39.0(预训练)。具有GN和SyncBN的基线。当使用GN时,验证bbox AP曲线如图1和图3所示。ResNet-50(R50)和ResNet-101(R101)主干,以及在图4中使用R50的SyncBN时。对于每个图,我们比较了从随机初始化训练的模型与通过ImageNet预训练进行微调。我们研究了每种情况下的五种不同的时间表,即2×到6×迭代(第二节)。4).请注意,我们在同一图中覆盖了一个模型的五个明细表。AP曲线的跳跃是降低学习率的结果,说明了不同时间表的结果。随机初始化预训练随机初始化预训练14922755048表1. COCOval2017上的对象检测APbbox,训练时间表从2×(180k迭代)到6×(540k迭代)。该模型是带有FPN和GN的Mask R-CNN(图1和3)。APbbox APbbox50APbbox75AP掩模 AP掩模50AP掩模75随机初始化R50,带预训练△41.341.1+0.261.861.7+0.145.644.6+1.036.636.4+0.259.058.5+0.538.938.7+0.2随机初始化R101,带预训练△42.742.3+0.462.962.6+0.347.046.2+0.837.637.2+0.459.959.7+0.239.739.70.0表2. 从随机初始化训练vs. 使用ImageNet预训练(带有FPN和GN的MaskR-CNN,图1,3),在COCOval 2017上进行评估。对于每个模型,我们显示了对应于给出最佳APbbox的时间表(2到6×)的结果。类似的现象总结如下,在图1、3和4中始终存在:(i) 典型的微调时间表(2×)适用于具有预训练的模型,以收敛到接近最佳值(请参见也见表1,“w/pre-train”)。但是这些时间表对于从头开始训练的模型来说是不够的,如果它们只训练了很短的时间,它们看起来就很差。(ii) 从头开始训练的模型可以赶上他们的微调同行,如果使用5×或6×时间表-实际上,当他们收敛到最佳,他们的检测AP并不比他们的微调同行更差在标准COCO训练集中,ImageNet预训练主要有助于在训练早期加速目标任务的收敛,但几乎没有证据表明可以提高最终的检测准确率。4644424038363432305048464442403836343230图5.随机初始化与。使用Mask R-CNN在各种系统上进行预训练,包括:(i)使用FPN和GN的基线,(ii)训练基线-时间多尺度增强,(iii)具有Cascade R-CNN [3]和训练时间增强的基线,以及(iv)加上测试时间多尺度增强。顶部:R50;底部:R101。增强基线。如图5所示,在各种增强的基线中也观察到有和没有预训练的训练可以比较的现象。我们烧蚀实验如下:-多个检测指标。在表2中,我们进一步比较了从头开始训练的模型和预训练模型之间的不同检测指标,包括Mask R-CNN的框级和分段级AP,在Intersection-over-Union(IoU)阈值为0.5(AP50)和0.75(AP75)下。表2显示,从头开始训练的模型和预训练的模型在各种标准下具有相似的AP指标,这表明从头开始训练的模型不仅偶然地赶上了单个指标。此外,对于APbbox度量(使用高重叠阈值),从头开始训练比微调好得多(1.0或0.8 AP)。太棒了接下来,我们使用Detectron中实现的简单训练时间尺度增强:从[640,800]像素中随机采样图像的短边强数据增强需要更多的迭代来收敛,因此我们在从头开始训练时将时间表增加到9倍,在ImageNet预训练时增加到6倍图5实际上,更强的数据增强缓解了数据不足的问题,因此我们可以预期,在这种情况下,具有预训练的模型的优势较小-Cascade R-CNNbbox AP,随机初始化bbox AP,带预训练掩码AP,随机初始化掩码AP,带预训练bbox AP,随机初始化bbox AP,带预训练掩码AP,随机初始化掩码AP,带预训练附表2×3×4×5×6×R50随机初始化36.839.540.640.741.3预训练40.340.840.940.941.1R101随机初始化38.241.041.842.242.71492350755075tra stages到标准的两阶段Faster R-CNN系统。APbboxAPbboxAPbboxAPmaskAPmask我们实现其Mask R-CNN版本,只需添加R101带列车aug 45.065.749.339.562.542.1一个面具头到最后一个阶段。 为节省运行时间,X152,带列车aug46.467.151.140.563.943.4我们从头开始训练Mask R-CNN+级联48.666.852.941.464.244.6没有级联,并切换到级联在最后270 k它-+ 试验八月50.968.755.443.266.146.8这并没有改变最终模型没有使用ImageNet预训练的事实我们在尺度增强设置下训练Cascade R-CNN。图5表3.使用ResNeXt-152从随机初始化(w/FPN和GN)中训练的Mask R-CNN,在COCOval 2017上进行评估。70关键点AP:R50-FPN GN图 6. 关键点 的检测COCO使用Mask R-CNN,60没有ImageNet预训练。关于监管定位主要由目标数据集没有明确地从基于分类的40ImageNet预训练。 因此,我们不期望ImageNet预培训,以提供额外的好处,在这种情况下。30- 测试时增强:到目前为止,我们还没有使用测试时增强。接下来,我们进一步执行测试时间八月-R50-FPN和GN。 我们展示钥匙-COCOval2017 上 的 AP 点 。ImageNet预训练几乎没有什么好处,随机初始化的训练可以很快赶上, 增加 培训平台选项。 我们只需要使用2×和3×时间表,不像对象de-通过组合来自多个缩放变换的预测进行分割,如Detectron[10]中所实现的。10随机初始化预训练00 1 23保护案件。 结果是65.6vs.65.5(随机初始化vs.预训练)与2×时间表。同样,从头开始训练的模型并不比培训前的同行。实际上,在这种情况下,从头开始训练的模型甚至稍微好一点-例如,掩码AP是41.6(从头开始),40.9 R50为42.5vs. 41.9关于R101从零开始训练大型模型。我们还使用带有GN的ResNeXt-1528× 32 d [49](简称结果在表3中。这个主干的FLOP比R101多2.4倍尽管这个模型大得多,但没有显示出明显的过拟合。当从随机初始化训练时,它在val2017中获得了50.9bbox AP和43.2maskAP的良好结果。我们将此模型提交给COCO 2018竞赛,它具有51.3bbox AP和43.6mask AP在测试挑战组中。我们的bbox AP达到了COCO 2017获奖者的水平(50.5 bbox AP,[34]),并且是迄今为止同类产品中数量最多的(单一型号,没有ImageNet预训练)。我们已经用ImageNet预训练训练了相同的模型。它在val 2017中的bbox/mask AP为50.3/42.5(与从零开始为50.9/43.2)。有趣的是,即使对于这个大型模型,预训练也不会改善结果。vs.以前的从头开始结果。 DSOD [41]报告29.3 bbox AP通过使用专门为从零开始训练的结果CornerNet最近的一项工作[22]报告了42.1 bbox AP(带多尺度增强),没有使用ImageNet预训练。我们的结果,各种版本,高于以前的。再次强调,以前的工作[41,22]没有证据表明没有ImageNet预训练的模型可以像ImageNet预训练的模型一样好。迭代(105)关键点检测我们还为COCO人体关键点检测任务训练了Mask R-CNN。结果在图6中。在这种情况下,从头开始训练的模型可以更快地赶上,即使不增加训练,通过迭代,它与使用ImageNet预训练的对应物相当关键点检测是对精细空间定位更敏感的任务。我们的实验表明,ImageNet预训练几乎没有明确的定位信息,对关键点检测没有无BN/GN-VGG网的型号。到目前为止,我们所有的实验都涉及基于ResNet的模型,这需要某种形式的激活归一化(例如,BN或GN)。像VGG-16 [43]这样的浅模型可以从头开始训练,而无需激活归一化,只要使用适当的初始化归一化[16]。我们的下一个实验通过探索使用VGG-16作为主干从头开始训练Faster R-CNN的行为来测试我们观察的一般性。我们遵循原始的Faster R-CNN论文[37]及其VGG-16架构实现该模型;不使用FPN。我们采用标准超参数,学习率为0.02,学习率衰减因子为0.1,权重衰减为0.0001。我们在训练中使用比例放大。根据之前的实验,我们在从头开始微调和训练时使用完全相同的超参数。当随机初始化模型时,我们使用相同的MSRA初始化[16]用于ImageNet预训练和COCO从头开始。具有预训练的基线模型在极长的9×训练时间表后能够达到35.6的最大 bbox AP在这里我们注意到,即使有预先训练,2014924预训练36.136.3随机初始化预训练bbox AP:35k训练图像45 45bbox AP:35k训练图像bbox AP:10k训练图像4540 40 4035 35 3530 30 3025 25 2520 20 2015 15 1510 10 105 5 500 1 23迭代(105)00 1 2 3 4 5迭代(105)00 0.5 1 1.5 2迭代(105)图7. 使用较少COCO图像进行训练(左/中:35 k;右:10 k)。该模型是带有R50-FPN和GN的Mask R-CNN,由bbox AP在val2017中评估。左图:使用35k COCO图像进行训练,使用为118ktrain2017选择的默认超参数。它在学习率变化之前和之后都表现出过拟合。中:使用35 k COCO图像进行训练,使用针对“w/ pre-train”优化的右:使用10 k COCO图像进行训练,使用针对“w/pre-training”优化的超参数VGG-16的完全收敛是缓慢的。从头开始训练的模型达到了类似的性能水平,在11×时间表后,最大bbox AP为35.2(训练时间更长也会导致AP更低)。这些结果表明-我们的方法是“做最小/不做改变”(第3)但是与标准的“预训练和微调”范例相比,采用良好的优化策略和训练更长时间足以在COCO上训练用于检测器的检测器5.2. 用更少的数据从头开始训练我们的第二个发现,更令人惊讶的是,用实质上更少的数据(例如,COCO的1/10),从头开始训练的模型并不比预先训练的模型差35k COCO训练图像。我们使用COCO训练数据的1/3(来自train 2017的35 k图像,相当于旧的val 35k)开始我们的下一个示例。我们在这个集合上训练模型,有或没有ImageNet预训练图7(左)是在为118 k COCO集选择的Mask R-CNN超参数这些超参数不是最佳的,即使使用ImageNet预训练,模型也会出现过拟合。这表明ImageNet预训练并不能自动帮助减少过度拟合。为了获得一个健康的基线,我们对ImageNet预训练模型上的2图7中的灰色曲线(中间)显示了结果。它最佳具有36.3 AP和6×时间表。2我们的新配方变化是:训练时间尺度增强范围[512,800](与基线0.02),以及学习率衰减因子0.02(vs. 0.1)。然后,我们使用为预训练案例选择的完全相同的新超参数从头开始训练我们的模型。这显然会使结果偏向于预训练模型。尽管如此,从头开始训练的模型具有 36.3 AP , 并 赶 上 了 训 练 前 的 对 应 模 型 ( 图 7 ,中),尽管数据较少。10k COCO训练图像。我们在10k COCO图像的较小训练集上重复相同的实验集(即,不到COCO全套的十分之一)。同样,我们对模型上的超参数执行网格搜索,使用ImageNet预训练,并将其应用于从头开始训练的模型。我们缩短了这个小训练集中的训练时间表(由x轴表示,图7,右)。预训练的模型在60k次迭代中达到26.0 AP,但在训练更多时略有下降。从头开始训练的对应模型在220k次迭代时具有25.9 AP,这是非常准确的。击穿状态:1k COCO训练图像。 在1万张图像中从头开始训练是非常准确的,这令人惊讶。但对于任意小的目标数据,期望这种趋势持续下去是不合理的,正如我们接下来报告的那样在图8中,我们仅使用1 k个COCO训练图像(完整COCO的1/100,再次优化预训练情况的超参数)重复相同的一组实验,并显示训练损失。在优化方面(即,减少训练损失),从头开始的训练仍然没有更糟,但只是收敛得更慢,如前所述。然而,在这种情况下,训练损失并不能转化为良好的验证AP:使用ImageNet预训练的模型具有9.9 AP vs.从头开始的模型的AP为3.5。对于一个实验,我们还执行了网格搜索来优化从头开始的情况:26.025.9随机初始化预训练149251.510.50损失:1k训练图像0 1 2 3迭代(104)- ImageNet预训练并不一定有助于减少过度拟合,除非我们进入一个非常小的数据区域。- 如果目标任务对定位比分类更敏感,ImageNet预训练的帮助就更小。基于这些观察,我们提供了一些重要问题的答案,这些问题可能会鼓励人们重新思考ImageNet预训练:ImageNet预训练是必要的吗?不--如果我们有足够的目标数据(和计算)。我们的实验图8.使用1k COCO图像进行训练(显示为损失在训练集中)。该模型是带有R50-FPN和GN的Mask R-CNN。和前面一样,我们使用为预训练模型优化的超参数,并将相同的超参数应用于随机初始化的模型。随机初始化的模型可以弥补训练损失,但验证精度(3.4 AP)低于训练前的模型(9.9 AP)。结果提高到5.4 AP,但没有赶上。这是由于严重缺乏数据而导致的强烈过度拟合我们还使用3.5k COCO训练图像进行了类似的实验。使用预训练的模型的峰值为16.0 bbox APvs.受过训练的对手9.3 AP。COCO数据集中的故障点在3.5k到10k训练图像之间。击穿状态:PASCAL VOC. 最后,我们报告了PASCALVOC 对 象 检 测 的 比 较 [7] 。 我 们 在trainval2007+train2012的集合上进行训练,并在val2012上进行评估。使用ImageNet预训练,我们的Faster R-CNN基线(使用R101-FPN,GN,仅训练时间增强)在18 k次迭代时具有82.7 mAP。它的反-在VOC中从头开始训练的部分在144k次迭代时具有77.6 mAP,并且即使训练更长时间也无法赶上。有15k VOC图像用于训练。 但是这些图像平均每个图像有2.3个实例(与COCO80).它们与相同数量的COCO图像没有直接可比性。我们怀疑较少的实例(和类别)与训练数据不足有类似的负面影响,这可以解释为什么VOC从头开始的训练无法像COCO上观察到的那样。6. 讨论我们将实验的主要观察结果总结如下:- 在目标任务上从头开始训练是可能的,而无需架构更改。- 从头开始训练需要更多的迭代才能充分收敛。- 在许多情况下,从头开始的训练不会比ImageNet的预训练对手差,最少只有10k个COCO图像。- ImageNet预训练加速了目标任务。表明ImageNet可以帮助加速收敛,但不一定提高准确性,除非目标数据集太小(例如,<10k COCO图像)。如果目标数据集规模足够大,直接在目标数据上训练就足够了。展望未来,这表明收集目标数据的注释(而不是预训练数据)对于提高目标任务性能可能更有用。ImageNet有用吗?是的ImageNet预训练一直是计算机视觉社区进步的重要辅助任务。它使人们能够在大规模数据可用之前看到显着的改进(例如,在VOC很长一段时间)。它还在很大程度上帮助了目标数据中的循环优化问题(例如,在缺乏标准化/初始化方法的情况下)。此外,ImageNet预训练减少了研究周期,从而更容易获得令人鼓舞的结果-预训练模型今天广泛且免费,预训练成本不需要重复浪费,并且从预训练权重进行微调我们相信,这些优势仍然会使ImageNet毫无疑问地有助于计算机视觉研究。大数据有用吗?是的但如果考虑到收集和清理数据的额外努力,通用的大规模分类级预训练集并不理想-收集ImageNet的资源需求在很大程度上被忽略了,但当我们扩展这个范式时,“预训练+微调”范式中的如果大规模分类级预训练的增益呈指数递减[44,30],则在目标域中收集数据将更有效。我们应该追求普遍的表象吗?是的我们相信学习普遍表征是一个值得称赞的目标。我们的结果并不意味着偏离这一目标。实际上,我们的研究表明,社区在评估预先训练的特征时应该更加小心(例如,对于自监督学习[5,47,33,32]),因为现在我们知道即使是随机初始化也可以产生很好的结果。最后,ImageNet及其预训练角色在计算机视觉中具有 令 人 难 以 置 信 的 影 响 力 , 我 们 希 望 我 们 关 于ImageNet及其角色的新实验证据将为社区未来的发展方向提供启示。随机初始化,预训练14926引用[1] Pulkit Agrawal,Ross Girshick和Jitendra Malik。分析了多层神经网络用于目标识别的性能2014年,在ECCV。2[2] Jimmy Lei Ba,Jamie Ryan Kiros,Geoffrey E Hinton.层归一化。arXiv:1607.06450,2016。3[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:深入研究高质量的对象检测。在CVPR,2018年。5[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。1[5] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,2015年。8[6] Jeff Donahue , Yangqing Jia , Oriol Vinyals , JudyHoffman,Ning Zhang,Eric Tzeng,and Trevor Darrell.Decaf:用于通用视觉识别的深度卷积激活功能。InICML,2014. 1[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams , John Winn , and Andrew Zisserman.PascalVisual Object Classes(VOC)挑战。IJCV,2010年。8[8] 罗斯·格希克。快速R-CNN。在ICCV,2015年。一、二、三[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。一、二[10] Ross Girshick,Ilija Radosavovic,Georgia Gkioxari,PiotrDo lla'r,和KA IM IN GH e.Detectron.[20] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML ,2015。3[21] Alex Krizhevsky Ilya Sutskever和Geoff Hinton使用深度卷积神经网络的图像网分类。NIPS,2012年。1[22] 黑律和贾登。CornerNet:将对象检测为配对关键点。在ECCV,2018。二、六[23] Yann LeCun、Bernhard Boser、John S Denker、DonnieHenderson 、 Richard E Howard 、 Wayne Hubbard 和Lawrence D Jackel。应用于手写体邮政编码识别的反向传播。神经计算,1989年。1[24] Chen-Yu Lee , Saining Xie , Patrick Gallagher ,Zhengyou Zhang,and Zhuowen Tu.深度监督网络。在AIS中-TATS,2015年。2[25] Zeming Li,Chao Peng,Gang Yu,Xiangyu Zhang,Yangdong Deng,and Jian Sun.DetNet:用于对象检测的骨干网络arXiv:1804.06215,2018。2[26] 林宗义、李宗义、李宗义.用于对象检测的特征金字塔网络。在CVPR,2017年。一、二、四[27] 刘舒,陆琪,秦海防,石建平,贾佳雅。用于实例分段的路径聚合网络。在CVPR,2018年。三、四[28] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed , Cheng-Yang Fu , andAlexander C Berg. Ssd:单发多盒探测器。在ECCV,2016年。2[29] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔充分https://github.com/facebookresearch/detectron网站,2018. 四、六用于语义分割的卷积网络。在CVPR,2015年。1[11] 泽维尔·格洛特
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功