没有合适的资源?快使用搜索试试~ 我知道了~
6023CutMix:训练具有局部化特征的强分类器的正则化策略尚都运1号韩东允吴成俊2尚学春1Junsuk Choe崔顺实1,3柳永1Clova AI Research,NAVER Corp.2Clova AI Research、LINE Plus Corp.3延世大学摘要为了提高卷积神经网络图像ResNet-50[3]第四十七话:一个人的世界分类器 他们已经证明是有效的指导该模型涉及对象的较少区别的部分(例如,与人的头部相对的腿),从而使网络更好地概括并且具有更好的对象定位能力。另一方面,目前的区域丢弃方法通过覆盖一片黑色像素或随机噪声来去除训练图像上的信息像素。这种删除是不可取的,因为它会导致信息丢失和效率低下,ing训练。因此,我们提出了CutMix增强策略:在列车之间剪切和粘贴补丁,标签Dog 1.0Dog 0.5狗1.0狗0.6对其中地面真值标签也与补丁的面积成比例地混合的图像进行处理。通过有效利用训练像素并保留区域丢弃的正则化效果,CutMix在CI- FAR和ImageNet分类任务以及ImageNet弱监督定位任务上始终优于最先进的增强策略。此外,与以前的增强方法不同,我们的CutMix训练的ImageNet分类器在用作预训练模型时,在Pascal检测和MS-COCO图像字幕基准测试中获得了一致的性能增益。我们还表明,CutMix提高了模型对输入损坏的鲁棒性及其分布外检测性能。源代码和预训练模型可在https://github.com/clovaai/CutMix-PyTorch上获得。1. 介绍深度卷积神经网络(CNN)在各种计算机视觉问题上表现出了很好的性能,例如图像分类[30,20,12],对象分解,表1:Mixup、Cutout和我们的CutMix在ImageNet分类,ImageNet本地化和Pascal VOC 07检测(使用SSD的迁移学习[23]微调)任务上。请注意,CutMix显著提高了各种任务的性能。检测[29,23]、语义分割[1,24]和视频分析[27,31]。为了进一步提高训练效率和性能,已经提出了许多训练策略,包括数据增强[20]和正则化技术[33,17,37]。特别是,为了防止CNN过于关注一小组中间激活或输入图像上的小区域,已经提出了随机特征去除正则化。示例包括用于随机丢弃隐藏激活的dropout [33]和用于擦除上的随机区域的regional dropout [3,50,32,8,2]。 输入.研究人员已经证明,特征去除策略通过让模型不仅关注对象的最具区分性的部分,而且关注整个对象区域,从而提高了泛化和定位能力[32,8]。ImageNet76.30.5类77.477.10.4类78.6Cls(%)(+0.0)(+1.1)(+0.8)(+2.3)ImageNet46.345.846.747.3Loc(%)(+0.0)(-0.5)(+0.4)(+1.0)Pascal75.673.975.176.76024虽然区域丢弃策略在一定程度上改善了分类和定位性能,但删除的区域通常被清零[3,32]或填充随机噪声[50],大大降低了训练图像上信息像素我们认为这是一个严重的概念限制,因为CNN通常需要大量数据[26]。我们如何最大限度地利用缺失区域,同时利用区域缺失更好我们通过引入增强策略CutMix来解决上述问题。我们不是简单地去除像素,而是用另一张图像的补丁替换去除的区域(参见表1)。地面实况标签也与组合图像的像素数成比例地混合。CutMix现在享有的属性是,在训练过程中没有无信息的像素,使训练有效,同时保留区域辍学的优势,以关注对象的非歧视性部分。所添加的补片通过要求模型从局部视图识别对象来进一步增强定位能力训练和推理预算保持不变。CutMix与Mixup [47]相似,Mixup通过内插图像和标签来混合两个样本。Mixup样本虽然确实提高了分类性能,但往往是不自然的(参见表1中的混合图像)。CutMix通过用来自另一个训练图像的补丁替换图像区域来克服该问题。表1概述了Mixup [47]、Cutout [3]和CutMix在图像分类、弱监督局部化和迁移学习到对象检测方法上的应用。虽然Mixup和Cutout增强了ImageNet分类,但它们降低了ImageNet定位或对象检测性能。另一方面,CutMix consis- tently实现了三个任务的显着增强我们提出了广泛的评估CutMix在各种CNN架构,数据集和任务。总结关键结 果,CutMix 显著提高了CIFAR-100上基线分类器的准确性,并获得了最先进的top-1误差14.47%。在ImageNet [30]上,将CutMix应用于ResNet-50和ResNet-101 [12]分别将分类准确率提高了+2.28%和+1.70%。在定位方面,CutMix将CUB200 -2011 [43]和ImageNet [30]上的弱监督对象定位(WSOL)任务的性能分别提高了+5.4%和+0.9%通过在CutMix-ImageNet预训练模型上微调检测器和图像字幕生成器,进一步证明了卓越的本地化能力; CutMix预训 练 将 Pascal VOC [ 6 ] 的 整 体 检 测 性 能 提 高 了 +1mAP,并将MS-COCO [ 22 ]的图像字幕性能提高了+2BLEU分数。CutMix还增强了模型的鲁棒性,并缓解了深度网络的过度自信问题[13,21]。2. 相关作品地区辍学率:方法[3,50]已提出去除图像中的随机区域以增强CNN的泛化性能。对象定位方法[32,2]还利用区域丢弃技术来提高CNN的定位能力CutMix与这些方法类似,而关键的区别在于移除的区域填充有来自另一个训练图像的补丁。DropBlock [8]已经将区域丢弃推广到特征空间,并且也显示出增强的可推广性。CutMix也可以在特征空间上执行,正如我们将在实验中看到的那样。合成训练数据:一些工作已经探索了合成训练数据以进一步概括。通过Stylizing ImageNet [30,7]生成新的训练样本,引导模型更多地关注形状而不是纹理,从而获得更好的分类和对象检测性能。CutMix还通过在小批量中剪切和粘贴补丁来生成新样本,从而在许多计算机视觉任务中提高性能;与[ 7 ]中的风格化不同,CutMix仅产生可忽略的额外训练成本。对于对象检测,已经提出了对象插入方法[5,4]作为在背景中合成对象的一种方式这些方法旨在训练单个对象样本的良好表示,而CutMix生成可能包含多个对象的组合样本。Mixup:CutMix与Mixup [47,40]的相似之处在于两者都结合了两个样本,其中新样本的地面真实标签由one-hot标签的线性插值给出。正如我们将在实验中看到的,Mixup样本遭受了这样一个事实,即它们是局部模糊和不自然的,因此混淆了模型,特别是对于本地化。最近,已经提出了混合变体[41,34,10,39];它们执行特征级内插和其它类型的变换。但是,这些研究我们已经验证了CutMix的好处,不仅用于图像分类任务,而且用于广泛的本地化任务和迁移学习实验。训练深度网络的技巧:深度网络的有效训练是计算机视觉领域最重要的问题之一,因为它们需要大量的计算和数据。权重衰减、dropout [33]和批量归一化[18]等方法被广泛用于有效地训练深度网络。最近,已经提出了向CNN的内部特征添加噪声[17,8,45]或向架构添加额外路径[15,14]的方法来增强图像分类性能。CutMix是上述方法的补充,因为它在数据级别上操作6025∈联系我们WH−3. CutMix我们详细描述了CutMix算法。3.1. 算法设xRW× H × C和y分别表示训练图像及其标签。CutMix的目标是通过组合两个训练样本(xA,yA)和(x B,y B)来生成新的训练样本(x B,yB)。所生成的训练样本(x,y)用于利用其原始损失函数来训练模型。我们将组合操作定义为x=MxA+(1−M)xB原始样本输入图像凸轮圣。伯纳德y=λyA+(1−λ)yB,(一)凸轮其中M0,1W×H表示指示从两个图像中删除和填充的位置的二进制掩码,1是用1填充的二进制掩码,并且1是逐元素乘法。贵宾犬Mixup切口CutMix与Mixup [47]类似,两个数据点之间的组合比λ从beta分布Beta(α,α)中采样。在我们的所有实验中,我们将α设置为1,即λ从均匀分布(0,1)中采样。请注意,主要的区别-其优点是CutMix用来自另一个训练图像的补丁替换图像区域,并且比Mixup生成更多的局部自然图像。为了对二进制掩码M进行采样,我们首先对指示xA和xB上的裁剪区域的边界框坐标B=(rx,ry,rw,rh)进行采样。删除xA中的区域B,并使用从xB中的B裁剪的面片填充。在我们的实验中,我们采样矩形掩模M其纵横比与原始图像成比例根据以下公式对框坐标进行均匀采样:√图1:类激活映射(CAM)[51]使用各种增强技术对“Saint Bernard”和“Miniature Poodle”样本进行可视化。从顶部到底部行,我们分别示出了原始图像、输入增强图像、“Saint Bernard”类的CAM请注意,CutMix可以利用图像上的混合区域,但Cutout不能。Mixup Cutout CutMix使用完整图像区域剪切混合地区辍学率混合图像标签表2:Mixup、Cutout和CutMix之间的比较rx<$Unif(0,W),rw=W1−λ,(二)ry<$Unif(0,H),rh=H<$1−λ使得裁剪的面积比rwrh= 1λ。关于庄稼-宽×高它们各自的部分视图,我们在视觉上比较了CutMix与Cutout [3]和Mixup [47]的激活图图1显示了示例增强输入以及ping区域,确定二进制掩码M ∈{0,1}通过在边界框B内填充0,否则填充1。在每次训练迭代中,CutMix-ed样本(x,y)是由随机选择的两个训练根据等式(1),在小批量中采样。代码级详细信息见附录A。CutMix很简单,与[35,16]中使用的现有数据增强技术相比,计算开销可以忽略不计;我们可以有效地利用它来训练任何网络架构。3.2. 讨论模型使用CutMix可以学到什么?我们激励CutMix,使完整的对象范围被认为是分类的线索,Cutout共享的动机,同时确保从单个图像中的部分视图识别两个对象,以提高训练效率。为了验证CutMix确实在学习从对应的类激活图(CAM)[51]同学们,圣伯纳犬和迷你贵宾犬。我们使用vanillaResNet-50模型1来获得CAM,以便仅清楚地看到增强方法的效果。我们观察到,Cutout成功地让模型专注于对象的歧视性较低的部分,如圣伯纳犬的腹部,而由于未使用的像素,效率低下另一方面,Mixup充分利用了像素,但引入了不自然的伪影。作为结果,Mixup的CAM我们假设这种混淆导致其在分类和定位方面的次优性能,正如我们将在第4节中看到的那样。CutMix通过能够精确地定位两个对象类来有效地改进Cutout。我们总结1我们使用PyTorch提供的ImageNet预训练ResNet-50 [28]。6026×型号参数Top-1Top-5图2:CIFAR100(左)和ImageNet(右)分类的前1测试误差图。在训练结束时,Cutmix实现了比基线更低的测试表2中的Mixup、Cutout和CutMix之间的主要区别。验证错误分析:我们分析了CutMix对稳定深度网络训练的影响。我们比较训练过程中的前1个验证错误表3:基于ResNet-50模型的ImageNet分类结果‘*’denotes results reported in the original与CutMix对比。我们训练ResNet-50 [12]用于ImageNet分类,PyramidNet-200 [11]用于CIFAR-100分类。图2显示了结果。我们观察到,首先,CutMix在训练结束时实现了比基线更低的在学习速率降低的时期150处,基线遭受过拟合,其中验证误差增加另一方面,CutMix显示验证误差稳步下降;不同的训练样本减少过拟合。型号参数Top-1Top-54. 实验在本节中,我们评估CutMix在提高多任务训练模型的本地化能力和泛化能力方面我们首先研究了剪切混合对图像分类(第4.1节)和弱监督对象定位(第4.2节)的影响。接下来,我们展示了CutMix预训练模型在针对对象检测和图像字幕任务进行微调时的可移植性(第4.3节)。我们还在第4.4节中证明了CutMix可以提高模型的鲁棒性并减轻模型的过度自信。所有实验都是在NAVER智能机器学习(NSML)[19]平台上使用PyTorch [28]实现和评估的。源代码和预 训 练 模 型 可 在 https://github.com/clovaai/CutMix-PyTorch上获得。4.1. 图像分类4.1.1ImageNet分类我们在ImageNet-1 K benchmark [30]上进行评估,该数据集包含1.2M训练图像和1 K类别的为了公平比较,我们使用ImageNet数据集的标准增强设置,例如重新调整大小,裁剪和翻转,如[11,8,16,36]中所做。我们发现,正则化方法,包括随机表4:CutMix对ResNet-101和ResNext-101的ImageNet分类的影响。Depth [17],Cutout [3],Mixup [47]和CutMix需要更多的训练时期才能收敛。因此,我们已经训练了300个epoch的所有模型,初始学习率为0.1,在epoch75,150和225衰减了0.1。批大小设置为256。超参数α被设置为1。我们报告了CutMix和其他基线在训练过程中的最佳表现我们简要描述了基线增强方案的设置。我们将剩余块的丢弃率设置为随机深度的最佳性能为0.25[17]。Cutout [3]的掩码大小设置为112 112,并且对丢弃的位置进行均匀采样。的性能DropBlock [8]来自原始论文,与我们的设置不同的是训练时期设置为270。Manifold Mixup [41]在随机选择的内部特征图上应用Mixup操作。我们尝试了混合和流形混合的α= 0.5和1.0,并选择了表现更好的1.0还可以将CutMix扩展到特征级增强(特征剪切-混合)。功能剪切混合应用剪切混合在一个随机选择的层每个小批量作为歧管混合。与基线增强的比较:结果在表3中给出。我们观察到CutMix实现了误差(%)误差(%)ResNet-152*60.3百万21.695.94ResNet-101 + SE Layer*[15]49.4百万20.945.50ResNet-101 + GE Layer*[14]58.4百万20.745.29ResNet-50 + SE Layer*[15]28.1百万22.125.99ResNet-50 + GE Layer*[14]33.7百万21.885.80ResNet-50(基线)25.6百万23.687.05ResNet-50 + Cutout [3]25.6百万22.936.66ResNet-101(基线)[12]44.6百万误差(%)21.87误差(%)6.29ResNet-101 + Cutout [3]44.6百万20.725.51[47]第四十七话:一个人44.6百万20.525.28ResNet-101 + CutMix44.6百万20.175.246027→××PyramidNet-200(α=240)Top-1Top-5型号参数Top-1Top-5ResNet-110 [12] 1.1 M 23.14 5.95ResNet-110 + CutMix 1.1 M20.11 4.43表6:CutMix对CIFAR-100上较轻架构的影响。PyramidNet-200(α=240)Top-1误差(%)表5:CIFAR-100上的现有技术正则化方法的比较在所考虑的增强策略中,最好的结果是21.40%的前1错误。CutMix的表现优于Cutout和Mixup,这两个最接近我们的方法,+1.53%,分别为+1.18%。在特征层面上,我们发现CutMix优于Mixup,前1名的错误率分别为21.78%和22.50%与架构改进的比较:我们还比较了CutMix与结构改进(例如,更大的深度或附加模块)。我们观察到CutMix将性能提高了+2.28%,而增加的深度(ResNet-50 ResNet-152)提高了+1.99%,SE [15]和GE [14]分别提高了+1.56%和+1.80%。请注意,不像上述架构的提高,由于削减混合来在很少的内存或计算时间.CutMix适用于更深的型号:我们已经在ImageNet上探索 了 CutMix 在 更 深 层 次 网 络 ResNet-101 [12] 和ResNeXt-101(32 4d)[44]中的性能。如表4所示,我们观察到CutMix导致的top-1误差分别提高了+1.60%和+1.71%4.1.2CIFAR分类我们 将minibatch 大小 设置 为64,训 练epoch设置 为300。学习率最初设置为0.25,并在150和225epoch时衰减0.1倍为了确保所提出的方法的有效性,我们使用了强基线PyramidNet-200[1 1],加宽因子α=24 0。它具有26.8M参数,并在CIFAR-100上实现了最先进的性能16.45%的top-1误差表5显示了与其他最先进的数据增强和正则化方法。所有实验进行三次,并报告训练期间的平均最佳表现。表7:CutMix对CIFAR-10的影响超参数设置:我们将Cutout [ 3 ]的孔大小设置为1616 。 对 于 DropBlock [8] , keepprob 和 blocksize分别设置为0.9和4随机深度[17]的下降率设置为0.25。对于Mixup [47],我们用0.5和1.0测试了超参数α。 对于Mani-fold Mixup [41],我们在每个小批量随机选择的层上应用Mixup操作。正则化方法的组合:我们已经评估了正则化方法的组合。Cutout [3]和label smoothing [37]在单独使用时不会提高精度,但它们在一起使用时有效。Dropblock [8]是Cutout的特征级泛化,当还使用label平滑时也更有效 。 当 Cutout 应 用 于 输 入 图 像 时 , Mixup [47] 和Manifold Mixup [41] 实 现 了 更 高 的 精 度 。 Cutout 和Mixup的组合倾向于生成局部分离和混合的样本,因为裁剪区域比普通Mixup具有更少的模糊性。Cutout和Mixup组合的优越性能表明,通过剪切和粘贴方式混合优于插值,这一点在CutMix性能中得到了充分证明。CutMix在CIFAR-100上实现了14.47%的前1分类错误,比基线性能16.45%高出1.98%。通过结合CutMix和ShakeDrop [45],我们实现了最先进的新性能13.81%,这是一种在中间特征上添加噪声的正则化。适用于各种型号的CutMix:表6显示CutMix还显著提高了较弱的基线架构的性能,例如PyramidNet-110 [11]和ResNet-110。CIFAR-10的CutMix:我们使用与CIFAR-100相同的基线和训练集在CIFAR-10数据集上评估了CutMix。结果在表7中给出。对(# params:26.8 M)误差(%)误差(%)误差(%)误差(%)基线16.453.69PyramidNet-110(α=64)[11]1.7米19.854.66+ StochDepth [17]15.863.33PyramidNet-110 + CutMix1.7米17.973.83+ 流形混淆(α=1.0)[41]16.144.07+ 切口+混淆(α=1.0)15.463.42基线3.85+ 断流+歧管混淆(α=1.0)15.093.35+开孔3.10+ ShakeDrop [45]15.082.72+ 混淆(α=1.0)3.09+ CutMix14.472.97+歧管混淆(α=1.0)3.15+ [45]第四十五话:13.812.29+ CutMix2.88+ 标签平滑(=0.1)[37]16.733.37+ 卡顿[3]16.533.65+ 剪切+标签平滑(λ=0.1)15.613.88+ Dropdlock [8]15.733.26+ DropBlock +标签平滑(=0.1)15.163.86+ 混合(α=0.5)[47]15.784.04+ 混合(α=1.0)[47]15.633.996028×联系我们方法CUB 200 -2011ImageNet图3:α和CutMix层深度对CIFAR- 100 top-1误差的影响。PyramidNet-200(α=240)(#params:26.8M)前1位误差(%)前5名误差(%)基线建议(CutMix)14.47 2.97中心高斯CutMix 15.95 3.40固定大小CutMix 14.97 3.15一热CutMix 15.89 3.32预定的CutMix 14.72 3.17完整标签CutMix 15.17 3.10表8:CutMix变体对CIFAR-100的性能CIFAR-10,CutMix还将分类性能提高了+0.97%,优于Mixup和Cutout性能。4.1.3消融研究我们使用第4.1.2节中相同的实验设置在CIFAR-100数据集中进行了消融研究。我们使用α 0.1、0.25、0.5、1.0、2.0、4.0评估了CutMix;结果见图3,左图。对于考虑 的 所 有 α 值 , CutMix 在 基 线 基 础 上 有 所 改 善(16.45%)。当α= 1.0时达到最佳性能。特性级CutMix的性能如图3右侧所示。我们改变了层上的剪切混合应用,从图像层本身更高的功能水平.我们将索引表示为(0=图像级,1=第一次conv-bn之后,2=层1之后,3=层2之后,4=层3之后)。CutMix在应用于输入图像时可实现最佳性能。同样,除了第3层的情况外,特征级剪切-混合比基线(16.45%)提高了准确性。我们为CutMix探索不同的设计选择表8显示了CutMix变体的性能“Center Gaussian CutMix”根据在图像中心具有平均值的高斯分布而不是原始均匀分布对等式(2)的框坐标rx、ry进行采样。“Fixed-sizeCutMix”将裁剪区域(r w,r h)的大小固定为16 16(即λ = 0.75)。‘Scheduled Cut- Mix’表9:CUB 200 -2011和ImageNet上的弱监督对象定位结果。* 表示原始论文中报告的结果。训练过程,如[8,17]所做的,从0到1。‘One- hotCutMix’ decides the mixed target label by committing tothe label of greater patch portion (single one-hot label),rather than using the combination strategy in Equation( 'Complete-label CutMix'将混合目标标签指定为y =0。5yA+0. 5yB不考虑组合比λ。结果表明,与原始CutMix相比,上述变化导致性能下降。4.2. 弱监督目标定位弱监督对象定位(WSOL)任务的目的是训练分类器定位目标对象,只使用类标签。为了很好地定位目标,重要的是使CNN从完整的对象区域提取线索,而不是专注于目标的小的判别部分因此,学习空间分布表示是提高WSOL任务性能的关键。CutMix引导分类器关注更广泛的线索集来做出决策;我们期望CutMix能够提高分类器的WSOL性能。为了衡量这一点,我们在基线WSOL模型上应用CutMix我们遵循现有WSOL方法的训练和评估策略[48,49,2],VGG-GAP和ResNet-50作为基础架构。定量和定性结果分别见表9和图4。全部实施细节载于附录B。与Mixup和Cutout的比较:CutMix在CUB 200 -2011和ImageNet上的定位准确度分别比Mixup [47]高出+5.51%和+1.41%。混淆会降低基线模型的定位精度;它倾向于使分类器集中于小区域,如图4所示。正如我们在第二节中所假设的那样本地接入(%)本地接入(%)VGG-GAP + CAM [51]37.1242.73VGG-GAP + ACoL*[48]45.9245.83VGG-GAP + ADL*[2]52.3644.92[32]第三十二话-45.21[49]第四十九话46.6448.60VGG-GAP + Mixup [47]41.7342.54VGG-GAP + Cutout [3]44.8343.13VGG-GAP + CutMix52.5343.45ResNet-50 + CAM [51]49.4146.30ResNet-50 + Mixup [47]49.3045.84ResNet-50 + Cutout [3]52.7846.69ResNet-50 + CutMix54.8147.256029骨干ImageNet Cls检测图像字幕网络前1位误差(%)SSD [23][29]第二十九话[42]第四十二话[42]第四十二话表10:CutMix对将预训练模型的学习转移到其他任务、对象检测和图像字幕的影响基线Mixup切口CutMix图4:CUB-200-2011数据集上弱监督对象定位任务的基线(ResNet- 50)、Mixup、Cutout和CutMix的定性比较。地面实况和预测边界框分别表示为红色和绿色。在第3.2节中,Mixup样本中的更多模糊性使得分类器聚焦于对象的甚至更多区别性部分,从而导致降低的定位精度。虽然Cutout [3]提高了基线的准确性,但它优于CutMix:在CUB 200 -2011和ImageNet上分别为+2.03%和+0.56%。CutMix还在CUB 200 -2011和ImageNet上实现了相当的本地化精度,即使与专注于学习空间分散表示的专用最先进的WSOL方法[51,32,48,49,2]进行比较。4.3. 预训练模型ImageNet预训练实际上是许多视觉识别任务的标准实践。我们研究了基于ImageNet预训练模型的Cut- Mix预训练模型是否会在某些下游任务中产生更好的性能。由于CutMix在定位识别性较低的对象部分方面表现出了优越性,我们预计它将在某些具有定位元素的识别任务中得到提升,例如对象检测和图像字幕。我们通过使用Mixup [47],Cutout [3]和CutMix将骨干网络初始化替换为其他ImageNet预训练模型来ResNet- 50在本节中用作基线架构。转移到Pascal VOC对象检测:考虑了两种流行的检测模型SSD [23]和Faster RCNN [29]。最初,这两种方法都使用VGG- 16作为主干,但我们将其改为ResNet-50。ResNet-50主干使用各种ImageNet预训练模型进行初始化,然后在Pascal VOC 2007和2012 [6]trainval数据上进行微调使用mAP度量对VOC 2007测试数据对我们遵循原始方法的微调策略[23,29];实现细节见附录C。结果示于表10中。使用Cutout和Mixup的预训练未能提高vanilla预训练模型的对象检测性能。然而,CutMix的预训练提高了SSD和Faster-RCNN的性能。CutMix预训练模型的更强的本地化能力导致更好的检测性能。转移到MS-COCO图像字幕:我们使用神经图像字幕(NIC)[42]作为图像字幕实验的基础模型。我们改变了从GoogLeNet [42]到ResNet-50的编码器网络。骨干网络使用各种ImageNet预训练模型进行初始化,然后在MS-COCO数据集上进行训练和评估[22]。实施细节和评估指标(METEOR、CIDER等)在附录D中。表10显示了结果。CutMix在BLEU1和BLEU4指标上均优于Mixup和Cutout。只需用我们的CutMix预训练模型替换骨干网络,就可以在不增加额外成本的情况下提高目标检测和图像捕获任务的性能4.4. 耐用性和不确定性许多研究表明,深度模型很容易被输入图像上的小而不可识别的扰动所欺骗,这种现象被称为对抗攻击[9,38]。增强鲁棒性和不确定性的一种直接方法是通过生成不可见样本来增强输入[25]。我们评估了由于输入增强方法包括Mixup,Cutout和CutMix的鲁棒性和不确定性改进鲁棒性:我们评估了训练模型对对抗样本、遮挡样本和中间类样本的鲁棒性。我们使用ImageNet预训练的ResNet-50模型,设置与第4.1.1节相同。快速梯度符号法(FGSM)[9]用于生成-(mAP)(mAP)(BLEU-1)(BLEU-4)ResNet-50(基线)23.6876.7(+0.0)75.6(+0.0)61.4(+0.0)22.9(+0.0)混合训练22.5876.6(-0.1)73.9(-1.7)61.6(+0.2)23.2(+0.3)6030100755025中心牙合100755025边界闭塞混淆中间类504030Cutmix中间类50403000 50 100150 200孔尺寸00 50 100150200孔尺寸200.00.20.40.60.81.0合成比率200.00.20.40.60.81.0合成比率基线MixupCutMix基线MixupCutMix基线MixupCutMix基线MixupCutMix(a)闭塞样本分析(b)中间类样本图5:ImageNet验证集上的鲁棒性实验基线混合剪切混合方法TNR at TPR 95% AUROC检测Acc.前1位的访问率(%)8.224.411.531.0基线26.3(+0)87.3(+0)82.0(+0)Mixup11.8(-14.5)49.3(-38.0)60.9(-21.0)表11:FGSM白盒攻击后的Top-1准确度切口18.8(-7.5)68.7(-18.6)71.3(-10.7)ImageNet验证集。CutMix69.0(+42.7)94.4(+7.1)89.1(+7.1)假设对抗性扰动,并且我们假设广告具有模型的全部信 息 ( 白 盒 攻 击 ) 。 我 们 在 表 11 中 报 告 了 攻 击ImageNet验证集后的前1名准确率。与其他增强方法相比,CutMix显著提高了对抗攻击的鲁棒性对于遮挡实验,我们以两种方式生成遮挡样本:在中心孔中填充零的中心遮挡在图5a中,我们通过将孔尺寸从0变化到224来测量top-1误差。对于这两种遮挡场景,Cutout和CutMix在鲁棒性方面实现了显著的改进 , 而 Mixup 仅 略 微 改 进 了 鲁 棒 性 。 有 趣 的 是 ,CutMix几乎达到了与Cutout相当的性能,尽管CutMix在训练期间没有观察到任何遮挡样本,但与Cutout不同。最后,我们评估样本之间Mixup和CutMix的前1个误差通过改变组合比率λ来预测两个类别的概率如图5b所示。我们在ImageNet验证集中随机选择了50,000个中间样本在这两个实验中,Mixup和CutMix提高了性能,而Cutout的改进几乎可以忽略不计。与之前的遮挡实验类似,CutMix甚至提高了对类样本之间不可见的Mixup的鲁棒性。不确定性:我们测量了[ 13 ]提出的分布外(OOD)检测器的性能,该检测器通过分数阈值确定样本是否在分布内或分布外。我们使用在CIFAR-100数据集上训练的PyramidNet-200,设置与第4.1.2节相同。在表12中,我们报告了来自[13,21]的七个分布外样本的平均OOD检测性能,包括TinyImageNet,LSUN [46],均匀噪声,表12:CIFAR-100训练模型的分布外(OOD)检测结果。结果在七个数据集上平均。所有数字均为小写;越高越好。高斯噪声等。更多的结果在Ap-pennie中示出。混淆和Cutout 增 强 加 剧 了 基 础 网 络 的 过 度 自 信 。 同 时 ,CutMix显著地消除了模型的过度自信。5. 结论我们引入了CutMix来训练具有强大分类和定位能力的CNN。CutMix很容易实现,没有计算开销,同时在各 种 任 务 上 都 非 常 有 效 。 在 ImageNet 分 类 上 , 将CutMix应用于ResNet-50和ResNet- 101带来了+2.28%和+1.70%的top-1准确率提升。在CIFAR分类上,CutMix显著提高了基线性能+1.98%,导致最先进的前1名误差为14.47%。在弱监督目标定位(WSOL)中,CutMix大大提高了定位精度,取得了与现有WSOL方法相当的定位性能。此外,简单地使用CutMix-ImageNet-pretrained模型作为对象检测和图像字幕的初始化骨干,可以带来整体性能的提高。最后,我们已经表明,CutMix的结果在鲁棒性和不确定性的图像分类器的香草模型以及其他正规化模型的改进。确认我们要感谢Clova AI研究团队,特别是Jung-Woo Ha和Ziad Al-Halah提供的有用反馈和讨论。前1位误差(%)前1位误差(%)前1位误差(%)前1位误差(%)6031引用[1] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[2] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE计算机视觉和模式识别会议论文集,第2219-2228页,2019年[3] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。[4] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。在欧洲计算机视觉会议(ECCV)的会议记录中,第364-380页[5] Debidatta Dwibedi,Ishan Misra,and Martial Hebert.剪切、粘贴和学习:令人惊讶的简单合成,例如检测。在IEEE国际计算机视觉会议论文集,第1301-1310页[6] M. 埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I. 威廉斯,J.Winn和A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision,88(2):303[7] Robert Geirhos,Patricia Rubisch,Claudio Michaelis,Matthias Bethge , Felix A Wichmann , and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以 提 高 准 确 性 和 鲁 棒 性 。 arXiv 预 印 本 arXiv :1811.12231,2018.[8] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le.Dropblock:卷积网络的正则化方法。神经信息处理系统的进展,第10750-10760页,2018年[9] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释和利用对抗性的例子。在2015年国际学习表征会议[10] Hongyu Guo,Yongy
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功