自动增强：数据扩增的自动搜索方法

107 浏览量更新于2023-10-18 收藏 693KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自动增强：从数据中学习增强策略EkinD. Cu b u k，BarretZop h，DanjayMa ne'，VijayVasud ev an，QuocV. 谷歌大脑摘要数据增强是提高现代图像分类器精度的一种然而，当前的数据扩充实现是手工设计的.在本文中，我们描述了一个简单的过程，称为AutoAugment自动搜索改进的数据数据域：对对象进行分类通常对水平翻转或平移不敏感。网络架构也可以用于硬编码不变性：卷积网络具有平移不变性[16，32，25，29]。然而，使用数据扩充来合并潜在的不变性可能比直接将不变性硬编码到模型架构中更容易扩大政策。在我们的实现中，我们有-签署了一个搜索空间，其中一个策略包括许多子策略，其中一个是随机选择的每个图像在每个小批量。子策略由两个操作组成，每个操作是图像处理功能，例如平移、旋转或剪切，以及应用这些功能的概率和幅度我们使用搜索算法来找到最佳的策略，使神经网络在目标数据集上产生最高的验证精度。我们的方法在CIFAR-10，CIFAR-100，SVHN和ImageNet上达到了最先进的准确性（没有额外的数据）。在ImageNet上，我们获得了83.5%的Top-1准确率，比之前的83.1%高出0.4%。在CIFAR-10上，我们实现了1.5%的错误率我们发现，增强策略可以在数据集之间转移在ImageNet上学习的策略可以很好地转移到其他数据集上，例如Oxford Flowers，Caltech-101，Oxford-IIT Pets，FGVCAir- craft和Stanford Cars。1. 介绍深度神经网络是强大的机器学习系统，在大量数据上训练时往往能很好地工作。数据增强是一种通过随机“增强”数据来增加数据量和多样性的有效技术直观地说，数据扩增用于教授模型中的不变性，作为Google Brain Residency计划的成员所从事的工作。†同等贡献。表1.本文的错误率（%）与迄今为止在五个数据集上的最佳结果（ImageNet的Top-5，其他的Top-1）进行了比较。Stanford Cars之前的最佳结果微调了最初在较大数据集上训练的权重[66]，而我们使用的是随机初始化的网络。其他数据集上的先前最佳结果仅包括未在额外数据上训练的模型，用于单个评估（没有集成）。更详细的比较见表2、3和4。GPU小时估计为NVIDIA Tesla P100。然而，机器学习和计算机视觉社区的一大焦点是设计更好的网络架构（例如，[55、59、20、58、64、19、72、23、48]）。较少注意寻找更好的数据增强方法，包括更多的不变性。例如，在ImageNet上，[29]在2012年引入的数据增强方法仍然是标准，只有很小的变化。即使已经为特定数据集找到了增强改进，它们通常也不会有效地转移到其他数据集。例如，在训练期间水平翻转图像是CIFAR-10上的有效数据增强方法，但由于这些数据集中存在不同的对称性，因此在MNIST上不是。最近，自动学习数据增强的需求已经作为一个重要的未解决问题被提出[57]。在本文中，我们的目标是自动化的过程中找到一个有效的数据增强策略的目标数据集。在我们的实现中（第3节），每个策略都表示113数据集GPU小时最佳出版结果我们的结果CIFAR-1050002.11.5CIFAR-100012.210.7SVHN10001.31.0斯坦福汽车05.95.2ImageNet150003.93.5114可能的增强操作的若干选择和顺序，其中每个操作是图像处理功能（例如，平移、旋转或颜色归一化）、应用函数的概率以及应用它们的幅度。我们使用搜索算法来找到这些操作的最佳选择和顺序，以便训练神经网络产生最佳的验证精度。在我们的实验中，我们使用强化学习[71]作为搜索算法，但我们相信如果使用更好的算法，结果可以进一步改善[48，39]。我们的大量实验表明，AutoAugment在两个用例中实现了出色的改进：1）Au-toAugment可以直接应用于感兴趣的数据集，以找到最佳的增强策略（AutoAugment-direct），2）学习的策略可以转移到新的数据集（AutoAugment-transfer）。首先，对于直接应用，我们的方法在诸如CIFAR-10、简化的CIFAR-10、CIFAR-100、SVHN、重新-引入 SVHN 和 ImageNet （没有额外的数据）。在CIFAR-10上，我们实现了1.5%的错误率，比之前的最先进技术好0.6%[48]。在SVHN上，我们将最先进的错误率从1.3% [12]提高到1.0%。在简化的数据集上，我们的方法在不使用任何未标记数据的情况下实现了与半监督方法相当的性能。在ImageNet上，我们实现了83.5%的 Top- 1准确率，比之前的83.1%高出0.4%第二，如果直接应用过于昂贵，转移一个增加政策可能是一个很好的选择。对于转移增强策略，我们表明，在一个任务上发现的策略可以很好地泛化在不同的模型和数据集。例如，在ImageNet上发现的策略导致了各种FGVC数据集的显着改进。即使在ImageNet上预先训练的微调权重没有显着帮助的数据集上[26]，例如Stanford Cars [27] 和 FGVC Air- craft [38] ，使用ImageNet策略的训练也分别将测试集错误减少了1.2%和1.8%。这一结果表明，转移数据增强策略为标准权重转移学习提供了一种替代方法。我们的结果的总结示于表1中。2. 相关工作用于图像识别的常用数据增强方法是手动设计的，最佳增强策略是特定于特定于磁盘的。例如，在MNIST上，大多数排名靠前的模型使用弹性失真、缩放、平移和旋转[54，8，62，52]。在自然图像数据集上，如CIFAR-10和ImageNet，随机裁剪，图像镜像和颜色偏移/白化更常见[29]。由于这些方法是手动设计的，因此需要专业知识和时间。我们的方法是从原则上的数据中学习数据增强策略，Ple可以用于任何数据集，而不仅仅是一个。本文介绍了一种自动化的方法来从数据中找到我们的方法受到架构搜索最新进展的启发，其中强化学习和进化已用于从数据中发现模型架构[71，4，72，7，35，13，34，46，49、63、48、9]。尽管这些方法已经改进了人类设计的架构，但仅使用架构搜索无法克服CIFAR-10上2%的错误率障碍。以前在学习数据增强方面的尝试包括智能增强，它提出了一种网络，通过合并来自同一类的两个或更多个样本来自动生成增强数据[33]。Tran等人使用贝叶斯方法根据从训练集学习的分布生成数据[61]。DeVries和Taylor在学习到的特征空间中使用简单的变换来增强数据[11]。生成对抗网络也已用于生成附加数据（例如，[45、41、70、2、56]）。我们的方法和生成模型之间的关键区别在于，我们的方法生成符号变换操作，而生成模型（如GAN）直接生成增强数据。一个例外是拉特纳等人的工作，他使用GAN生成描述数据增强策略的序列[47]。3. AutoAugment：直接在感兴趣的数据集上搜索最佳增强策略我们将寻找最佳增强策略的问题表述为离散搜索问题（见图1）。我们的方法由两部分组成：搜索算法和搜索空间。在高级别，搜索算法m（被实现为控制器RNN）对数据增强策略S进行采样，该数据增强策略S具有关于要使用什么图像处理操作、在每个批次中使用操作的概率以及操作的幅度的信息。我们方法的关键是策略S将用于训练具有固定架构的神经网络，其验证精度R将被发送回以更新控制器。由于R是不可微的，控制器将通过策略梯度方法更新。在下面的章节中，我们将详细描述这两个组件。搜索空间详细信息：在我们的搜索空间中，一个策略由5个子策略组成，每个子策略由两个图像操作顺序应用。此外，每个操作还与两个超级参数相关联：1）应用该操作的概率，以及2)这次行动的规模。图2显示了一个在我们的搜索空间中包含5个子策略的策略示例。第一个子策略指定115图1.我们使用搜索方法的框架的概述（例如，强化学习）来搜索更好的数据扩充策略。控制器RNN从搜索空间预测增强具有固定架构的子网络被训练为收敛以实现精度R。奖励R将与策略梯度方法一起使用以更新控制器，以便它可以随着时间的推移生成更好的策略。依次应用ShearX和Invert。应用ShearX的概率是0.9，并且当应用时，其幅度为10中的7。然后，我们以0.8的概率应用反转。反转操作不使用幅度信息。我们强调这些操作是按照指定的顺序应用的。图2. SVHN上发现的策略之一，以及如何使用它来生成增强数据，给定用于训练神经网络的原始图像。该策略有5个子策略。对于小批量中的每一幅图像，我们随机均匀地选择一个子策略来生成变换后的图像来训练神经网络。每个子策略由2个操作组成，每个操作与两个数值相关联：调用操作的概率和操作的大小。存在调用操作的可能性，因此该操作可能不会应用于该小型批处理中。然而，如果应用，则其以固定的幅度应用。我们强调的随机性，在应用的子政策，显示如何一个图像可以被不同的小批量转换，即使有相同的子政策。正如本文中所解释的，在SVHN上，AutoAugment更经常选择几何变换。可以看出为什么Invert是SVHN上常用的操作，因为图像中的数字对于该变换是不变的。我们在实验中使用的操作来自PIL，一个流行的Python图像库。1一般而言，我们认为─1https://pillow.readthedocs.io/en/5.1.x/运行PIL中接受图像作为输入并输出图像的所有函数。我们还使用了另外两种有前景的增强技术：[12]和[24]。我们搜索的操作有ShearX/Y、TranslateX/Y、Rotate、AutoContrast、Invert、Quantify、So- larize、Posterize、Contrast、Color、Brightness、Sharpness、Cutout [12]、Sample Pairing [24]。2在我们的搜索空间中，总共有16个操作。每个操作还带有默认幅度范围，这将在第4节中更详细地描述。我们将磁场的范围离散化为10个值（均匀间距），以便我们可以使用离散搜索算法来找到它们。类似地，我们也将应用该操作的概率离散化为11值（均匀间距）。找到每个子策略成为一个在（16×10×11）2个可能性空间中的搜索问题然而，我们的目标是同时找到5个这样的子策略，以增加多样性。具有5个子策略的搜索空间大约为（16×10×11）10×2。9×1032可能性我们使用的16个操作及其默认值范围如附录中的表1所示注意在我们的搜索空间中没有显式的“Identity”操作;该操作是隐式的，并且可以通过调用概率设置为0的操作来实现。检索算法详细信息：我们在实验中使用的搜索算法使用强化学习，灵感来自[71，4，72，5]。搜索算法有两个组成部分：一个控制器，它是一个递归神经网络，工作，和训练算法，这是最近策略优化算法[53]。在每一步，控制器预测softmax产生的决策;然后将预测作为嵌入馈送到下一步骤。控制器总共具有30个softmax预测，以便预测5个子策略，每个子策略具有2个操作，并且每个操作需要操作类型、幅度和概率。RNN控制器的培训：控制器用奖励信号训练，奖励信号是策略在改善“子模型”（作为搜索过程的一部分训练的神经网络）的泛化方面有多好。在我们的实验中-在这种情况下，我们留出一个验证集来测量子模型的泛化。使用通过在训练集（不包含验证集）上应用5个子策略而生成的增强数据来对于小批量中的每个示例，随机选择5个子策略中的一个然后在验证集上对子模型进行评估以测量准确性，该准确性被用作训练递归网络控制器的奖励信号在每个数据集上，控制器采样大约15，000个策略。控制器RNN和训练超参数的架构：我们遵循训练过程和超参数，2关于这些操作的详细信息列于附录中的表1。116[72]的参数用于训练控制器。更具体地说，控制器RNN是一个单层LSTM [21]，每层有100个隐藏单元，每个架构决策相关的两个卷积单元（其中B通常为5）有2×5每个控制器RNN的10B预测与概率相关联。子网络的联合概率是这10B个软最大值处的所有概率的乘积该联合概率用于计算控制器RNN的梯度梯度由子网络的验证精度缩放以更新控制器RNN，使得控制器为坏的子网络分配低概率，为好的子网络分配高概率。与[72]类似，我们采用了近似策略优化（PPO）[53]，学习率为0.00035。为了鼓励探索，我们还使用了熵惩罚，权重为0.00001。在我们的实现中，基线函数是先前奖励的指数移动平均值，权重为0.95。控制器的权重在-0.1和0.1之间均匀地初始化。出于方便，我们选择使用PPO来训练控制器，尽管先前的工作已经表明其他方法（例如，增强随机搜索和进化策略）可以表现得一样好，甚至稍好[30]。在搜索结束时，我们将来自最佳5个策略的该最终策略具有25个子策略，用于训练每个数据集的模型。上面的搜索算法是我们可以用来找到最佳策略的许多可能的搜索算法之一。可以使用不同的离散搜索算法，例如遗传规划[48]或甚至随机搜索[6]来改进本文中的结果。4. 实验和结果实验总结。在本节中，我们将实证研究AutoAugment在两个用例中的性能： AutoAugment-direct 和AutoAugment- transfer。首先，我们将对AutoAugment进行基准测试，直接搜索高度竞争数据集上的最佳增强策略： CIFAR-10 [28]、CIFAR-100 [28]、SVHN [42]（4.1节）和ImageNet [10]（4.2节）数据集。我们的研究结果表明，直接应用Au- toAugment显著改善了基线模型，并在这些具有挑战性的数据集上产生了最先进的精度。接下来，我们将研究增强策略在数据集之间的可转移性。更具体地说，我们将把在ImageNet上找到的最佳增强策略转移到细粒度的分类数据集，如Oxford 102 Flowers、Caltech-101、Oxford-IIIT Pets 、 FGVC Air- craft 、 Stanford Cars （第 4.3节）。我们的研究结果还表明，增强政策是令人惊讶的转移，并产生显着的改善强基线模型在这些数据集上最后，在第 5 节中，我们将AutoAugment与其他自动化数据增强方法进行比较，并表明AutoAugment明显更好。4.1. CIFAR 10、CIFAR 100、SVHN结果虽然CIFAR-10有50，000个训练示例，但我们在一个较小的数据集上执行搜索，我们称之为“简化的CIFAR-10”，该数据集由4，000个随机选择的我们发现，对于一个固定的训练时间，它是更有用的，允许子模型训练更多的时期，而不是训练较少的时期与更多的训练数据。对于子模型架构，我们使用小型Wide-ResNet-40-2（40层-加宽因子为2）模型[67]，并训练120个epoch。使用小的Wide-ResNet是为了提高计算效率，因为每个子模型都是从头开始训练的，以计算控制器的梯度更新。我们使用10−4的权重衰减，0.01的学习率，以及一个退火周期的余弦学习衰减[36]。在简化的CIFAR- 10上搜索期间找到的策略稍后用于在CIFAR-10、简化的CIFAR-10和CIFAR-100上训练最终模型如上所述，我们将5个最佳策略中的子策略连接起来，以形成具有25个子策略的单个策略，该策略用于CIFAR数据集上的所有基线预处理遵循最先进CIFAR-10模型的惯例：标准化数据，使用50%概率的水平翻转，零填充和随机裁剪，最后使用16 x16像素的Cutout [17，65，48，72]。除标准基线预处理外，还应用AutoAugment策略：在一张图像上，我们首先应用现有基线方法提供的基线增强，然后应用AutoAugment策略，然后应用Cutout。我们没有优化Cutout区域大小，而是使用建议的16像素值[12]。注意，由于Cutout是搜索空间中的操作，因此Cutout可以在同一图像上使用两次：第一次使用学习的区域大小，第二次使用固定的区域大小。在实践中，由于在第一次应用中Cutout操作的概率很小，Cutout通常在给定图像上使用一次。在CIFAR-10上，AutoAugment主要选择基于颜色的转换。例如，CIFAR-10上最常用的变换是均衡、自动对比、颜色和亮度（参见附录中的表1以了解它们的描述）。像ShearX和ShearY这样的几何变换很少在好的策略中找到。此外，转换Invert几乎从不应用于强制策略中。CIFAR-10上的政策包括117在附录中。下面，我们使用在简化的CIFAR-10上找到的策略来描述我们在CI-FAR数据集所有报告的结果均为5次运行的平均值。CIFAR-10结果。在表2中，我们显示了不同神经网络架构上的测试集精度。我们在TensorFlow[1]中实现了Wide-ResNet-28-10[67]，Shake-Shake[17]和ShakeDrop [65]模型，并找到了权重衰减和学习率超参数，这些参数为基线增强的常规训练提供了最佳的验证集准确性。其他超参数与介绍模型[67，17，65]的论文中报道的相同，除了使用Wide-ResNet-28-10的余弦学习衰减。然后，我们使用相同的模型和超参数来评估 AutoAugment 的测试集准确性。对于AmoebaNets ，我们使用与 [48] 中用于基线增强和AutoAugment相同的超参数从表中可以看出，我们使用Shake-Drop [65]模型实现了1.5%的错误率，比最新技术 [48] 好 0.6% 请注意，这一收益远远大于AmoebaNet-B 对 ShakeDrop （+0.2%）和 ShakeDrop 对Shake-Shake（+0.2%）的先前收益。参考文献[68]报告了在 CIFAR-10 上训练的 Wide- ResNet-28-10 模型的1.1%的改进。我们还在最近提出的CIFAR-10测试集上评估了使用AutoAug- ment训练的最佳模型[50]。Recht等人[50]报告称，振动-振动（26 2x 64 d）+剪切在这个新数据集上表现最好，错误率为7.0%（相对于原始CIFAR- 10测试集的错误率高4.1% ）。此外，PyramidNet+ShakeDrop在新数据集上实现了7.7%的错误率（相对于原始测试集高出4.6%）。我们最好的模型，使用AutoAugment训练的Pyramid-Net +ShakeDrop实现了4.4%的错误率（比原始集合的错误率高与在这个新数据集上评估的其他模型相比，我们的模型在准确性上的下降明显较小。CIFAR-100 结果。我们还在 CIFAR- 100 上使用与reduced- CIFAR-10相同的AutoAugment策略训练模型;结果如表2所示。同样，我们在该数据集上实现了最先进的结果，击败了ShakeDrop正则化的12.19%错误率的惊人记录[65]。最后，我们将相同的AutoAugment策略应用于简化的CIFAR-10（与我们用于找到最佳策略的4，000个示例训练集相同）上的训练模型。类似根据半监督学习社区使用的实验惯例[60，40，51，31，44]，我们在4，000个标记样本上进行训练。但我们在训练过程中没有使用46，000个未标记样本。我们的结果示于表2中。我们注意到AutoAugment在准确性上的提高与完整数据集相比，在缩减数据集上更显著。随着训练集大小的增加，我们预计数据增强的效果将降低。然而，在接下来的章节中，我们将展示即使对于像SVHN和ImageNet这样的较大数据集，AutoAugment仍然可以提高泛化精度。SVHN结果我们用SVHN数据集[42]进行了实验，它有73，257个训练示例（也称为“核心训练集”）和531，131个额外的训练示例。测试集有26，032个示例。为了节省搜索时间，我们创建了一个简化的SVHN数据集，其中包含从核心训练集中随机采样的1,000个样本。我们使用AutoAugment来寻找最佳策略。子模型的模型结构和训练过程与上述CIFAR-10实验相同SVHN上选择的策略与CIFAR-10上选择的转换不同。例如，SVHN上最常拾取的变换是反转、旋转、剪切X/Y和旋转。如上所述当然，这是有意义的，因为数字的具体颜色并不像数字及其背景的相对颜色那样重要。此外，几何变换ShearX/Y是SVHN上最流行的两种这也可以通过SVHN中图像的一般特性来理解：房屋号码通常在数据集中自然地被剪切和偏斜，因此通过数据扩充来学习这种变换的不变性是有帮助的。在图2中的SVHN示例中可视化了五个成功的子策略。在搜索结束后，我们将5个最佳策略串联起来，并将它们应用于使用标准增强策略训练已经在SVHN上表现良好的架构。对于完整的训练，我们遵循Wide-ResNet论文[67]中提到的使用核心训练集和额外数据的通过留出训练集的最后7325个样本来构造验证集。我们调整权重衰减和学习率的验证集性能。其他超参数和训练细节与介绍模型的论文中的相同[67，17]。一个例外是，我们只训练了160个epoch（而不是1，800个）的Shake-Shake模型，这是由于完整SVHN数据集的大小很大基线预处理涉及标准化数据和应用20x20像素区域大小的 Cutout ，遵循 [12] 中概述的程序。AutoAugment结果将基线预处理与在SVHN上学习的策略相结合。一个例外是，我们不使用削减削减SVHN，因为它降低了准确性显着。本实验结果总结见表2。从表格中可以看出，我们实现了...118数据集模型基线[第12话]AutoAugmentCIFAR-10Wide-ResNet-28-10 [67]3.93.12.6±0. 1[17]第17届中国国际汽车工业展览会3.63.02.5±0。1[17]第17届中国国际汽车工业展览会2.92.62.0±0。1[17]第17届中国国际汽车工业展览会2.82.61.9±0. 1[48]第48话3.02.11.8±0. 1[65]第六十五话2.72.31 .一、5±0。1还原CIFAR-10Wide-ResNet-28-10 [67]18.816.514.1±0。3[17]第17届中国国际汽车工业展览会17.113.410个。0±0。2CIFAR-100Wide-ResNet-28-10 [67]18.818.417.1±0。3[17]第17届中国国际汽车工业展览会17.116.014.3±0. 2[65]第六十五话14.012.210个。7±0。2SVHNWide-ResNet-28-10 [67]1.51.31.1[17]第17届中国国际汽车工业展览会1.41.21.0还原SVHNWide-ResNet-28-10 [67]13.232.58.2[17]第17届中国国际汽车工业展览会12.324.25.9表2.CIFAR-10、CIFAR-100和SVHN数据集的测试集错误率（%）越低越好。基准模型的所有结果，以及在我们的实验中复制了具有Cutout的基线模型，并与先前报道的结果相匹配[67，17，65，12]。两个例外是Shake-Shake（26 2x112 d），其具有比[17]中最大的模型更多的过滤器-112 vs 96，以及在SVHN上训练的Shake-Shake模型，这些结果以前没有报告。更多详细信息请参见文本。使用这两种模型的最先进的精度。我们还在简化的SVHN上测试了最佳策略（相同的1,000个样本训练集，其中找到了最佳策略精简集上的AutoAugment结果再次与领先的半监督方法相当，其范围从5.42%到3.86% [40]。(see表2）。我们再次看到，AutoAugment对精简数据集的改进比完整数据集更显著4.2. ImageNet结果与上述实验类似，我们使用ImageNet训练集的精简子集，其中包含120个类（随机选择）和6，000个样本，以搜索策略。我们训练子策略来创建ImageNet训练的最终策略。然后，我们使用ResNet-50和ResNet-200模型在完整的ImageNet上从头开始训练270个epoch。我们使用4096的批量大小和1.6的学习率。我们将学习速率衰减10倍，在时间90，180和240。对于基线增强，我们使用标准的Inception风格的预处理，其中包括将像素值缩放到[-1，1]，50%概率的水平翻转以及颜色的随机失真[22，59]。对于使用AutoAugment训练的模型，我们使用基线预处理和在ImageNet上学习的策略我们发现，去除颜色的随机失真不会改变AutoAugment的结果。a Wide-ResNet 40-2使用余弦衰减200个历元。一使用10−5的权重衰减在ImageNet上找到的最佳策略与CIFAR-10上找到的策略相似，侧重于基于颜色的转换。一个区别是，几何变换Rotate通常用于ImageNet策略。一图3中显示了最佳策略。图3. ImageNet上的成功策略之一。如本文所述，ImageNet上的大多数策略都使用了基于颜色的转换。再一次，我们把5个最好的政策组合起来，总共25个模型成立预处理[59]AutoAugment我们ResNet-5076.3/93.177.6/93.8ResNet-20078.5/94.280.0/95.0AmoebaNet-B（6，190）82.2/96.082.8/96.2AmoebaNet-C（6，228）83.1/96.183.5/96.5119表3. ImageNet上的验证集Top-1 / Top-5准确度（%）越高越好。具有基线增强结果的ResNet-50取自[20]。在我们的实验中复制了具有Inception风格预处理的AmoebaNet-B、C结果，并与[48]的错误报告结果相匹配。存在85.4% Top-1错误率的更好结果[37]，但他们的方法使用了大量弱标记的额外数据。参考文献[68]报告了ResNet-50模型的改进1.5%。我们的ImageNet结果如表3所示。如可以从结果中可以看出，AutoAugment在广泛的模型中改进了广泛使用的Inception预处理[59]，从ResNet-50到最先进的AmoebaNets [48]。其次，将AutoAugment应用于AmoebaNet-C将其top-1和top-5准确率从12083.1% / 96.1%至83.5% /96.5%。考虑到最佳增强策略是在5，000张图像上发现的，这种改进是值得注意的。我们希望当更多的计算可用时，结果会更好，以便AutoAug- ment可以使用更多的图像来发现更好的增强策略。83.5% / 96.5%的准确度也是该数据集上最新的最先进的前 1/ 前 5 准确度（不含 multicrop/ensembling）。4.3. 学习增强策略到其他数据集的可转移性在上文中，我们直接应用AutoAugment来查找感兴趣的数据集上的增强策略（AutoAugment-direct）。在许多情况下，AutoAugment的这种应用可能是资源密集型的。在这里，我们试图了解是否可以将增强策略从一个数据集转移到另一个数据集（我们称之为AutoAugment- transfer）。如果这种转移自然发生，资源需求将不会像直接应用AutoAugment那样密集。此外，如果这种转移自然发生，我们也有明确的证据表明AutoAugment不会为了评估在ImageNet上发现的策略的可转移性，我们在五个图像大小与ImageNet相似的FGVC数据集上使用了在ImageNet上学习的相同策略（并用于表3中的结果）这些数据集具有挑战性，因为它们具有相对较小的训练示例集，同时具有大量的类。数据集训练类基线AutoAugment-尺寸转移FGVC数据集显著。据我们所知，我们在斯坦福汽车数据集上的结果是在这个数据集上实现的最低错误率，尽管我们从头开始训练网络权重。之前最先进的方法在ImageNet上微调了预训练的权重，并使用深层聚集来达到5.9%的错误率[66]。5. 讨论在本节中，我们将我们的搜索与以前在自动数据增强方法方面的尝试进行比较。我们还讨论了我们的结果对我们通过几个烧蚀实验所做的一些设计决定的依赖性。自动增强与其他自动数据扩充方法：在许多以前的数据增强方法中，最值得注意的是[47]的工作。在[47]中的设置类似于GAN [18]：生成器学习提出增强策略（图像处理操作序列），以便增强图像可以欺骗识别器。我们的方法与他们的方法的不同之处在于，我们的方法试图直接优化分类精度，而他们的方法只是试图确保增强图像与当前的训练图像相似。为了使比较公平，我们进行了类似于[47]中描述的实验。我们使用第4.1节中的相同策略训练了ResNet-32和ResNet-56，将我们的方法与[47]的结果进行比较。通过使用基线数据增强训练ResNet-32，我们实现了与[47]对ResNet-56（称为Heur）所做的相同的错误。[47]）。因此，我们训练了ResNet-32和ResNet-56。我们证明，对于这两种模型，AutoAugment导致更高的改善（10.3%）。牛津102 2，040 102 6.74.6鲜花[43]方法基线增强改善宠物[14]FGVC 6，667 100飞机[38]斯坦福大学8，144 196 6.45.2汽车[27]表4.测试集FGVC数据集上的Top-1错误率（%），用于从头开始训练的Inception v4模型（使用和不使用AutoAugment-Transfer ）。低利率更好。 AutoAugment- 传输结果使用ImageNet上的策略。基线模型使用Inception预处理。对于表4中列出的所有数据集，我们使用带有一个退火周期的余弦学习率衰减训练了1,000个epoch的Inception v4 [58]。学习率和权重衰减是根据验证集性能选择的。然后，我们将训练集和验证集结合起来，并使用选定的超参数再次训练。图像大小设置为448x448像素。ImageNet上找到的策略提高了所有AutoAugment（ResNet-32）7.74.53.2AutoAugment6.63.63.0（ResNet-56）表5. CIFAR-10测试集错误率（%）与不同的自动数据增强方法。MF和LSTM结果取自[47]，并且它们用于ResNet-56。训练步骤与子策略数量之间的关系：我们的工作的一个重要方面是在训练过程中随机应用的子政策。每个图像仅由每个小批量中可用的许多子策略中的一个来增强，其本身具有进一步的随机性，因为每个变换具有与其相关联的应用的概率。我们发现，这种随机性需要一定数量的时期，每个子策略的AutoAugment是有效的。由于每个子模型都用5个子策略进行训练，因此需要训练80-100多个子策略[15]第十五话3,06010219.413.1LSTM [47]7.76.01.6牛津-IIIT3,6803713.511.0[47]第四十七话7.75.62.1121在模型可以完全受益于所有子策略之前的时期。这就是我们选择训练120个纪元的孩子模型的原因每个子策略都需要应用一定的次数，然后模型才能从中受益。在策略被学习之后，完整模型被训练更长时间（例如，CIFAR-10上的Shake-Shake为1800个epoch，ImageNet上的ResNet-50为270个epoch），这允许我们使用更多的子策略。可跨数据集和架构：值得注意的是，上面描述的策略可以很好地转移到许多模型架构和数据集。例如，在Wide-ResNet-40-2和reduced CIFAR-10上学习的策略导致了在完整CIFAR- 10和CIFAR-100上训练的所有其他模型架构上描述的改进。类似地，在Wide-ResNet-40-2和Reduced ImageNet上学习的策略导致在具有不同数据和类分布的 FGVC 数据集上训练的Inception v4上的显著AutoAugment策略不会损害模型的性能，即使它们是在不同的数据集上学习的，这不是削减SVHN的情况（表2）。我们在附录中提出了ImageNet和SVHN的最佳策略，希望能帮助研究人员提高相关图像分类任务的泛化精度。尽管观察到的可移植性，我们发现，在最接近目标的数据分布上学习的策略产生了最好的性能：当在SVHN 上训练时，与基线增强相比，使用在简化CIFAR-10上学习的最佳策略确实略微提高了泛化精度，但不如应用SVHN学习的策略显著。5.1. 消融实验更改子策略的数量：我们的假设是，当我们增加子策略的数量时，神经网络在相同的点上进行训练，具有更大的增强多样性，这应该会增加泛化精度。为了验证这一假设，我们研究了在CIFAR-10上完全训练的Wide-ResNet- 28-10模型的平均验证准确度，作为训练中使用的子策略数量的函数。我们从500个良好的子策略池中随机选择子策略集，并使用这些子策略集中的每一个训练Wide-ResNet-28-10模型200个epoch。对于每个集合大小，我们对子策略进行了五次不同的采样，以获得更好的统计数据。该模型的训练细节与上述在CIFAR-10上训练的Wide-ResNet-28-10相同。图4示出了作为训练中使用的子策略的数量的函数的平均验证集准确度，证实了验证准确度随着多达约20个子策略的更多子策略而提高。在增强策略中随机化概率和幅度：我们在以下情况下采用AutoAugment策略：图4.在CIFAR-10上训练的Wide-ResNet- 28-10的验证误差（5次运行的平均值）是在AutoAugment训练中使用的随机选择的子策略（从500个良好子策略池中条形表示每个数字的验证误差范围CIFAR-10并随机化其中每个操作的概率和幅度我们使用与之前相同的训练程序训练 Wide-ResNet-28-10[67]，针对随机化概率和幅度的20个我们发现平均误差为 3.0% （标准偏差为 0.1% ），比使用原始AutoAugment策略获得的结果差0.4%（见表2）。随机策略的性能：接下来，我们随机化整个策略，操作以及概率和幅度。平均超过20次运行，该实验产生的平均准确度为3.1%（标准偏差为0.1%），这比仅随机化概率和幅度略差。最佳随机策略实现的误差为3.0%（当平均超过5次独立运行时）。这表明，即使是自动升级与随机抽样的政策，导致明显的改善。消融实验表明，即使是从我们的搜索空间随机采样的数据增强策略也可以导致CIFAR-10在基线增强策略上的改进。然而，随机策略所表现出的改进小于那些AutoAugment策略（2. 6%±0. 1% vs. 3. 0%±0. 1%的错误率）。此外，在AutoAugment政策似乎很重要，因为当这些参数随机化时，政策的有效性会大大降低。我们再次强调，我们训练我们的控制器使用RL出于方便，增强随机搜索和进化策略也可以使用。本文的主要贡献是在我们的方法，数据增强和在建设的搜索空间;而不是离散优化方法。6. 致谢我们感谢Alok Aggarwal、Gabriel Bender、YanpingHuang 、 Pieter-Jan Kindermans 、 Simon Kornblith 、Augus Odena、 Avital Oliver 、Colin Raffel 和JonathanShlens进行了有益的讨论。122引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devi

下载后可阅读完整内容，剩余1页未读，立即下载