最先进的数据增强方法：TrivialAugment

154 浏览量更新于2023-10-13 收藏 559KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

774TrivialAugment：无需调整但最先进的数据增强塞缪尔·G 弗莱堡缪勒大学muellesa@cs.uni-freiburg.de弗莱堡大学&德国博世人工智能中心fh@cs.uni-freiburg.de摘要自动增强方法最近已成为视觉任务中强大模型性能的关键支柱。虽然现有的自动增强方法需要权衡简单性，成本和性能，但我们提出了一个最简单的基线，TrivialAugment，它几乎是免费的。TrivialAugment是无参数的，并且仅对每个图像应用单个增强。因此，TrivialAugment的有效性对我们来说是非常出乎意料的，我们进行了非常彻底的实验来研究其性能。首先，我们比较Triv- ialAugment到以前的国家的最先进的方法在各种图像分类的情况下。然后，我们使用不同的增强空间、增强方法和设置进行多次消融研究，以了解其性能的关键要求。此外，我们提供了一个简单的界面，以促进自动增强方法的广泛采用，以及我们的完整代码库的再现性1。由于我们的工作揭示了自动增强研究的许多部分中的停滞状态，因此我们以自动增强方法未来持续进展的最佳实践的简短建议结束方法搜索开销CIFAR-10摇一摇CIFAR-100WRNSVHNWRNImageNetResNetAARA快速AA40-800×4-80×1×98.098.098.082.983.382.798.999.098.877.677.677.6TA（我们的）0×98.284.398.978.1表1：TrivialAugment与先前的增强方法相比非常有利。在该表中，我们总结了表2中的一些结果，并给出了增强搜索开销估计。1. 介绍数据增强是一种非常流行的方法，通过生成额外的数据来提高机器学习模型的泛化能力。它应用于许多领域，例如机器翻译[4]，对象检测[6]或半监督学习[20]。在这项工作中，我们专注于数据增强图像分类的应用[3，12]。用于图像分类的图像增强基于数据集中的图像生成新的图像，这些图像可能仍然属于相同的分类类别。通过这种方式，数据集可以基于增强带来的偏差而增长虽然数据扩充可以显著提高性能，但它们确实需要域输入图像试样强度示例增强并应用它知识具有可能的类保持行为的增强的示例是将图像旋转一些小度数。图像自动增强方法是一组自动设计增强策略它们已被证明可以在任务中显着提高模型性能[2，23，20]。图1：TA的可视化。对于每个图像，TA（均匀地）对增强强度和增强进行采样。然后将该增强应用于具有采样强度的图像。近年来，自动增强方法尤其在图像分类中蓬勃发展[2，13，14，9]，其中许多不同的方法可以在八月期间学习策略1. https://github.com/automl/trivialaugment775{}A一一心理状态组合。该领域的承诺是学习对特定模型和数据集强大的自定义增强策略虽然自动发现的增强策略的应用是便宜的，但是对它的搜索可能比训练本身昂贵得多。在这项工作中，我们挑战的信念，即目前的自动增强方法所产生的增强政策，实际上是特别适合的模型和数据集。我们通过引入一个微不足道的基线方法，执行比较昂贵的增强方法，而无需学习每个任务的特定增强策略。我们的方法甚至没有以任何方式组合我们称之为平凡扩充（TA）。本文的贡献有三个方面：• 我们分析的最低要求，良好的自动增强方法和pro-pose TrivialAugment（TA），一个平凡的增强基线，构成国家的最先进的性能，在大多数设置。同时，TA是迄今为止最实用的自动增强方法。• 我们全面分析了TA和其他多种自动增强方法在许多设置中的性能，使用统一的开源代码库来比较苹果。• 我们对自动增强方法的实际使用提出建议，并收集自动增强研究的最佳此外，我们还提供了便于应用和进一步研究的代码.2. 相关工作近年来已经提出了许多具有多种不同设置的自动增强方法。尽管如此，我们考虑的所有自动增强方法都具有一个属性：他们工作的增广空间，包括i）一组预先指定的增广和ii）一组可能的强度设置与增广可以被称为（在这项工作中0，。. .，30）。例如，一个成员可以是上述旋转操作，其中强度将对应于度数。自动增强方法现在学习如何在训练数据上一起使用这些增强，以产生性能良好的最终分类器。在本节中，我们提供了一个全面的概述，以前的方法。由于自动增强方法的计算要求可以支配训练成本，因此我们按每种方法的总成本对这种重新计数进行我们从第一种自动增强方法AutoAugment（AA）[1]开始，它也是最昂贵的，花费了超过半年的GPU计算才能在CIFAR-10上生成一个分类器。AA使用递归神经网络（RNN），其用强化学习方法训练，以预测增强策略的参数化。奖励针对在具有预测策略的特定数据集上训练的特定模型AA利用多个子策略，每个子策略由多个增强组成，这些增强依次应用于输入图像。另外，以指定的概率省略扩增。这允许一个子策略表示增强的多个组合。由于AA是昂贵的，它不使用手头的任务进行增强搜索，而是使用减少的数据集和更小的模型变量。第二个最昂贵的方法是自动增强的增强共享（AWS）[19]。它建立在与AA相同的优化过程上，但使用更简单的搜索空间。搜索空间由一起应用的成对增强的分布组成。与AA不同，AWS只学习最后几个训练时期的增强策略。它使用一个小模型在完整的数据集上执行此操作。一种非常不同的方法，称为基于人口的增强（PBA）[9]，是在训练过程中在线学习增强策略。PBA通过使用多个工作者来实现这一点，每个工作者使用不同的策略，并以进化的方式进行更新。它使用另一个策略参数：其中每个增广具有附加强度和遗漏概率的增广向量。从该向量扩增被随机地均匀采样，并且根据遗漏概率以给定强度应用或被遗漏。另一种基于多个并行工作者的方法是用于自动增强的在线超参数学习（OHL）[14]。这里，策略的定义与AWS类似，其参数使用强化学习进行训练与AWS的主要区别在于，它的奖励是在像PBA这样的训练之后对保留数据的准确性，而不是最终的准确性。作为在并行运行中调整神经网络权重的附加方式，具有最大准确度的工作者的权重用于在训练的下一部分中初始化所有工作者。对抗性自动增强（高级）AA）[22]是另一种稍微便宜的方法，它使用多个工人并在线学习增强策略。不过，它只训练一个模型。在这里，一个批次被复制到八个不同的工作者，每个工作者对其应用自己的策略，类似于Hoffer等人的工作。[10]第10段。在每个时期开始时从策略分布中对工作者策略进行采样。策略分布具有与AA的形式类似的形式在每个时期之后，Adv.AA进行基于强化学习的更新，并奖励产生最低准确度训练准确度的策略，使得策略分布在训练过程中逐渐向更强的增强转变。776联系我们×联系我们一一--|一|最近，Cubuket al.RandAugment（RA）[2]。与以前的方法相比，它简单得多，但只稍微便宜一点。RA仅为每个任务调整两个标量参数：（i）单个增强强度m0，. . .，30，其被应用于所有增强，以及(ii) 要为每个图像组合的增强数量n1，2，3。因此，RA将来自RNN（对于AA）的所有权重或超过一千个增强组合（对于AWS和OHL）的分布的超参数的数量减少到仅两个。与预期相反，这种激进的简化与许多其他方法相比不会损害作者指出，强大的性能可能是由于n和m是针对手头的确切任务而调整的，而不是像AA中那样针对修剪的数据集RA的最大缺点是，它最终会对n和m的一组选项执行穷举搜索，在单个训练2中产生高达80的开销。Fast AutoAugment（Fast AA）[13]是学习方法中最便宜的。它基于AA，但不直接搜索具有强验证性能的策略。相反，它通过为在原始、非增强图像的分割上训练的网络找到性能良好的推理增强策略来搜索增强策略。然后将在不同分裂上发现的所有推理增强结合起来以建立训练时间增强策略。这背后的直觉可以总结如下：如果在真实数据上训练的神经网络推广到用某种策略增强的示例，则该策略产生位于类的域中的图像，如神经网络所近似的。因此，扩充是类保持的并且是有用的。这一目标与Adv.AA. 快速AA尝试找到应用于验证数据时产生高准确度的增强，而高级AA尝试找到应用于验证数据时产生高准确度的增强。AA试图找到在应用于训练数据时产生低准确度的增强最后，在一份未发表的arXiv论文中，Jesuset al.[15]最近提出了UniformAugment（UA），它的工作原理几乎与RA相似。与RA不同，它将增强的数量固定为N=2，并以固定的概率0丢弃每个增强。五、此外，对于每个应用的操作，强度m与上述所有方法相比，我们提出了TrivialAugment（TA），一种增强算法，它像UA一样是无参数的，但更简单。同时，TA比任何相对便宜的增强策略都表现得更好，使其成为迄今为止最实用的自动增强方法。与上面讨论的所有工作不同，AugMix [8]旨在通过在应用链中组合多个增强，混合其输出并应用consis来提高模型的稳健性。图2：具有由决策边界（虚线）分隔的两个类（十字和圆圈）的2-D数据集的示例性可视化。彩色十字表示十字类的确定性增强TA现在从所有杂交中均匀取样。几个增强图像的清晰度损失我们评估AugMix的唯一指标也是ResNet- 50在ImageNet测试集上的性能。在这里，TA超过了AugMix。3. 平凡的增强在本节中，我们提出了我们可以提出的仍然表现良好的最简单的增强算法：TrivialAugment（TA）. TA采用与以前的工作[2，15]相同的增强风格：增强被定义为将图像x和离散强度参数m映射到增强图像的函数a。强度参数并不是所有的增强都使用，但大多数使用它来定义如何强烈地扭曲图像。TA工作如下。它取一个图像x和一个集合作为输入。然后，它简单地从均匀随机地采样增强，并将该增强应用于具有强度m的给定图像X，从可能强度的集合0、. . .、30，并返回增强图像。我们将这个非常简单且无参数的过程概述为算法1中的伪代码，并在图1 中将其可视化。我们强调 TA 不是 RandAugment（RA）的特殊情况，因为RA对所有图像使用固定的优化强度，而TA对每个图像重新采样该强度。虽然先前的方法使用多个后续增强，但是TA仅将单个增强应用于每个图像。这允许将TA增强的数据集的分布视为由应用于完整数据集的每个增强生成在图2中，我们将这个概念可视化为没有强度参数的确定性增强。Un-2.在最初的设置中，作者还使用了不同的n和m来搜索每个任务。对于新任务或对任务的直觉较弱的情况下，这可能很难做到。777--一±±算法1TrivialAugment程序1：程序TA（x：图像）2：从以下项中对扩增a进行采样3：从0，. . . 、304：返回a（x，m）5：结束程序与以前的工作一样，我们不从扩充方法的随机组合中产生复杂的分布，而是简单地表示应用于给定数据集的扩充的数据分布。4. 实验在本节中，我们通过经验证明了TA的惊人的强大性能，以及其在许多消融设置中的行为。在所有非消融实验中，我们使用RA增强空间（RA），即来自RA论文[2]的增广集及其强度参数化，或TA的宽增广空间（Wide）。我们在表8的附录中列出了所有增广空间的增广及其参数。如果没有特别说明的话，我们每个实验做十次。除了平均运行外，我们还报告了置信区间，在正态分布精度假设下，该置信区间将包含真实平均值，概率p=95%。在我们的代码中，我们提供了一个函数来计算这个间隔。位于每个任务的最佳执行者的置信区间内的结果以粗体字体排版。我们在五个不同的数据集上评估我们的方法。i）CIFAR-10和CIFAR-100 [11]是用于图像分类的标准数据集，每个数据集包含50 K个训练图像。我们训练了Wide-ResNets [21]以及ShakeShake模型[5]。我们遵循以前的工作[1，2]与我们的设置。ii）SVHN [17]由门牌号的图像组成。它提供了73K训练图像的核心集，但提供了额外的531K简单图像作为数据集的扩展我们在Wide-ResNet-28-10上进行了有和没有额外图像的实验。iii）最后，我们在ImageNet上进行了实验，ImageNet是一个非常大的图像分类语料库，拥有1000个类和超过120万张图像。这个实验特别有趣，因为之前已经证明，有一些增强，比如剪切，不能很好地推广到ImageNet。我们在[1]的设置之后训练ResNet- 50 [7]。由于集群限制，我们使用预热和32个工作线程，这比[1]少。我们适当地调整学习率。更多详情请参见附录A。4.1. 与最新技术水平的公平地比较自动增强方法是不平凡的。因此，我们比较我们的方法与以前的国家的最先进的在三个不同的设置。在第4.1.1节中，我们遵循了以前的大部分工作[1，2，9，13，15]，并与使用相同模型和训练管道的其他方法进行了比较这种设置允许不同方法的不同搜索成本，并比较具有相同推理和训练成本的方法在第4.1.2节中，我们以与上述类似的方式进行比较，但与代码库中其他方法的复制进行这避免了混淆因素，确保方法而不是设置细节解释了结果之间的差异。我们在代码库中复制了总共四个其他方法，包括之前最便宜的三个方法。在第4.1.3节中，我们比较了每种方法的总成本，包括搜索和模型训练，以及最终的准确性。这种比较的好处是，它可以更公平地考虑使用不同的管道和模型。4.1.1与已发表结果的在表2中，我们将TA与使用AutoAugment [1]的设置或在超参数，时期和模型数量方面非常相似的设置的所有方法进行了比较。TA在几乎所有任务中的表现都与以前的方法一样好或更好。SVHN数据集是唯一的例外，RA表现稍好。然而，这可能是由于我们的训练管道，因为，如我们在第4.1.2 节中所示，我们无法用我们的管道再现SVHN核心的RA性能，并且原始训练管道不可用。对于ImageNet，TA在前1和前5的准确度方面都优于所有其他方法。我们像RA [2]一样使用244的图像宽度，但即使使用224的较低宽度（如用于AA [1]），TA也优于以前的最佳方法（具有77.97.21 top-1准确度和93.98.07 top-5准确度;表中未列出）。在这个比较中，我们不能与所有以前的方法进行比较，因为有些方法使用不同的设置。我们不得不忽略的最著名的设置是Adv. AA.因此，我们进行了一组额外的实验，严格遵循其设置与其他方法相比，Adv.AA使用八倍的计算用于其最终训练，因此与其他方法相比具有显著的优势。AA是基于批量增强[10]，其中数据并行设置中的一组工作者各自计算关于同一批示例的梯度，但对其中的图像应用不同的增强。我们为TA重新创建了此设置，包括所有超参数和批量扩增。在表3中，我们比较了TA和Adv.对于CIFAR-10和CIFAR-100两者，具有Wide-ResNet-28-10和ShakeShake-26- 2x 96 d的AA我们表明，TA的平凡的统一形式的采样一个单一的增强实现了相同的性能，因为他们的复杂（和不可用）加强-学习管道。778±默认PBA快速AAAARAUATA（宽）CIFAR-10Wide-ResNet-40-2Wide-ResNet-28-10ShakeShake-26-2x96d PyramidNet96.16±.0897.03±.0797.54±.0797.95±.05-97.498.098.596.497.398.098.596.397.498.098.3-97.398.098.596.2597.3398.1098.596.32±.0597.46±.0698.21±.0698.58±.04CIFAR-100Wide-ResNet-40-2Wide-ResNet-28-10ShakeShake-26-2x96d78.42±.3182.22±.2583.28±.14-83.384.779.482.785.479.382.985.7-83.3-79.0182.8285.0079.86±.1984.33±.1786.19±.15SVHN核心Wide-ResNet-28-1097.12±.05--98.098.3-98.11±.03SVHNWide-ResNet-28-1098.67±.0298.998.898.999.0-98.9±.02ImageNetResNet-5077.20±.32（93.43±.11）-77.6（93.7）77.6（93.8）77.6（93.8）77.63（-）78.07±.27（93.92±.09）表2：十次运行的平均测试准确率，除了ImageNet，我们使用了五次运行。95%置信区间用标注。平凡的TA在所有基准测试中都是表现最好的唯一的例外是与RA在SVHN基准测试中的性能比较，但在我们在4.1.2中的重新实现中，这种差异是不存在Adv. AATA（宽）CIFAR-10Wide-ResNet-28-10ShakeShake-26-2x96d98.10±.1598.15±.1298.04±.0698.12±.12CIFAR-100Wide-ResNet-28-10ShakeShake-26-2x96d84.51±.1885.90±.1584.62±.1486.02±.13表3：TA与Adv. Wide-ResNet-28-10上的增强批次设置中的AA。我们报告五次运行的平均值。我们从本节中得出结论，对于几乎所有考虑过的跨数据集、模型甚至应用增强的基准测试，TA都是性能最好的方法之一4.1.2固定训练设置虽然在前一节中，我们试图通过比较非常相似的设置获得的结果来减轻混淆因素，但在本节中，我们更进一步。我们重现四种方法的结果，并比较我们的基线方法与这些复制品，以产生一个真正的苹果到苹果的比较。由于我们提出了一个非常便宜和简单的增强方法，我们选择了RA，快速AA和UA作为我们比较的其他便宜和简单的增强方法。此外，我们将其与AA进行比较，作为重要的共同基线。此外，对于所有这些方法，发表了用于再现的相关信息3。对于RA、AA和Fast AA，我们使用已发布的策略，而不是从头开始搜索增强策略我们基于我们的RA和AA的实现在一个公共的代码库4由作者的RA和AA，实现AA的CIFAR数据集。同样，对于Fast AA，我们的实现基于公共代码库。没有针对UA公布代码，并且在论文中缺少多个超参数;在这些情况下，我们使用来自RA的超参数。对于我们的UA再现，我们还采用了与其他方法相同的将增强强度离散为31个值的方法。除了原来的增强空间的UA，我们还进行实验与RA增强空间。我们对CIFAR-10、CIFAR-100和SVHN核心重新进行实验，并在表4中呈现结果。对于每种方法，我们运行了原始工作中包含的基准测试。一般来说，我们可以复制大多数结果，甚至改进发表的结果。唯一严重的例外是RA，我们尝试了多次设置更改，但无法达到其发布的评分在该评估中，TA（Wide）在具有Wide-Resnet-28-10的每个基准的所有方法中表现最好，并且TA（RA）在两个Wide-Resnet-40-2基准中表现最好。除了复制已发布的政策外，我们还将RandAugment应用于CIFAR上的Wide-ResNet-40-23. 不同方法4. https://github.com/tensorflow/models/tree/fd34f711f319d8c6fe85110d9df6e1784cc5a6ca/research/autoaugment779联系我们联系我们10，最初未在RA文件中考虑。因此，我们必须首先寻求一项政策。取决于该任务，Cubuket al. [2]考虑增强强度M1，. . .，30和连续扩增的数目N1，. . .、3.为了避免错过最佳候选并且不需要人类直觉，我们搜索RA参数的所有 90 个结果组合。我们像原始的RandAugment方法一样分割了10000个示例的验证集来评估设置。我们选择了最好的设置，并与TA进行了比较。表5清楚地示出了TA比昂贵的RA设置执行得更好，即使RA设置总共需要91次完整训练，与TA的单次训练相比。最后，我们在附录中考虑另外三个评价：（i）我们表明，TA在相同的增强空间上与其他自动增强方法（见附录B）表现得相当或更好，（ii）我们表明TA推广到更特殊的数据集（见附录C）和(iii) 我们用EfficientNet架构[18]展示了TA的有效性（见附录D）。WRN-28-10 CIFAR-10 CIFAR-100 AA 97.31±.22（-.09）82.91±.41（+.01）FAA97.43±.09（+.13）83.27±.13（+.57）RA 97.12±.14（-.18）83.1±.32（-.20）UA（UA）97.46±.14（+.13）83.08±.27（+.26）UA（RA）97.44±.09 83.36±.18TA（RA）97.46±.09 83.54±.12TA（宽）97.46±.0684.33±.17（一）WRN-40-2 CIFAR-10 CIFAR-100 AA 96.38±.10（+.08） 79.66±.17（+.36）FAA 96.39±.06（-.01）79.79±.21（+.39）UA（UA）96.42±.04（+.17）79.74±.15（+.73）UA（RA）96.45±.0679.95±.20TA（RA）96.62±.0979.99±.16TA（宽）96.32±.0579.86±.19（b）第（1）款WRN-28-10 SVHN核心AA97.99±.06（-.01）RA 98.06±.04（-.24）TA（RA）98.05±.02TA（宽）98.11±.03（c）第（1）款表4：先前工作结果的再现，其中Wide-ResNet-28-10在CIFAR（a）和SVHN Core（c）上，Wide-ResNet-40-2在CIFAR（b）上。我们在括号中报告方法Brute-Force RATA（RA）Acc.96.42±.0996.62±.09表5：使用Wide-ResNet-40-2在CIFAR-10上运行十次的平均值。TA比RA的参数上的80倍更昂贵的穷举搜索执行得更好。4.1.3按总计算成本进行在前面的章节中，我们比较了固定训练设置的不同增强方法我们现在考虑另一个极端，通过计算需求来比较跨模型和设置的所有方法。在图3中，我们绘制了文献中许多CIFAR- 100设置的比较。这个情节回答的问题是：给定一定的计算预算，我们应该选择什么方法来获得最佳的最终精度？对于该图，我们使用了文献中公布的准确度数字，并以RTX 2080 Ti GPU小时为单位估计了计算成本。有关用于计算所有设置的计算成本近似值的详细信息，请我们必须将我们考虑的模型集限制为我们从实验中知道它们运行起来有多昂贵的模型集，即所有Wide-ResNet设置和ShakeShake-26- 2x 96 d。我们试图在其他方法的计算要求方面尽可能保守，以免给TA带来不公平的优势。在该图中，对于所有考虑的预算，TA及其变化-868482807810 100 1，000GPU小时数图3：CIFAR- 100上的最终测试准确度与RTX 2080 tiGPU计算小时数的比较，用于增强搜索和一组模型的最终模型训练。标记为x8的方法使用批量扩增[10]。AARAUATA（RA）TA（宽）快速AAAWSAWSx8准确度780−表6：用一组7个不同的增强空间对SVHN 核心和CIFAR-10 的 TA 的评估注意， RA=AA-{SamplePairing ， Invert ， Cutout } 并且 UA = AA-{ SamplePairing，Invert，Cutout}。九十六。75九十六。5九十六。2596九十五754 8 10 11 12 13 14增强次数AA− {样本配对}。蚂蚁与增强批处理（TA × 8）执行最好的方法之一。对于所有计算预算，与流行的廉价方法Fast AA和RA相比，TA也具有明显的优势;最后，它比AA便宜得多。4.2. 了解TA的最低要求虽然到目前为止，我们已经证明，在许多情况下，TA的方法，每个图像只使用一个单一的增强是足够的，或产生更好的性能比更复杂的方法，在本节中，我们将剖析TA的其他属性。我们首先分析TA的行为如何跨越文献中的增广空间。然后，我们看看它的性能后，我们应用随机变化，其增强空间。最后，我们考虑从TA样本的不同增强强度的集合。4.2.1具有不同手动选择的增强空间的TA对于该评价，我们仔细地重新实现了AA、UA和OHL的增强空间，以及RA的增强空间。此外，我们考虑更大的增强空间（全），这是AA的超集，并且还包含模糊，平滑，水平和垂直翻转。特别是垂直翻转对于很多分类任务可能是无用的有关增强空间的概述，请参见附录中的表8。表6确实示出了对于SVHN核心和CIFAR- 10两者上的Wide-ResNet-28-10，TA在全增强空间上的表现比在所有其他增强空间上更差我们还纳入了先前文献中未考虑的另一个增强空间：AA增强空间的变体，其中我们去除了极端反转操作，其将每个像素x映射到255x。我们可以看到，这种增强空间对于CIFAR-10表现得非常好，但对SVHN核心来说不是很好。这与早期工作的观察结果一致，表明倒置图4：WRN-40-2模型的性能取决于CIFAR-10上RA增强样本子集的大小我们对每个子集大小进行了10次评价增强促进了SVHN上的泛化，而不是其他数据集[1]。OHL增广空间的一个特点是它只使用三个强度，不像所有其他方法考虑31个强度。有趣的是，这是无害的，并且OHL为SVHN核心产生最好的分数我们可以看到，TA的性能在增强空间之间相当稳定，但似乎仍然有改进的空间，可以通过更复杂的方法来选择TA的增强空间，这取决于TA的性能。任务4.2.2随机剪枝增广空间中TA的行为虽然我们评估了上面不同手工制作的增强空间的性能，但现在我们想分析如果我们仅使用RA增强空间中的14个增强的随机子集（除非另有说明，否则我们在其他实验中使用），性能将受到如何影响。在图4中，我们分析了CIFAR-10上Wide-ResNet- 40-2的多个增强子集大小的性能及其我们对每个样本量进行了10次评估，其中在每次评估中，我们挑选了增强的随机样本。虽然性能随着考虑的增强越来越少而下降，但我们可以看到它下降得非常缓慢。我们可以丢弃14个增强中的4个，并且仍然获得接近原始性能的性能另一个趋势是，随着增量的减少，方差增加。这可能是由于每次运行的子集选择的随机性，其对于较小的子集增加。4.2.3优势集对TA绩效的影响之前，我们主要考虑不同增强集的影响;现在我们考虑增强空间的另一个组成部分：力量的集合。增强空间已满AASVHN核心CIFAR-1097.63±.06AA -{反转}97.24±.0398.04±.02RA宽UAOHL97.97±.0898.05±.0297.55±.0697.47±.1198.11±.0397.46±.0998.06±.0497.46±.0698.10±.0297.42±.0797.45±.05准确度781------优势{30}{0， 30}{0， 15，30}{0，. . . ，30}CIFAR-10 CIFAR-100 SVHN核心97.45±.05 82.98±.2298.16±.0397.51±.0883.46±.10 98.02±.0297.46±.0683.43±.24 98.04±.0397.46±.0983.54±.12 98.05±.02表7：使用不同强度子集的Wide-ResNet-28-10对不同数据集在表7中，我们分析了具有Wide-ResNet-28-10和原始可能强度集合的不同子集的TA的性能。. .，30在RA增强空间上。我们可以看到，CIFAR-10设置似乎对优势集相对不可知。另一方面，CIFAR-100上的性能受到选择子集30的非常不利的影响。一般来说，性能改善，证明CIFAR-100与更大的集。对于SVHN核心，情况正好相反：性能提高时，只考虑30。其原因可能是大多数增强是基于颜色的，并且急剧地改变单色背景和单色号码的颜色，在大多数情况下仍然产生有效的门牌号。我们的另一个观察结果是，与所有31个增强强度相比，我们是否减少到三个或两个增强强度这似乎表明了混合强有力的和弱增强。同时，与31相比，三种不同的强度似乎足以用于这些设置。5. 实际应用中的自动增强方法虽然存在许多昂贵或难以再现的自动增强方法，但重要的是增强方法是实用的：自动增强方法的影响在新的设置和问题的应用中展现。我们评估了许多不同的设置和增强方法，我们希望传递所获得的知识。首先，我们在附录F中编写了一个关于应用增强方法的简短总结第二，除了完整的代码库，我们还提供一个简单的单文件python库，实现了更实用的增强方法：RA、UA和TA。它甚至允许从本工作中考虑的所有增强空间中进行选择。例如，为了得到TA的图像增强器并变换PIL图像img，可以调用126. 研究最佳实践提案我们发现很难重新实现许多已发布的方法，请参见附录中的表12。我们还发现，许多方法执行类似于简单的在这里，我们汇编了一个简短的要点列表，列出了我们认为对该领域的可持续研究很重要的最佳实践。• 尽可能多地共享代码，以方便初学者的输入，并确保设置在论文中相似否则，实际实现与其在论文中的描述之间的差异可能会损害再现性。• 与具有相同设置的其他方法和基线进行公平比较，训练预算和增强空间，或在您的设置中重现以前方法的结果并提及差异。• 报告置信区间以区分7. 限制虽然我们无法找到TA针对图像分类失败的设置，但是我们发现TA对于对象检测设置不开箱即用，并且还需要调整以用于该任务。到目前为止，我们只能全心全意地推荐使用TA进行图像分类;它在其他计算机视觉任务中的应用需要进一步研究。8. 结论被认为是自动增强方法的大多数方法是复杂的。在这项工作中，我们提出了TA，一个非常简单的增强算法，从中我们可以学到三个主要的东西。首先，TA告诉我们自动增强方法的关键基线缺失。第二，TA教导我们永远不要忽视最简单的解决方案。有很多复杂的方法来自动找到增强策略，但最简单的方法迄今为止被忽视，即使它表现得相当或更好。第三，选择优势的随机性对于良好的表现似乎非常重要。确认我们要感谢Ildoo Kim的开源代码库，我们的分叉来自于他的开源代码库，以及评论家们富有洞察力的评论。我们感谢Robert Bosch GmbH和欧洲研究理事会（ERC）在欧盟地平线2020研究和创新计划下通过批准号七十六七二一。augmented_img = aug（img）782引用[1] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集，第113-123页[2] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页[3] 作者声明：Dr.Taylor.改进卷积神经网络的正则化与剪切，2017。[4] Marzieh Fadaee、Arianna Bisazza和Christof Monz。低资源神经机器翻译的数据增强。在计算语言学协会第55届年会的会议记录（第2卷：Short Papers），第567-573页，2017。[5] 泽维尔·加斯塔尔迪2017年摇一摇正规化[6] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。检测r on。https：//github.com/facebookresearch/detectron，2018年。[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[8] 作者：Dan Hendrycks，Norman Mu，Ekin D. Cubuk，Barret Zoph，Justin Gilmer和Balaji Lakshminarayanan。AugMix：一种简单的数据处理方法，用于提高鲁棒性和不确定性。2020年国际学习表征会议（ICLR）[9] Daniel Ho，Eric Liang，Xi Chen，Ion Stoica，and PieterAbbeel.基于人群的扩增：增强策略调度的高效学习。在International Conference on Machine Learning中，第2731PMLR，2019年。[10] Elad Hoffer，Tal Ben-Nun，Itay Hubara，Niv Giladi，Torsten Hoefler，and Daniel Soudry.扩充批处理：通过实例重复提高泛化能力IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[11] Alex Krizhevsky等人从微小的图像中学习多层特征。2009年[12] A.克里热夫斯基岛Sutskever和G.辛顿使用深度卷积神经网络进行ImageNet分类。在P.巴特利特，F.佩雷拉角，巴西 - 地伯吉斯湖 Bottou 和 K. Weinberger ，编辑，Proceedings of the 26 th International Conference onAdvancesinNeuralInformationProcessingSystems（NeurIPS[13] Sungbin Lim、Ildoo Kim、Taesup Kim、Chiheon Kim和Sungwoong Kim。快速自动扩增。In H. Wallach，H.Larochelle、A. B e ygelzime r、F. d'Alch e´-Buc、黑腹拟杆菌E. Fox和R. Garnett，编辑，神经信息处理系统进展，第 32卷，第 6665-6675 页 Curran Associates ， Inc.2019年。[14] Chen Lin，Minghao Guo，Chuming Li，Xin Yuan，WeiWu，Junjie Yan，Dahua Lin，and Wanli Ouyang.用于自动增强策略的在线超参数学习。在IEEE/CVF计算机视觉国际会议（ICCV），2019年10月。[15] Tom ChingLingChen ， AvaKhonsari ， AmirrezaLashkari，Mina Rafi Nazari，Jaspreet Singh Sambee，and Mario A.纳希门托均匀度：2020年，一种免搜索的概率数据增强方法。[16] I. Loshchilov和F.哈特Sgdr：随机梯度下降与热重启。在2017年国际学习表征会议（ICLR '17）的会议记录中[17] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBis- sacco，Bo Wu，and Andrew Y. Ng.使用无监督特征学习读取自然图像中的数字在NIPS Work-shop on DeepLearning and Unsupervised Feature Learning 2011 ，2011。[18] Mingxing Tan and Quoc Le.效率网：重新思考卷积神经网络的模型缩放。国际机器学习，第6105PMLR，2019年。[19] Keyu Tian

下载后可阅读完整内容，剩余1页未读，立即下载