DivAug：插件自动数据增强与显式多样性最大化

168 浏览量更新于2023-10-14 收藏 843KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4762DivAug：具有显式多样性最大化的插件自动数据增强刘子瑞*1，金海峰*2，王廷祥* 2，周凯雄 *1，胡霞*1德克萨斯A M大学{zl105，kz34，xia.hu} @ rice.edu{jin，thwang1231} @ tamu.edu摘要在过去的两年中，人类设计的数据增强策略已经被自动学习的增强策略所取代。具体而言，最近的工作已经实证地表明，自动数据增强方法的优异性能源于增加增强数据的多样性[4，5]。然而，关于增强数据的多样性的两个因素仍然缺失：1)多样性的明确定义（以及由此的测量），以及2）多样性与其正则化效应之间的可量化关系。为了弥补这一差距，我们提出了一个多样性的措施，称为方差多样性和理论上表明，正则化效果的数据增强的方差多样性的承诺。我们在实验中验证，测试准确性中的自动数据增强的相对增益一个无监督的基于采样的框架，Di- vAug，被设计为直接最大化方差多样性，从而加强正则化效果。由于不需要单独的搜索过程，DivAug的性能增益与最先进的方法相当，具有更好的效率。此外，在半监督设置下，我们的框架可以进一步提高半监督学习算法的性能相比，RandAugment，使其高度适用于现实世界的问题，标记的数据是稀缺的。该代码可在 https://github.com/warai-0toko/ DivAug获得。1. 介绍数据增强是一种利用受控扰动从现有数据创建合成数据的技术例如，在图像识别的上下文中，数据增强指的是应用图像操作，裁剪和翻转-*前两位作者对本文的贡献相同ping来输入图像以生成增强图像，增强图像具有与其原始图像相同的标签。在实践中，数据增强已被广泛用于改善深度学习模型中的泛化，并且被认为鼓励模型对数据扰动不敏感[19，14，16]。虽然数据增强在实践中效果良好，但设计数据增强策略需要人类专业知识，并且为一个数据集定制的策略通常对另一个数据集效果不佳。最近的努力已经被指定为自动化的设计增强策略。已经表明，具有学习数据增强策略的训练模型可以显着提高测试准确性[20，28，5，15，13]。然而，我们还没有一个很好的理论来解释数据增强如何提高模型泛化。目前，最著名的假设是数据增强通过施加正则化效应来改善泛化：它将模型正则化，以在原始数据附近给出一致的输出，其中原始数据的附近被定义为在应用不显著改变图像特征的操作之后包含所有增强数据的空间[27，6，23]。同时，以前的自动数据增强工作声称，应用学习的增强策略的性能增益然而，索赔中的“多样性”仍然是一个挥手的概念：它通过在训练期间使用的不同子策略的数量来评估，或者从人的角度来视觉评估。在没有正式定义多样性及其与正则化的关系的情况下，只能通过评估在增强数据上训练的模型来间接评估增强策略，这可能需要花费数千个GPU小时[4]。它促使我们探索使用显式多样性度量来量化增强数据对模型的正则化效果的可能性因此，通过这种方式，我们可以直接最大化增强数据的多样性，以加强正则化效果，提高模型的泛化能力。4763图1：DivAug框架概述。在扩展阶段，小批量中的每个数据由多个随机生成的子策略来扩充。注意，还获得了这些增强数据的概率向量。在选择阶段，使用k-均值++种子算法对概率向量彼此远离的增强数据的子集进行子采样然后，采样数据用于训练模型。为了弥补这一差距，本文提出了一种新的多样性度量，称为方差多样性，量化的多样性增强数据。我们表明，regularization-灰数据增强的效果是由方差多样性承诺。我们的测量是由最近的理论结果激发的，即在应用增强数据来训练模型之后，损失隐含地包含与概率向量的方差成比例的数据驱动的正则化项，其中概率向量是用增强数据训练的模型的输出[6]。具体地说，我们通过一组增广数据对应的概率向量的方差来度量它们的多样性。基于该措施，我们提出了一个插件式自动数据增强框架DivAug，它可以插入标准的训练过程，而不需要一个单独的搜索过程。如图1所示，该框架具有两个阶段：扩展阶段和选择阶段，在扩展阶段中，我们为每个原始输入数据随机地生成几个增强数据，在选择阶段中，我们对增强数据的子集进行子采样，并将它们馈送到训练模型。具体地，在选择阶段，对于每个图像，我们通过应用k-均值++种子算法[1]对具有高多样性的增强图像的子集进行子采样，其中以高概率对伴随有远离原始数据的概率向量的概率向量的增强数据进行采样。在数学推导之后，正则化效果随着增强数据的多样性而增加因此，更强的正则化效应可以导致更好的模型泛化，这在改进的模型性能方面被观察到。我们的主要贡献可概括如下：• 我们提出了一种新的措施，量化的多样性增强数据。我们在实验中验证了应用数据增强后模型准确性的相对增益与我们的模型高度相关。建议的措施。• 基于所提出的措施，我们设计了一个基于抽样的框架，以显式地最大化多样性。在不需要单独的搜索过程的情况下，来自DivAug的性能增益与具有更好效率的现有技术方法相当• 我们的方法是无监督的，可以插入标准的训练过程。我们表明，我们的方法可以进一步提高半监督学习算法的性能，使其高度适用于现实世界的问题，标记数据是稀缺的。2. 相关工作最近，已经提出了AutoAugment（AA）[4]来自动地从数据集中搜索增强策略具体来说，AutoAugment利用递归神经网络（RNN）作为控制器，在小代理任务（较小的模型大小和数据集大小）上的单独搜索过程中找到最佳策略一旦搜索过程结束，学习到的策略被转移到目标任务，并在整个训练过程中固定。这些学习增强策略显著提高了深度模型的泛化能力[4]。然而，它的搜索时间是巨大的：在他们称为 “ 简化CIFAR-10”的较小数据集上搜索最佳策略大约花费5，000个GPU小时，该数据集由4，000个随机选择的图像组成。以下大多数工作采用AutoAugment搜索空间和具有改进的优化算法的公式[28，20，15，13]。基于人口的扩增（PBA）[15]用随着训练过程而演变的动态策略时间表取代固定策略。Fast AutoAugment（Fast AA）[20]提出了一种4764·∈ O联系我们O◦··表1：自动数据扩充总结。方法非固定的，没有单独的搜索过程，没有代理，没有监督任务AA [4]✗ ✗ ✗ ✗快速AA [20]联系我们PBA [15]✓✗ ✗ ✗高级AA [28]✓ ✓RA [5]✓ ✓ ✓DivAug（本文）✓ ✓ ✓将增强数据视为训练集中的缺失点。RandAugment（RA）[5]通过随机应用增强子策略消除了单独的搜索过程，这与我们的工作最相似。对抗性自动增强（高级）AA）[28]通过利用RNN控制器来学习可以生成具有更高损失的增强数据的策略，实现了最先进的结果。如表1所示，我们概述了自动化数据增强方法的一般分类非固定：增强策略随训练过程动态变化;没有单独的搜索过程：方法不需要单独的搜索过程;无监督：方法不需要标签信息来找到最佳策略;并且没有代理任务：方法直接在目标任务上执行搜索。3. 方法在本节中，我们将介绍DivAug的设计和首先，我们在第3.1节中描述我们的搜索空间。然后，我们在数学上证明，在使用增强数据后，训练损失隐含地包含一个数据驱动的正则化项，该项与概率向量的方差成比例（第3.2节）。随后，我们提出了一组增广数据的多样性测量的方差，其相应的概率向量。基于该度量，我们推导出一种基于采样的自动数据增强方法，以显式地最大化增强数据的多样性（第3.3节）。3.1. 搜索空间我们采用AutoAugment [4]中引入的精心设计的搜索空间的基本结构在我们的搜索空间中总共有16种图像操作，包括锐度、剪切X/Y、平移X/Y、旋转、自动对比度、反转、均衡、曝光、色调分离、颜色、亮度、剪切[8]、样本配对[17]和对比度。令=锐度、对比度为所有可用操作的集合。每次操作操作有两个参数：p，应用该操作的概率;以及m，操作的幅度。为了避免在符号中产生混淆，我们使用op（;m）来表示由op指定的具有幅度m的图像变换。给定图像x，运算op（x;p，m）被定义为：op（x;m），概率为p。x，概率为1-p。每个操作都有一个最大范围的magni- tudes，以避免极端的图像变换。例如，旋转操作仅允许将图像旋转最多 30 度。每个操作的最大幅度范围设置为与AutoAugment中报告的幅度范围相同。同时，我们将幅度参数m归一化到[0，1]内，其中1代表最大可接受幅度。图2中示出了用于说明操作的一个示例。通常，先前的自动化数据增强方法搜索顶部增强策略，其是五个子策略的集合，其中每个子策略由要依次应用于原始图像的两个操作组成。设t是由两个连续操作组成的子策略。即t（x）= op2（op1（x;p1，m1）;p2，m2）。为为了描述方便，我们将符号简化为t：=op2op1。给定搜索空间，先前的自动化数据增强方法在单独的搜索过程中探索和一旦搜索过程结束，收集前五个策略以形成单个最终策略，其是包含25个不同子策略的集合最终的策略在整个培训过程中是固定的对于小批量中的每个图像，将仅随机选择一个子策略来应用[4]。图2：Rotate（; 0. 七，一。0），其中1.0是操作的归一化幅度。请注意Rotate（; 0. 七，一。0）表示以0.7的概率将图像旋转30度。然而，固定策略可能是次优的，这是由于.op（x;p，m）=4765我我|我我K| 我i=1|i=1我∈∈我1简体中文|S||以下两个因素。首先，不存在在整个训练过程中普遍优于所有其他子策略例如，可以在训练结束时减少泛化误差的子策略在初始阶段不一定是好的子策略[11]。其次，增强数据的选择（因此多样性）受到唯一子策略的固定集合的限制。根据上述分析，我们设计的搜索空间类似于AutoAugment的搜索空间，但有两个不同之处。首先，受Fast AutoAugment [20]的启发，为了引入更多的随机性，我们将概率p和幅度m放松为具有值的连续参数因此，我们可以围绕点ψi展开等式⑴：Li≈l（ψi，yi）+EtT[p（y|xt）−ψi，l′（ψi，yi）>]。（二）等式（2）中的第二项可以通过选取ψi=EtTp（yxt）来消除，即，ψi是xi附近所有样本的平均概率向量。如果我们通过考虑二阶项，在点ψi=EtTp（yxt）周围进一步扩展方程（1），我们有：L≈l（ψ，y）+E[∆l′ ′（ψ，y）∆].（三）范围 [0，1]。第二，我们搜索空间的最终策略是我我我2tTi我我我定义为包含所有可能的子策略的通用集合相比之下，最终的政策在其他工作∆i：=p（y|xt）−ψi是概率向量p（y）之间的差|xt）参考扩充数据xt，空间被设置为25个唯一子策略的固定集合我们注意到RandAugment [5] 在类似于我们的搜索空间RandAugment中的主要区别是1）幅度参数m是固定的离散整数值， 2 ）概率参数 p固定为 1 。这意味着RandAugment始终对原始数据*应用操作。3.2. 数据扩充根据文献[6]的理论分析，我们推导出了数据增广的正则化效应。我们首先介绍表征学习的背景和符号。考虑一个参数为θ的神经网络fθ（x）。fθ将输入x映射成一个输出维数为D的向量表示fθ（x）∈RD 我们的目标是最小化损失函数l：RD×R→R和平均概率向量ψi。等式（3）中的第二项是所谓的“数据驱动正则化项”，其确切地是概率向量p（y xt）的方差，由l ′ ′（ψ i，y i）加权。这意味着使用增强数据通过隐式控制模型输出的方差来施加正则化效应3.3. DivAug框架为了建立增广数据的多样性与其正则化效果之间的关系，我们提出了一种新的多样性度量，称为方差多样性，用于增广数据的正则化效果可以量化。在此基础上，我们推导出一个基于采样的框架，显式地最大化的方差多样性的增强数据。3.3.1增广数据在数据集{（x i，y i）}N上，其中yi ∈{1，· · ·D}。让p（yx）=Softmax（fθ （x））是概率向量r，其中Softmax函数用于将f θ（x）归一化为概率分布。我们将损失函数表示为首先，我们提出了一个新的多样性措施的增广数据，其正则化效果可以量化。最小化为L=ΣNLi，其中Li=l（p∈（y|xi），yi）。我们表示l相对于第一个自变量的梯度作为l′RD. 类似地，我们用l′′RD×D表示l关于第一个阵元的Hessian矩阵.我们使用t来表示子策略，T是所有可用子策略的集合。xi是通过将t应用于xi而获得的xi附近的增广数据。我们使用表示内积。对于一个集合，我们用表示它的基数。利用这些符号，在应用数据增强之后，新的损失函数变为：Li=EtT[l（p（y|x（t），y（t）]。（一）假设数据增强不显著地修改特征图。使用一阶泰勒近似-*虽然RA总是应用操作，但RA可以保持原始图像不变，因为其搜索空间包含身份操作。图3：说明增强数据之间的多样性的示例。DivAug显式地寻找其对应的概率向量在决策空间中彼此远离的增强数据。根据等式（3），在增强数据上训练模型之后，可以分解4766·◦·O {···}∼∼j=1我我我 j=1NS我|−∈S|TJ联系我们|S|算法1：DivAug输入：输入图像x;模型fθ;所有可能的操作=锐度、对比度参数：每个输入图像的增强图像的数量E;用于训练的每个输入图像的所选择的增强图像的数量S输出：S：=输入图像X的S个增强图像的集合1，对于j= 1，···，Edo2随机均匀采样操作op1，op2O3p1Uniform（0，1）;p2Uniform（0，1）4m1Uniform（0，1）;m2Uniform（0，1）5获得子策略t j：= op1（;p1，m1） op2（;p2，m2）6生成xtj=t（x）7计算p（y|xtj）=Softmax（fθ（xtj））端89生成大小为S的一组增强图像S，其是{x，j，j= 1，···，E}的随机子集，使用k-均值++种子算法|Xtj）：j=l，···，E}10返回S损失函数。从上面，我们量化了一组增广数据的差异，通过其相应的概率向量的方差。形式上，给定一个模型因此，它是很难的模型，以不同的增广数据给出一致的预测。这迫使模型在原始数据附近进行泛化。fθ，对于一组增广数据S={xtj}S，其中xtj是通过应用不同的子策略tj从相同的原始数据x生成，我们将S的多样性定义为：D（S）=Extj∈ S∆∆。（四）p（y|xtj）：=Softmax（fθ（xtj））是对应于xtj的概率向量，且∆=p（yxtj）EXTJp（yxtj）. 如果使用交叉熵作为损失函数，则Hes矩阵l′′（ψ i，y i）是对角矩阵，其中对角线上的元素全部为零，除了对应于真实标签的元素。这意味着，在超3.3.2DivAug的设计根据方差多样性的定义和等式（3），方差多样性的增加直接加强了增广数据的正则化效果。基于这种见解，我们的DivAug框架生成一组不同的增强数据，并最大限度地减少损失。具体来说，DivAug由两个阶段组成：扩展阶段和选择阶段。在扩展阶段，对于每个原始数据xi，我们首先随机生成一组tj子策略{tj}E，其中{x}E是八月的集合ved设置，仅关联概率的方差j=1不i j=1会受到惩罚。我们可以通过将等式（3）中的l′′（ψi，yi）设置为单位矩阵来将这种惩罚效应扩展到无监督域。这样，方程式(3)惩罚与任何类别相关联的概率的方差我们注意到，这本质上是一致性正则化，这是半监督学习和自监督学习中的关键技术之一，它增强了一致性。鼓励模型产生相似的概率向量对应于t j的分段数据x j。第二阶段是选择阶段，我们对增强数据的子集进行子采样我XE在哪i=< SE。然后，我们将选定的增强数据馈送到模型。我们的Di-vAug框架如图1所示形式上，使用3.2节和3.3.1节中介绍的符号，给定f θ，我们最小化以下目标：N当输入数据受到噪声干扰时[24，2]。更多-minθ角1Σ[1i=1Σl（p|x（t），y（t）]，（5）xt∈Si公式（3）中的正则化项。根据等式（4），我们将我们的多样性度量命名为“方差多样性”。我们注意到，这是非监督的模型特定的测量，其仅取决于模型预测而不涉及任何标签信息。直观地，如图3所示，如果一组增广数据具有大的方差多样性，这意味着它们的对应概率向量彼此远离。如果将等式（3）中的l′′（ψi，yi）设为单位矩阵，则增广数据的多样性恰好是数据驱动的4767STJE我我J我我Jixj∈SiS. t. Si= ar gmaxExtj∈S∆i∆i。（六）Si{xi}j=1，|SI|=S其中∆i=p（y|xt）−Etp（y|xt）。从等式(6)，我们的目标是选择增广数据i的子集，其对应的概率向量具有最大方差。不幸的是，得到方程（6）的解4768S造成了显著的计算障碍。代替计算最优解，我们使用k-均值++种子算法[1]有效地对i进行采样，该算法最初用于为k-均值聚类生成良好的初始化。k-均值++播种通过迭代地采样点来选择质心，采样点与它们离已经选择的最近质心的平方距离成比例。这里，我们定义一对概率向量之间的距离为它们的欧氏距离。因此，k-均值++对增强数据的子集进行采样，其中它们的概率向量彼此远离，这实际上导致大的方差多样性。关于更多细节，k-均值++种子算法在附录A中的算法2中示出。我们在算法1中示出了DivAug的算法，并且重新标记该操作是随机生成的。算法1中有两个超参数。即，每个输入图像的增强图像的数量E和用于训练S的每个输入图像的所选增强图像的数量。此外，两个超参数S和E不需要在代理任务上被调整，并且可以根据可用的计算资源来选择。与 RandAugment 类似，DivAug是一种基于采样的方法，不需要单独的搜索过程。注意，算法 1 中不涉及标签信息，这意味着DivAug适合于半监督学习和监督学习。4. 实验我们的实验旨在回答以下研究问题：• RQ1.第一个问题方差多样性对模型泛化有什么影响？• RQ2。与其他自动数据增强方法相比，建议的DivAug在监督设置下的有效性如何• RQ3.第三题DivAug如何提高半监督学习算法的性能？4.1. 实验设置下面，我们首先介绍数据集和它们的默认增强方法。然后，我们将介绍Divaug的超参数设置（算法1中的S和E和基线方法进行比较。我们采用四个基准数据集来评估我们提出的方法：CIFAR-10、CIFAR-100、SVHN和ImageNet。这四个数据集基于[4]中提供的方式和代码进行处理。附录总结了这四个数据集的基本统计数据及其默认数据增量对于DivAug，我们在第4.2节和第4.3节中设置E= 8和S= 4，不包括ImageNet实验。对于ImageNet，我们设置E= 4并且由于资源有限，S= 2。对于半监督学习实验，我们设置E= 4和S= 2。我们没有调整这两个超参数，我们主要根据可用的GPU内存来选择它们。比较方法如下：我们将算法 1 与 AutoAugment（ AA ） [4] 、 Fast Au-toAugment （ Fast AA ） [20] 、Population Based Augmenta- tion （ PBA ） [15] 、RandAugment （ RA ） [5] 和 Adversarial AutoAugment（Adv. AA）[28]。对于每幅图像，依次应用由不同方法提出的增强策略和4.2. 方差多样性与泛化的相关性为了回答RQ1，我们计算由AA、快速AA、RA、第4.1节中介绍的缺陷增强和DivAug生成的增强数据的方差多样性。然后，我们报告的测试精度的模型训练的增强数据产生的不同方法。由于方差多样性是一种无监督的模型特定度量，为了公平比较，我们首先在 CIFAR-10 上训练 Wide-ResNet-40-2模型，而不应用任何数据增强方法。然后，我们将其用作公式（4）中的fθ，以评估所有不同的自动数据增强方法。为了验证生成和方差多样性之间的相关性，我们计算增强数据的方差多样性，如下所示：对于训练集中的每个图像，使用自动增强方法来随机生成四个增强图像。然后，我们根据等式（4）计算这四个图像的方差多样性我们在图4中报告了整个训练集的平均方差多样性。图4：性能增益与方差多样性呈正相关。一般来说，几乎所有的点都位于对角线附近，并且测试精度的相对增益随着方差多样性的增加而增加。图4表明性能增益和变异多样性呈正相关（详细的测试交流）。†我们不包括Adv. AA因为官方代码没有发布。对于PBA，官方代码是基于Ray的，很难迁移我们的代码库来进行公平的比较。4769精确度在表2的第一行中示出）。如图所示，所有自动数据增强方法都可以提高增强数据的方差多样性，而不是默认增强。具体地，AA和快速AA具有小的方差多样性。这是有意义的，因为它们都试图最小化增强数据从原始分布的分布偏移例如，Fast AA将增强数据视为训练集中的缺失点。因此，对于CIFAR-10，AA和Fast AA提出的所有报告的子策略都不包含反直觉操作SamplePair[4，20]，这限制了由它们生成的增强数据的方差多样性。相比之下，DivAug具有最大的方差多样性，因为它试图显式地最大化增强数据的方差多样性。请注意，与AA和快速AA相比，RA具有更大的方差多样性。这可能是RA随机采样操作的结果。因此，RA比AA和Fast AA采样更多不同的子策略在这里，我们注意到，虽然RA具有更大的方差多样性相比，AA和快速AA，模型我们在附录D中提供了详细分析。我们还在附录C图6中呈现了一个简单的案例研究，其中DivAug如图6所示，方差多样性和一般化通常是相关的。4.3. 监督环境下DivAug的有效性自动数据扩充的主要目的是进一步提高模型的泛化能力。为了回答RQ2，我们将我们提出的方法与监督学习设置下的几个基线进行了4.3.1CIFAR-10和CIFAR-100的实验在[4，20，5]之后，我们使用以下模型评估我们提出的方法：Wide-ResNet-28-10、Wide-ResNet-40-2 [26]、Shake-Shake（26 2x96d）[9]和Pyra-midNet +ShakeDrop[25，12]。超参数的详细信息见附录表5。CIFAR-10结果：在表2中，我们报告了这些模型的测试精度。对于所有这些模型，我们提出的方法可以实现更好的性能相比，以前的方法。我们达到0。7%、0. 8%、0. 7%、0. 与AA、Fast AA、PBA和RA相比，Wide-ResNet-28-10分别提高了8%。总体而言，DivAug显著改善了基线性能，同时实现了与Adv.相当的性能。AA.k-均值++的效果：为了检查k-均值++在DivAug中的效果，我们比较了Wide-ResNet-28-10与DivAug的性能以及与附录C表6中的随机基线的性能。这里的随机基线从E个候选中随机挑选S个增强图像进行训练。此外，幅度m和概率p也是随机选取的。如表6所示，DivAug 显著优于随机基线。此外，为了理解 k-means++的效果以及Di-vAug如何提高RA的测试精度，我们进一步可视化了DivAug使用Wide-ResNet-40-2在CIFAR-10上选择的子策略在训练过程中的分布。如图5所示，我们观察到从采样的子策略中挑选的一些操作的百分比，例如 TranslateY 、 ShearY 、Posterize和SampleParing，随着训练过程逐渐增加。相反，一些基于颜色的操作，如 Invert 、Brightness、AutoContrast和Color，随着训练过程逐渐减少。这种行为与在整个训练过程中不存在击败所有其他操作的操作的发现一致[15，28]。此外，在所选择的子策略中应用操作的平均概率这意味着DivAug倾向于在训练过程中温和地将增强图像的分布从原始图像中转移出来从上面，它表明DivAug选择的子策略在整个训练过程中不断演变图5：所选子策略的分布随着培训过程而演变。（a）DivAug选择的子策略的统计数据。(b)在DivAug选择的子策略中应用操作的平均概率。培训效率分析：估计DivAug明显快于Adv. AA，原因如下。根据[23]中的时间成本度量，我们估计推理成本（参见算法1第7行）等于训练成本的一半。在E=8和S= 4的设置下，DivAug额外生成四倍的增强数据用于训练。相反，Adv. AA需要生成8倍以上的增强数据，以获得表2中报告的结果。此外，它还需要一个单独的阶段来寻找最佳策略。虽然搜索时间为Adv.[28]中未报告AA。估计费用汇总于表3。CIFAR-100结果：如表2所示，DivAug一般实现了优于所有其他算法的4770表2：CIFAR-10和CIFAR-100的测试准确度（%）对于ImageNet，我们报告了验证准确率（%）。我们将我们的方法与默认数据增强（基线）、AA、快速AA、PBA、RA和Adv. AA.我们的结果是四次试验的平均值，除了ImageNet。数据集模型基线AA快速AAPBARAAdv. AADivAugCIFAR-10Wide-ResNet-40-2Wide-ResNet-28-10Shake-Shake（262x96d）PyramidNet+ShakeDrop94.796.197.197.396.397.498.098.596.497.398.098.3-97.498.098.596.197.398.098.5-98.198.198.696.9±.198.1±.198.1±.198.5±.1CIFAR-100Wide-ResNet-40-2Wide-ResNet-28-10振摇（26 2x 96 d）74.081.282.979.382.985.779.482.785.1-83.384.7-83.3--84.585.981.3±.384.2±.285.3±.2SVHNWide-ResNet-28-1096.998.1--98.3-98.3±.3ImageNetResNet-5076.377.677.6-77.679.478.0表3：DivAug和Adv. CIFAR-10相对于RA的AA。Adv.AA的培训成本引自[28]。RA Adv. AA DivAug培训（×）1.0 8.0 +搜索成本4.5方法，不包括Adv. AA.然而，我们注意到Di- vAug不需要标签信息或单独的搜索过程。此外，DivAug明显快于Adv.AA.4.3.2ImageNet实验在[4，20，5]之后，我们选择ResNet-50 [14]来评估我们提出的方法。超参数的详细信息如附录表5所示。如表2所示，DivAug优于除Adv. AA.我们注意到，由于资源有限，这两个超级-这个先决条件限制了它们在SSL中的应用。相比之下这就引出了以下问题：SSL能否从我们提出的DivAug（RQ3）中受益？为了回答这个问题，遵循UDA，我们将扰动源从RA改为DivAug（详细的超参数在附录中示出）。在这里，我们报告了四次随机试验的平均结果如表4所示，DivAug可以在不同设置下进一步提高UDA的性能。此外，当可用的标记数据较少时，性能差距会变大。这可能是因为，当标记数据有限时，多样性带来的正则化效应在模型性能中起着更大的作用。表4：CIFAR-10与1000、2000和4000标记数据的错误率（%）比较。架构为Wide-ResNet-28-2。为了公平比较，我们使用相同的代码库复制了UDA（RA）* 的算法1中的参数被设置为E= 4和S= 2，因此分别为。DivAug的性能增益预计将通过更大的E和S进一步提高。方法1000CIFAR-102000 40004.4. DivAug在半监督环境半监督学习中的关键技术之一[3]SSL是一致性正则化，当输入数据受到噪声干扰时，它鼓励模型产生相似的概率向量。已经证明，由最先进的自动化方法产生的增强数据可以作为一致性正则化框架下的优越噪声源[24，22]。具体而言，UDA [24]利用RA作为扰动源，并实现了非平凡的性能增益。此外，理论上已经表明，UDA的成功源于RA生成的增强数据的多样性[24]。然而，大多数自动化数据增强方法需要标签信息来搜索最佳策略。因此，在本发明中，UDA（RA）* 7.37±0.15 6.50±0.14 5.44±0.15UDA（DivAug）6.94±0.126.26±0.155.40±0.125. 结论在这项工作中，我们提出了一个新的多样性措施称为方差多样性调查的正则化效果的数据增强。我们在实验中验证，从自动数据增强的性能增益是高度相关的方差多样性。基于这种方法，我们推导出DivAug框架，以显式地最大化训练过程中的方差多样性。我们证明了我们提出的方法具有实现更好的性能，而不需要在一个单独的阶段搜索顶部的政策，cies的实际效用。因此，DivAug可以使监督任务和半监督任务都受益4771引用[1] 大卫·亚瑟和谢尔盖·瓦西里茨基。k-意味着++小心播种的优点在Proceedings of the eighteenth annual ACM-SIAMsymposium on Discrete algorithms，pages 1027[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。在神经信息处理系统的进展中，第5049-5059页[3] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on Neural Net-works，20（3）：542[4] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。arXiv预印本arXiv：1805.09501，2018。[5] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动数据扩充，减少搜索空间。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中，第702-703页[6] Tri Dao ， Albert Gu ， Alexander J Ratner ， VirginiaSmith，ChristopherDeSa和ChristopherRe'。现代数据扩充的核心理论Proceedings of Machine Learning Research，97：1528，2019。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[8] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。[9] 泽维尔· 加斯塔尔迪Shake-shake 正则化arXiv预印本arXiv：1705.07485，2017。[10] Aditya Sharad Golatkar，Alessandro Achille，and StefanoSoatto.时间对于深度网络的正规化很重要：权重衰减和数据增强影响早期学习动态，在收敛附近影响不大。神经信息处理系统进展，第10678-10688页，2019年[11] Raphael Gontijo-Lopes ， Sylvia J Smullin ， Ekin DCubuk，and Ethan Dyer. 亲和力和多样性：量化-数据增强的机制。 arXiv 预印本 arXiv ： 2002.08973 ，2020。[12] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，第5927-5935页[13] Ryuichiro Hataya ， Jan Zdenek ， Kazuki Yoshizoe 和Hideki Nakayama。更快的自动增强：使用反向传播学习增强策略。arXiv预印本arXiv：1911.06987，2019。[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Daniel Ho，Eric Liang，Xi Chen，Ion Stoica，and PieterAbbeel.基于人群的扩增：增强策略调度的高效学习。在International Conference on Machine Learning中，第2731PMLR，2019年。[16] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页[17] 井上浩图像分类中样本配对的数据扩充arXiv预印本arXiv：1801.02929，2018。[18] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[19] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[20] Sungbin Lim、Ildoo Kim、Taesup Kim、Chiheon Kim和Sungwoong Kim。快速自动扩增。神经信息处理系统进展，第6665-6675页，2019年[21] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBis-sacco，Bo Wu，and Andrew Y Ng.使用无监督特征学习读取自然图像中的数字。2011年。[22] Kihyuk Sohn，David Berthelot，Chun-Liang Li，ZizhaoZhang ， Nicholas Carlini ， Ekin D Cubuk ， AlexKurakin，Han Zhang，and Colin Raffel.Fixmatch：用一致性和信心简化半监督学习。arXiv预印本arXiv：2001.07685，2020。[23] Sen Wu ， Hongyang R Zhang ， Gregory Valiant ， andChristopherR e´.线性变换在数据扩充中的推广效果arXiv预印本arXiv：2005.00695，2020。[24] Qizhe Xie ， Zihang Dai ， Eduard Hovy ， Minh-ThangLuong，and Quoc V Le.用于一致性训练的无监督数据增强arXiv预印本arXiv：1904.12

下载后可阅读完整内容，剩余1页未读，立即下载