自适应数据转换：提高深度神经网络泛化性能的有效方法

43 浏览量更新于2023-10-12 收藏 13.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

29980AdaTransform：自适应数据转换0Zhiqiang Tang罗格斯大学0zhiqiang.tang@rutgers.edu0Xi Peng 特拉华大学0xipeng@udel.edu0Tingfeng Li罗格斯大学0tingfeng.li1@rutgers.edu0Yizhe Zhu罗格斯大学0yizhe.zhu@rutgers.edu0Dimitris Metaxas罗格斯大学0dnm@cs.rutgers.edu0摘要0数据扩增被广泛用于训练深度神经网络以增加数据的变化。然而，以前的方法要么需要全面的领域知识，要么计算成本很高。我们能否在有限的领域知识下自动且高效地学习数据转换？此外，我们能否利用数据转换来改善网络训练和网络测试？在这项工作中，我们提出了自适应数据转换来实现这两个目标。AdaTransform可以增加训练中的数据变化并减少测试中的数据变化。不同任务上的实验证明它可以提高泛化性能。01. 引言0从数据的角度来看，深度学习的显著成功受益于优化数百万个自由参数[10,11]以捕捉广泛的数据变化的能力。然而，在实践中，由于数据稀缺和注释成本的原因，往往无法获得足够多样的数据。数据扩增技术，即在不改变类别标签的情况下扰动数据，被广泛用于解决这个问题。一般来说，数据扩增可以从预定义的分布中进行采样，也可以由可学习的代理生成。前者被称为随机扩增[5,8]，通常依赖于手工规则而没有优化，导致训练不足。后者被称为自动或对抗扩增[19, 27,16]，也存在各种限制。自动扩增[19]在验证集上探索一个巨大的解空间，以获得最优解，这非常耗时。网络训练必须重复15,000次才能得到最终策略。另一方面，对抗扩增采用贪婪设计来加速学习。然而，目前的设计[27,16]依赖于全面的领域知识来规定扩增的方式和范围。0这必然导致转换空间受限。此外，以前的方法主要关注网络训练，忽视了在测试中应用数据转换的潜力。这引发了以下研究问题：1）我们能否更高效地学习数据转换？2）我们能否在没有全面领域知识的情况下探索转换空间（类型和范围）？3）数据转换是否还可以帮助改善网络部署？在本文中，我们通过提出AdaTransform：自适应数据转换来回答这些问题。我们结合强化学习和对抗训练来组合元转换（离散转换操作）。这使我们能够在有限的领域知识下高效地探索大量的转换空间。具体而言，我们在两个方向上学习数据转换：在训练阶段，AdaTransform执行一个竞争任务来增加数据的变化，减少过拟合；在测试阶段，AdaTransform执行一个合作任务来减少数据的变化，提高部署效果。这两个任务通过优化三元组来学习：一个转换器，一个判别器和一个目标网络，如图1所示。总之，我们的主要贡献是：0•根据我们的了解，我们是第一个研究自适应数据转换以改善网络训练和测试的人。0•我们提出同时通过联合优化三元组在线来学习竞争性任务（用于训练）和合作性任务（用于测试）。0•AdaTransform可以自动高效地探索数据转换空间，为广泛应用提供了高度灵活和多功能的解决方案。0•在图像分类、人体姿势估计和人脸对齐等广泛实验中，AdaTransform的性能表现良好，尤其是在存在测试扰动的情况下。29990奖励/惩罚0增加方差0奖励/惩罚0训练0输入0N: 目标网络 T:变换器 D: 判别器0减小方差输入0竞争性任务合作性任务0训练0D0T0N0D0T0N0图1：自适应数据转换的概述。它包括两个任务：竞争性训练和合作性测试，以及三个组件：变换器T，判别器D和目标网络N。T通过与D和N竞争来增加训练数据的方差。它还与N合作在测试中减少数据的方差。02. 相关工作0我们简要概述了数据转换、对抗学习、强化学习、困难样本挖掘、人体姿势估计和人脸对齐等相关工作的类别。数据转换。常用的数据增强方法是使用数据转换来增加训练数据[10, 8]。最近，提出了对抗性数据增强[27,16]。但它们严重依赖于人类知识，只能处理有限的转换。一些工作[4,19]尝试自动学习数据增强策略。然而，它们要么存在严重的效率问题[4]，要么策略学习与目标网络训练相互隔离[19]。高计算成本是由于优化验证准确性所致。与目标网络缺乏联合优化阻止了它根据单个图像和目标网络状态动态增加数据方差。其他方法[21,2]学习将数据转换从大型数据集转移到少样本示例中。上述方法仅用于增加训练数据，但不能减少测试数据的方差。空间变换网络（STN）[12]旨在减少数据的空间方差。然而，它只能处理可微分的空间变换，严重限制了其应用。此外，它仅用于减少方差，而不能增加训练数据的方差。对抗学习。生成对抗网络（GANs）[9]包括两个网络：生成器和判别器，它们相互竞争以提高生成性能。GANs广泛用于图像生成[9,37]和翻译[36]。在这里，我们使用变换器来转换输入图像。它与判别器竞争，使转换后的图像仍然逼真但与原始图像不同。强化学习。在强化学习中，代理采取行动，然后接收反馈0来自环境的奖励或惩罚。代理通过采取适当的行动来最大化奖励。强化学习已经与深度学习结合使用来玩围棋游戏[23]、搜索神经网络架构[17]等。在本文中，我们使用它来学习变换器处理数据转换。0困难样本挖掘。困难样本挖掘通常在优化模型和更新训练数据之间交替进行。一旦模型在当前训练集上优化，就会用它来收集更多的困难数据进行进一步训练。这种方法在训练用于目标检测的SVM模型时被使用[26]。最近，Shrivastava等人[22]将其改编为基于神经网络的目标检测器。困难样本挖掘侧重于从现有数据中选择困难样本，而自适应数据转换则主动地转换数据以增加或减少它们的方差。0人体姿势估计。随着深度神经网络（DNN）的最新进展，基于图像的人体姿势估计在过去几年取得了显著进展[25,24, 3]。DeepPose[25]是使用DNN进行人体姿势估计的最早尝试之一。最近，诸如卷积姿势机器[28]和堆叠沙漏[15]等多阶段人体姿势预测方法变得流行起来。预测结果可以逐步改进。我们不是设计一个新的姿势估计器，而是通过增加训练数据的变异性和减少测试数据的变异性来改善姿势估计性能。0面部对齐。同样，DNN在面部对齐领域有着重大影响。传统方法如[29]很容易被基于DNN的方法如[34,14]超越。在最近的Menpo面部标记定位挑战赛[31]中，堆叠沙漏[15]达到了最先进的性能。给定一个现成的面部对齐DNN，自适应数据转换可以用来提高其性能。Swirl -0.1 Rotate 3 Shear 0.1 Hue -0.1 Zoom 0.9 Color 1.25 …(1)minθTE(x,y)∼ΩEτ∼T (x,1) [L(N(τ(x)), y)].(2)maxθDEx∼ΩEτ∼T (x) [log(1−D(τ(x)))]+ Ex′∼Ω [log(D(x′))].minθNE(x,y)∼ΩEτ∼T (x) [L(N(τ(x)), y) + L(N(x), y)], (4)30000T0元转换分布0采样0原始输入0转换后的0学习0操作0图2：增量转换。转换器根据输入输出元转换的分布。采样一个元转换并对输入进行转换。然后转换后的数据成为输入并继续进行转换。03.问题定义和任务建模0给定一个目标网络，例如图像分类器[10]或人体姿势估计器[24]等，自适应数据转换AdaTransform旨在改善目标网络的训练和测试。具体而言，代理执行两个不同的任务：（1）在训练阶段，它执行竞争任务以增加数据变异性，改善目标网络的训练。（2）在测试阶段，它执行合作任务以减少数据变异性，提升测试性能。这两个任务通过同时优化一个三元组来学习：一个转换器T，一个鉴别器D和一个目标网络N。图1给出了一个示例。03.1.转换器T0Transformer T旨在增加竞争任务中的数据变异性，同时学习减少合作任务中的数据变异性。转换定义。转换是领域特定的。它依赖于数据类型和目标问题。不同模态的数据具有不同的转换方式。例如，图像可以利用缩放和旋转，而文本数据中可能会发生词替换和切换。此外，转换必须保持目标问题中感兴趣的数据属性。例如，剪切操作可以应用于图像分类，因为它不会改变图像类别标签。然而，对于人脸识别来说，剪切操作可能会改变身份，所以不是一个好的选择。AdaTransform只需要有限的领域知识来指定一些元转换。然后，T学习将它们组合用于竞争和合作任务。竞争任务。T通过增加目标网络N的损失来学习扩大训练中的数据变异性。同时，它试图通过使转换后的数据逼真来愚弄鉴别器D。因此，T必须学习0以满足N和D的约束条件：0最大 θ T E ( x , y ) � Ω E τ � T ( x , 0) [ L ( N ( τ ( x )) , y ) + λ log( D ( τ ( x)))] ,0其中Ω是训练数据，τ是从T(x,0)中在竞争模式下采样的转换操作。L(∙,∙)是预定义的目标损失函数。λ平衡两个损失的权重。T在竞争任务中与N和D竞争。竞争的T被训练并应用于训练数据。合作任务。T还学习通过降低目标网络N的损失来减少数据变异性：0其中1表示T的合作模式。在合作任务中，不使用判别器D。因为方差减小的转换数据很难脱离真实数据分布。T与N在合作任务中合作。合作的T在训练数据上进行训练，并推广到测试数据。03.2. 判别器 D0判别器D的目标是控制转换数据的方差。它学习将转换后的数据分配低分给超出分布的转换数据，并给予分布内的数据高分。为此，D从原始数据和转换数据中学习如下：0(3) D与transformerT在竞争任务中竞争。这是一种关键设计，用于自动化竞争训练。当存在多种类型的转换时，人类用户可以免于指定转换边界的沉重负担。没有D，T可能会产生超出分布的转换。03.3. 目标网络 N0目标网络N的目标是在测试数据上进行良好的泛化。训练数据通常与测试数据存在一定的分布偏移。当前的神经网络非常强大，它们很容易过拟合训练数据。transformerT可以通过自适应地增加训练数据的方差来减少过拟合。N从原始和转换后的训练数据中学习如下：0目标网络N通过学习其转换后的数据与transformerT竞争。KK30010算法1：transformer T的小批量训练0输入：小批量B，tripletT，D和N。输出：transformer T01 将B s复制B次以得到大小为M的X；02 将T应用于X以得到ˆ X和策略{ π i t } ∈ R M × K；03 通过公式5和6计算ˆ X的奖励{ r i t } ∈ R M × K；04 通过公式8得到累积奖励{ R i t } ∈ R M × K；05 通过公式9和公式10将{ R i t }归一化为{ ¯ R i t }；06 对{ ¯ R i t log π i t }进行梯度上升；04. 学习策略0tripletT，D和N在自适应数据转换中共同学习。主要挑战来自于学习T，因为许多转换操作不可微分。梯度不能直接从D和N流向T。为了解决这个问题，我们使用元转换的强化学习来训练T。04.1. 元转换0元转换定义了小的转换操作[19]。表1列出了自然图像中的元转换示例。大的转换可以分解为多个元转换的组合。尽管会有一些精度损失，但它几乎不会影响目标网络的训练。指定元转换所需的领域知识比调整多类型转换的边界和选择它们的组合[27,16]要少得多。元转换提供了灵活性和可扩展性，以实现复杂的转换。我们可以通过遍历元转换的组合来高效地探索丰富的转换空间。更重要的是，元转换使得通过强化学习以可行的方式训练T成为可能。04.2. 强化学习的制定0transformerT通过元转换逐步转换数据。图2显示了一个示例。设x和ˆx分别表示原始和转换后的数据点。在第t步，T在ˆxt−1的条件下输出分布T(ˆxt−1)上的所有元转换。然后从中采样元转换τt。计算转换后数据ˆxt = τt(ˆxt−1)的损失如下：0� L(N(ˆxt), y) + λ log(D(ˆxt)), 竞争模式。-L(N(ˆxt), y),合作模式。(5)其中，L表示目标任务的损失函数，λ是鉴别器损失的权重。在竞争模式下，变换器通过增加数据的方差来学习。0算法2：T、D和N的联合训练方案0输入：训练数据X，三元组T，D和N。输出：三元组T，D和N。01 while 循环未结束 do02 对于X中的小批量B进行循环：03 以概率 p 对 B 应用 T，得到ˆB；04 使用混合数据ˆB对N进行训练；05 结束06 对于X中的小批量B进行循环：07 使用算法1对 D、N 进行训练；08 使用算法1对N进行训练；09 结束010 结束0增加目标网络的损失。另一方面，它还试图通过增加负目标损失（即减小目标损失）来保持转换数据的高概率。在合作模式下，变换器通过增加负目标损失来学习减少数据的方差。元转换 τ t 的奖励 r t 是增量损失：r t = ℓ(ˆxt) -ℓ(ˆxt-1)。(6)0假设变换器T应用了K步，产生了一个奖励序列{r1, r2, ∙ ∙ ∙ ,rK}，其中奖励r1为r1 = ℓ(ˆx1) -ℓ(x)。将这些奖励求和得到：0t =1 r t = ℓ(ˆxK) - ℓ(x)。(7)0在训练变换器时，鉴别器和目标网络是固定的。给定一个原始数据点x，ℓ(x)是一个常数，可以忽略。ℓ(ˆxK)是方程1或2中的目标，因为ˆxK是最终转换的数据点。因此，优化方程1或2中的目标可以转化为最大化奖励总和。我们应用策略梯度来最大化奖励总和。为了减少估计奖励的方差，使用了两种常见的技术。首先，我们将转换τ t ′ 的奖励定义为累积的未来奖励�K t> = t ′ r t，而不仅仅是 r t′。使用折扣因子γ来模拟未来奖励的延迟效应。因此，累积折扣奖励 R t ′ 为：0R t ′ =0t> = t ′ γ t - t ′ r t，(8)0在实验中，我们将 γ 设置为0.5。此外，奖励 R t ′的原始值可能没有意义。正值不一定表示奖励。只有当其奖励高于期望值时，我们才会增加元转换的概率。在这里，我们使用平均值sRit′(9)∇θT T(ˆxt′) =h×s�i=1(Rit′ − bt′)∇θT log πθT (τt′|ˆxt′),(10)∇θT T(·) =K�t′=1∇θT T(ˆxt′).(11)30020向下随机初始化0向左移动0向上0向右移动向下0向右停留0向左0元移动0图3：元移动。AdaCutout/AdaErasing首先对一个随机掩码进行采样，然后将其向上、向右、向下、向左移动。0在每个小批量的 h 个训练样本中，将 R t ′的奖励作为参考。对于每个原始数据点，我们采样 s个不同的奖励 R t ′。因此，R t ′ 的平均值为：0b t ′ = 10h× s�0注意，在每个小批量中在线计算奖励均值是很重要的，而不是使用所有历史奖励的移动平均值。因为鉴别器和目标网络在训练中变得越来越强大。历史奖励不能很好地反映它们的当前状态。在步骤t′，每个奖励R t ′通过减去其均值b t ′进行归一化。正值表示奖励，而负值表示惩罚。根据策略梯度公式，我们计算步骤t′处变换器T的梯度：0其中 π θ T ( τ t ′ | ˆ x t ′ ) 是策略，即给定输入 ˆ x t ′时采取元转换 τ t ′ 的概率。通过梯度上升来更新变换器 T，如果相应的元转换在步骤 t ′中产生奖励或惩罚，可以推高或拉低概率。最后，我们将从所有 K 步的 T 的梯度相加：0基本上，变换器 T 每次使用从 K 步和 h × s个样本中累积的梯度进行更新。算法1总结了 T的训练方案。04.3. T、D和N的联合学习0在训练过程中，变换器 T 与判别器 D 和目标网络 N联合优化。训练过程如算法2所述。具体来说，我们对 N进行多个时期的训练，然后分别更新 T 和 D 。0表1：自然图像中元转换的示例。元转换定义了一个小操作。多个元转换的组合可以近似一个大的转换空间。0旋转 2 . 5 ◦ , − 2 . 5 ◦ , 5 ◦ , − 5 ◦0剪切/涡旋 0 . 1 ◦ , − 0 . 1 ◦ , 0 . 25 ◦ , − 0 . 25 ◦0色调变化 0.1, -0.1, 0.25, -0.250亮度/颜色 0.75, 1.25, 0.5, 1.50锐度/对比度 0.75, 1.25, 0.5, 1.50水平翻转 -0D 一次。 N需要从转换后的数据和原始数据中学习。为此，我们以概率p (0 < p < 1) 对 N 的训练数据应用 T。在每次迭代中，交替更新 T 和 D。给定一个小批量数据， D 在 T的原始（真实）数据和转换后（虚假）数据上进行更新。然后我们分别在竞争和合作模式下更新 T 。在合作情况下，T 接收来自 N 的反馈，而在竞争情况下，它需要来自 D的额外反馈。我们将一个零或一的映射添加到 T的输入中，作为竞争或合作模式的条件。05. AdaTransform的应用0AdaTransform为具有适当领域知识的通用数据分析任务提供了多功能解决方案。在本文中，我们将重点放在其在视觉任务中的应用上。AdaImgTransform。对于自然图像，有许多可用的转换类型，如缩放、旋转、平移、翻转、涡旋、剪切、对比度增强、颜色增强、亮度增强、锐度增强和色调变化。表1列出了相应的元转换。我们可以根据特定任务的领域知识调整元转换池。我们将自适应数据转换应用于学习，结合输入图像、目标网络状态和变换器模式来选择适当的元转换。它们可以用于增加或减少数据的差异。AdaCutout/AdaErasing。在自然图像中，遮挡是非常常见的，感兴趣的对象部分被遮挡。最近提出了cutout [6]和随机擦除[35]来模拟图像上的遮挡。具体来说，使用固定大小的正方形遮罩（cutout）或灵活的遮罩（擦除）来遮挡以随机选择的位置为中心的图像区域。我们应用自适应转换来控制cutout或擦除。具体而言，我们在初始化时使用随机cutout或擦除。然后，变换器逐步学习移动cutout遮罩。每一步，它可以向上、向右、向下、向左移动，或者保持不动。图3说明了这五种元移动。1510201000.50.60.70.90.81510201000.10.20.30.70.50.40.624681012148281.58180.58079.5Cutout [6]77.2140.41AdaCutout78.0241.02Erasing [35]77.2540.53AdaErasing78.1241.2130030训练数据比例（%）0训练数据比例（%）0CIFAR-10测试准确率 CIFAR-100测试准确率0（仅使用D训练的T）0（竞争训练）0N + T + D0（竞争训练和合作测试）0N + T + D0N + 预训练的T0N + 随机增强0图4：竞争和合作任务的验证。我们显示了随着训练数据比例的增加，测试准确率的变化。竞争训练和合作测试的联合学习实现了最佳性能（最低）。当在训练中使用较少的数据时，其优越性能更加显著（从右到左）。0变换步骤数量0测试准确率0图5：变换步骤的影响。虚线和阴影区域分别表示平均值和标准差。更多的步骤会增加标准差（模型方差较高）。在8步时获得了测试准确率和模型方差之间的最佳平衡。06. 实验0实验包括三个部分：消融研究，鲁棒性测试和与最先进方法的比较。我们在三个不同的任务上评估AdaTransform：图像分类，人体姿势估计和人脸对齐。我们对图像分类应用了表1中给出的元变换。对于其他两个任务，由于基准数据的移动，我们去除了剪切和旋转。06.1. 实验设置0Transformer T和discriminatorD。Transformer和discriminator使用共同的网络。具体来说，transformer具有ResNet-18[10]的架构。此外，在每个3×3卷积层之后和全连接层之前，我们添加了dropout层。discriminator与DCGAN[18]中的discriminator相同。目标网络N。不同的任务有各自的目标网络。在图像分类中，我们在消融研究中使用32层的ResNet（ResNet32）[10]。与最先进的数据增强方法AutoAug进行比较0表2：使用CIFAR-10和CIFAR-100的10%训练数据评估AdaCutout和AdaErasing。0方法 CIFAR-10 CIFAR-1000ment [4]基于更复杂的模型：Wide-ResNet-28-10[32]，Shake-Shake [7]和ShakeDrop[30]。对于人体姿势估计和人脸对齐，我们在所有实验中使用了两个堆叠的hourglass [15]。0超参数。我们使用两个transformer进行自适应cutout（AdaCutout）和自适应图像变换（AdaImgTransform）。AdaCutouttransformer的学习率为3e-5，权重衰减为1e-5，而AdaImgTransformtransformer的学习率为1e-4，权重衰减为1e-4。AdaCutout每步将遮挡掩码移动2个像素。我们设置步数K =3用于AdaCutout和K =8用于AdaImgTransform。此外，当训练目标网络时，AdaCutout在每个mini-batch上以0.3的概率应用。另一方面，我们在所有训练数据上使用AdaImgTransform，但在最后十个epoch停止应用。0数据集。我们使用了基准数据集：CIFAR-10和CIFAR-100用于图像分类；MPII Human Pose [1]和Leeds SportsPose (LSP) [13]用于人体姿势估计；300-W challenge[20]用于人脸对齐。300-W测试集包括简单和具有挑战性的子集。我们使用分类准确率/错误率，关键点正确率（PCK）和归一化均方误差（NME）作为图像分类，人体姿势估计和人脸对齐的衡量标准。特别地，MPII和LSP使用PCKh@0.5和PCK@0.2。0.7x 0.8x 0.9x 1.0x 1.1x 1.2x 1.3x0.770.810.850.8933.50.7x 0.8x 0.9x 1.0x 1.1x 1.2x 1.3x051015250.810.830.850.870.89203044.55.56.565−60o−40o−20o20o60o40o0o−60o−40o−20o20o60o40o0oRandomAugment. 95.7 95.0 89.1 83.4 88.2 84.0 80.2 88.1AdaImgTexture95.3 95.3 89.7 84.8 89.0 84.9 80.9 88.7AdaCutout95.5 95.2 89.7 84.6 88.5 84.7 80.9 88.6AdaScaleRotation 95.5 95.6 89.8 85.0 89.4 84.7 80.8 88.9AdaAll95.8 96.0 90.1 85.4 89.8 85.7 81.3 89.3RandomAugment. 94.4 93.9 86.9 81.5 86.7 82.0 77.0 86.3AdaImgTexture94.9 94.9 88.5 83.2 88.2 83.6 79.7 87.830040测试PCKh0测试PCKh0测试RMSE0测试RMSE0人体尺度人体旋转面部尺度面部旋转0N + 自适应尺度和旋转 N + 随机尺度和旋转0图6：对旋转和尺度扰动的鲁棒性。我们研究了人体姿势估计（左两个，越高越好）和面部对齐（右两个，越低越好）。使用自适应数据变换训练的网络（N）在性能上超过随机变换，差距显著。当增加扰动时，性能改进更为显著，表明学习更加鲁棒的模型的有效性。0表3：不同类型自适应变换在人体姿势估计中的效果。我们报告每个关节的PCKh（％）。单一类型的自适应变换与随机执行相比可以提高性能。同时应用所有变换具有最佳性能。0方法头鞋肘腕臀膝踝平均06.2. 割舍研究0变换步骤的效果。变换器逐步对图像进行多个步骤的变换。观察测试准确性随步骤数的变化是有趣的。我们使用10％的CIFAR-10训练数据为每个步骤数训练了6个模型。图5显示了测试准确性的平均值和标准差。适度增加步骤数可以产生更复杂的变换，提高测试准确性。然而，更多的变换步骤难以学习并导致模型方差较高。竞争性和合作性任务的验证。我们逐步添加每个组件并观察测试准确性的变化。图4对四个变体进行了比较。它们都使用了八个变换步骤和表1中相同的元变换池。竞争性训练和合作性测试都可以在不同百分比的训练数据上增加测试准确性。在只有1％的训练数据的情况下，竞争性训练可以在CIFAR-10和CIFAR-100上相对于预训练的变换器提高约5％的准确性，表明与目标网络联合训练的重要性。另一方面，合作性测试进一步为这两个数据集带来了约2％的增益。即使有100％的训练数据，它们也可以分别0表4：对纹理（颜色，亮度，对比度，锐度和色调）扰动的鲁棒性。我们研究了标准（上两行）和扰动（下两行）的测试。特别是，AdaImgTexture对纹理扰动更具鲁棒性。0方法头鞋肘腕臀膝踝平均0RandomAugment. 95.7 95.0 89.1 83.4 88.2 84.0 80.2 88.1AdaImgTexture 95.3 95.3 89.7 84.8 89.0 84.9 80.9 88.70在两个数据集上都获得了约1％的改进。对AdaCutout和AdaErasing进行评估。除了上述的AdaImgTransform之外，我们还评估了AdaCutout和AdaErasing。结果如表2所示。Cutout和随机擦除获得了类似的准确性。AdaCutout和AdaErasing都可以改善基线。不同类型自适应变换的效果。我们将变换分为三组：空间变化（尺度和旋转），遮挡（Cutout[6]）和纹理变化（图像颜色，亮度，对比度，锐度和色调）。研究它们的单独贡献可能很有趣。AdaTransform可以独立地和联合地利用它们。表3给出了人体姿势估计的结果。空间变换带来的改进（0.8％）比其他两种（0.5％和0.6％）更大，表明它在人体姿势估计中的重要性。06.3. 鲁棒性测试0在传统测试中，测试图像通常是静态的，没有扰动。然而，在实践中，一张图像可能受到许多因素的影响，例如尺度和旋转。一个强健的模型不仅应该能够处理原始图像，还应该能够处理在合理扰动下的变体。在这个实验中，我们测试了在不同尺度、旋转和纹理变化的条件下的模型。30050表5：与AutoAugment[4]在图像分类错误方面的比较。AdaTransform在所有三个分类器上具有可比较的性能。然而，它比AutoAugment更高效。0模型 CIFAR-10 CIFAR-1000AutoAug. 我们的 AutoAug. 我们的0Wide-ResNet [32] 2.68 2.95 17.09 17.42Shake-Shake[7] 1.99 2.11 14.28 15.01ShakeDrop[30] 1.48 1.72 10.67 11.210表6：与对抗性数据增强[16]在人体姿势估计中的比较。我们使用两个堆叠的小时glass模型，并在MPII验证集（顶部）上报告PCKh@0.5，在LSP测试集（底部）上报告PCK@0.2。0方法头部肩部肘部手腕臀部膝盖踝部平均0AdvAug. [16] 96.5 95.5 89.8 84.5 89.4 85.0 80.7 88.9AdaTransform 95.8 96.0 90.1 85.4 89.8 85.7 81.3 89.3AdvAug. [16] 96.8 93.7 90.9 88.0 92.0 93.7 92.4 92.5AdaTransform 96.9 94.1 91.0 87.8 93.0 94.5 93.3 92.90表7：在300-W数据集上与对抗性数据增强[16]在面部对齐（NME）方面的比较。0方法简单子集困难子集完整集0AdvAug. [16] 2.87 4.98 3.28 AdaTransform 2.82 4.963.240为了评估AdaTransform的鲁棒性，我们将使用它训练的模型与随机增强进行比较。对尺度和旋转扰动的鲁棒性。图6显示了两个任务中的鲁棒性比较。AdaTransform可以在一系列尺度和旋转下持续改善测试性能，特别是在两端。在人体姿势估计中，我们观察到尺度0.7/1.3的准确度提高了约3%，旋转-60°/60°的准确度提高了约5%。在面部对齐中，尺度0.7和旋转-60°/60°的大误差分别下降了约12%和2%。对纹理扰动的鲁棒性。为了得到合理的纹理扰动，我们只使用CIFAR-10训练了一个只有鉴别器的转换器。在测试时，我们使用15个训练好的转换器模型对测试图像进行扰动。表4给出了与随机增强的鲁棒性比较。AdaTransform在标准测试和带有纹理扰动的测试中都可以获得更高的PCKh。此外，扰动测试中的PCKh差距1.5%要比标准测试中的0.6%大得多。06.4. 与最先进方法的比较0图7：人体姿势估计中的协同缩小（左）和放大（右）。原始尺度上检测到的误报（用红圈标记）（顶部）。缩小（底部）可以帮助检测到头部、手腕和脚踝等超出原始尺度范围的关节。另一方面，放大（底部）可以减少背景噪声可能引起的歧义。0CIFAR-10和CIFAR-100。AdaTransform获得了与AutoAugment相当的性能。然而，它只需要训练三个模型。相反，AutoAugment需要训练一万五千个模型来搜索最终的增强策略。尽管AdaTransform中的每个模型可能需要更长的训练时间，但它仍然更加高效。请注意，如果只训练几个模型，AutoAugment无法工作。它是一种纯粹基于强化学习的方法，优化验证误差。训练的模型数量代表其搜索空间。另一方面，AdaTransform将对抗训练与强化学习相结合，优化训练损失。人体姿势估计。我们还将AdaTransform与最先进的对抗性数据增强[16]在人体姿势估计上进行比较。表6给出了基于两个堆叠的小时glass模型[15]的比较。AdaTransform在两个数据集上都获得了0.4%的平均改进。AdaTransform可以通过组合多种类型的元转换来搜索更大的转换空间。面部对齐。AdaTransform和最先进的对抗性数据增强[16]都可以应用于面部对齐。我们使用两个堆叠的小时glass模型作为目标网络。结果如表7所示。AdaTransform在简单子集和挑战子集上的错误率分别降低了0.05%和0.02%。07. 结论0我们提出了AdaTransform来在训练和测试阶段双向操作数据方差。通过联合优化三元组在线学习，可以高效地学习。在图像分类、人体姿态估计和面部对齐等三个不同任务上的实验结果表明，当存在扰动时，它在网络训练和测试中表现出优越的性能。30060参考文献0[1] Mykhaylo Andriluka，Leonid Pishchulin，PeterGehler和BerntSchiele。2D人体姿态估计：新的基准和最新技术分析。在CVPR，2014年。[2] Antreas Antoniou，Amos Storkey和HarrisonEdwards。数据增强生成对抗网络。arXiv，2017年。[3] JoaoCarreira，Pulkit Agrawal，Katerina Fragkiadaki和JitendraMalik。迭代误差反馈的人体姿态估计。在CVPR，2016年。[4]Ekin D Cubuk，Barret Zoph，Dandelion Mane，VijayVasudevan和Quoc VLe。Autoaugment：从数据中学习增强策略。arXiv，2018年。[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi和Fei-FeiLi。Imagenet：一个大规模的分层图像数据库。在CVPR，2009年。[6] Terrance DeVries和Graham WTaylor。通过切割改进卷积神经网络的正则化。arXiv，2017年。[7] Xavier Gastaldi。摇摇正则化。arXiv，2017年。[8] RossGirshick，Jeff Donahue，Trevor Darrell和JitendraMalik。用于准确的目标检测和语义分割的丰富特征层次结构。在CVPR，2014年。[9] Ian J. Goodfellow，JeanPouget-Abadie，Mehdi Mirza，Bing Xu，DavidWarde-Farley，Sherjil Ozair，Aaron C. Courville和YoshuaBengio。生成对抗网络。在NIPS，2014年。[10] KaimingHe，Xiangyu Zhang，Shaoqing Ren和JianSun。深度残差学习用于图像识别。在CVPR，2016年。[11] GaoHuang，Zhuang Liu，Kilian Q Weinberger和Laurens van derMaaten。密集连接的卷积网络。CVPR，2017年。[12] MaxJaderberg，Karen Simonyan，AndrewZisserman等。空间变换网络。在NIPS，2015年。[13] SamJohnson和MarkEveringham。用于人体姿态估计的聚类姿态和非线性外观模型。在BMVC，2010年。[14] Jiangjing Lv，Xiaohu Shao，JunliangXing，Cheng Cheng和XiZhou。具有两阶段重新初始化的深度回归架构用于高性能面部标志检测。在CVPR，2017年。[15] Alejandro Newell，KaiyuYang和JiaDeng。堆叠的沙漏网络用于人体姿态估计。在ECCV，2016年。[16] Xi Peng，Zhiqiang Tang，Fei Yang，Rogerio SFeris和DimitrisMetaxas。联合优化数据增强和网络训练：在人体姿态估计中的对抗数据增强。在CVPR，2018年。[17] Hieu Pham，Melody YGuan，Barret Zoph，Quoc V Le和JeffDean。通过参数共享进行高效的神经架构搜索。arXiv.，2018年。[18] Alec Radford，Luke Metz和SoumithChintala。使用深度卷积生成对抗网络进行无监督表示学习。arXiv，2015年。[19] Alexander J Ratner，HenryEhrenberg，Zeshan Hussain，Jared Dunnmon和ChristopherR´e。学习组合0数据增强的领域特定转换。在NIPS，2017年。[20] ChristosSagonas，Georgios Tzimiropoulos，Stefanos Zafeiriou和MajaPantic。300个野外挑战中的面部标志定位挑战：第一个面部标志定位挑战。在ICCVW，2013年。[21] Eli Schwartz，LeonidKarlinsky，Joseph Shtok，Sivan Harary，MattiasMarder，Rogerio Feris，Abhishek Kumar，Raja Giryes和AlexMBronstein。Delta-encoder：一种有效的少样本目标识别样本合成方法。在NIPS，2018年。[22] Abhinav Shrivastava，AbhinavGupta和RossGirshick。使用在线难例挖掘训练基于

下载后可阅读完整内容，剩余1页未读，立即下载