频率偏置模型：提高对常见损坏的鲁棒性

138 浏览量更新于2023-10-13 收藏 570KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10211清理错误利用频率偏置模型提高对常见损坏的鲁棒性弗莱堡大学saikiat@cs.uni-freiburg.deCordeliaSchmid Inriacordelia. inria.fr弗莱堡托马斯·布罗克斯大学brox@cs.uni-freiburg.de摘要26当训练和测试分布是独立同分布时，CNN表现得非常好，但不可见的图像损坏可能会导致性能惊人的大幅下降在25各种真实场景、诸如随机噪声、压缩伪像或天气失真之类的意外失真是常见现象。提高损坏图像不得导致i.i.d性能下降这是许多最先进的稳健方法所面临的挑战图像损坏类型在频谱中具有不同的特性，并且将受益于目标类型23数据增强的能力，然而，这通常是未知的在训练期间。在本文中，我们介绍了一个混合的两个专家模型，专门在高，低频率鲁棒性分别。此外，我们提出了一个新的reg-22RoHL：HF和LF专家相结合这是一种最小化卷积特征图的总变差（TV）以增加高频鲁棒性的归一化方案。该方法在不降低分发性能的情况下改进了损坏的图像。我们在ImageNet-C上演示了这一点，并且还针对汽车数据集上的真实世界腐蚀，用于对象分类和对象检测。1. 介绍对分布偏移的鲁棒性可能是深度学习中的核心当训练集和测试集样本独立且同分布（i.i.d）时，CNN表现出强大的性能。这导致了在具有挑战性的Ima-geNet数据集上获得超人性能然而，随着社区在实际应用的推动下开始在发行版外（OOD）测试集上进行测试，这样的声明有些与人类视觉不同，CNN甚至会受到输入中的小扰动的影响。简单地将随机噪声添加到ImageNet测试集就足以使分类误差几乎增加三倍[15]。为什么在分布切换下性能下降如此严重？一种解释是，模型依赖于i.i.d训练和测试中存在的虚假、不稳定的相关性。45 50 55 60 65 70 75损坏错误（mCE）图1：改善清洁和腐败错误。每个项目显示ImageNet（y轴）和ImageNet-C（x轴）上模型的误差。所有型号都使用ResNet50骨干。橙色：所提出的RoHL方法-蓝色：使用最先进的方法AugMix + DeepAugment训练的集合。Gray：其他方法。数据集，以获得低训练和测试错误。当由于分布偏移，这些不稳定的相关性丢失时，性能严重下降。虽然已经有大量的前期工作[12，15，24，29，35]调查这个问题，它是远远没有被完全理解，更不用说解决。迄今为止最成功的补救措施是精心选择的数据增强方案[7，14，17，26，11]和对抗训练[10，26，32]。Geirhos等人[12]提出了纹理假设，他们表明分类模型学习偏向纹理的特征表示。这些纹理特征中的许多是不稳定的并且例如由于天气效应或数字损坏而被破坏StyleTransfer斑点噪声AugMix+DeepAugment（AMDA）Ensemble（AMDA，AMDA）标准-R50DeepAugment（DA）RoHL（HF，LF）AugMix（AM）IN-21 K-预训练SE（自我注意）10212∼纹理假设也可以从傅立叶的角度来考虑[35]。Yin等[35]表明，模型实现了合理的性能（60%的准确度）i.i.d测试集的ImageNet，即使在训练和测试过程中对输入图像应用这表明在低频和高频域中存在许多输入-输出相关性。他们还表明，损坏数据的性能下降例如，在干净图像上训练的标准模型固有地偏置为与高频损坏相比对低频损坏更鲁棒。看起来，这种偏差可以通过数据增强很容易地修复。然而，数据增强伴随着鲁棒性权衡，即，许多变换提高了某些类型的损坏的性能，但降低了干净图像的性能。在现实场景中，数据的主要部分通常是干净的并且没有损坏。因此，清洁性能不容忽视。为了避免这样的权衡，我们提出了RoHL-Ro半身像混合物的HF（高频）和LF（低频）专家模型。为了构建HF专家模型，我们对第一卷积层的激活应用TV最小化[2]，以及影响图像中高频分量的通用增强。HF专家对高频损坏是鲁棒的，而基于普通对比度增强的LF专家对低频损坏是鲁棒的。我们表明，有这样的互补模型提高了性能，无论是在corrupted和干净的图像。此外，与标准的两成员集成相比，它在不增加额外成本的情况下增加了鲁棒性。其有效性的概述如图所示。1.一、总之，我们做出了两个贡献：（1）我们提出了一种新的正则化方案，该方案强制卷积特征图具有低的总变差（TV）。我们表明，这提高了高频鲁棒性，是互补的其他高频增强操作。（2）引入了将两个分别研究高频鲁棒性和低频鲁棒性的专家混合的思想。我们表明，这种混合是对不同数据增强的补充，例如AugMix [17]和Deep- Augment [14]。2. 相关工作分布变化下缺乏稳健性。 Geirhos 等人 [12] 和Vasiljevicet al.[31]表明，针对某些扭曲训练的模型Hendryks 和 Dietterich [15] 提出了一种综合基准（ImageNet-C）来研究对各种图像失真的鲁棒性Recht等人[24]重新创建了一个新的曼斯下降。最近的工作评估了其他视觉任务（如物体检测[21]和分割[18]）在分布变化易受敌对干扰的影响。对抗性扰动[4，28]是精心设计的噪声信号，旨在最大限度地混淆模型。这些扰动被归类为白盒攻击[8，20，22，23，28]，其中攻击者可以访问模型权重和梯度，以及黑盒攻击[3，6，9]，其中攻击者只能查询模型。在这里，我们专注于鲁棒性常见的腐败，遇到即使没有对手。提高鲁棒性。 Hendryks 等人 [16 ， 14] 表明，在ImageNet-21 k等大型数据集上进行预训练可以提高鲁棒性。 Xie 等人 [34] 以半监督的方式在 ImageNet 和YFCC100M [30]上训练大型模型，以获得改进的i.i.d和OOD性能。Taori等人[29]声称更大的数据集可以提高OOD数据的性能，但远远没有缩小性能差距。数据扩充是提高面向对象设计性能的有效措施。Ford等人[10]观察到增强技术，如高斯或对抗性噪声，使模型对某些腐败类型具有鲁棒性，而对其他类型则会降级Yin等[35]表明，通过查看不同腐败类型的傅立叶统计数据，可以更好地理解这些权衡Geihos等人[11]表明，使用程式化图像进行训练会增加形状偏差，从而提高鲁棒性。Rusak等人[26]研究了噪声污染，并在ImageNet-C上建立了一个强大的基线。Rusak等人[26]还评估了特征去噪结合对抗训练[33]对常见腐败鲁棒性的影响Hendryks等人[17]表明，多样化的数据增强可以在ImageNet-C 基准测试中获得强大的结果最近，Schneider等人[27]表明，性能可以通过在测试时采用批规范统计来进一步提高。3. 数据扩充对稳健性3.1. 数据扩充高频鲁棒性。已经表明，使用高斯噪声或对抗性训练训练的模型对影响信号高频的损坏表现出更好的弹性[35]。这样的破坏包括不同的噪声破坏，如高斯或椒盐噪声。此外，包括模糊的损坏影响高频分量，因为它们减少了诸如边缘的高频图像特征。利用作用于高频的操作的数据增强使得训练模型较少依赖于高频特征，并且已经被示出显著提高对集中在高频频谱中的损坏的鲁棒性。然而，由于它们从模型中删除了高频特征，因此也大大降低了干净图像的性能。10213低频鲁棒性。与高频鲁棒性相比，实现对低频损坏（诸如雾、霾、对比度）的鲁棒性不太明显。自然图像固有地由低频分量主导。Yin等[35]数据显示，对比度高斯噪声高斯模糊1.00.80.60.40.2诸如随机扰动具有从低频破坏类型采样的幅度的傅立叶分量的方法不能提高低频鲁棒性。扰动破坏自然图像统计，甚至降低性能的腐败，如雾。他们声称，对于低频损坏，不存在明确的权衡我们将在SEC中进一步研究这一点。五点三。3.2. 多样化的数据扩充规避上述权衡的一种方法是应用不同的数据增强变换，这已被证明可以提高整个频谱的鲁棒性[17，35]。AugMix和DeepAugment是两种这样的数据增强方法。AugMix。AugMix [17]从各种增强操作[7]组成图像变换。它涉及对增强操作的k个随机序列进行采样，从而产生k个增强图像。然后将这些增强的图像与随机采样的加权因子逐元素混合。通过将增强图像再次与干净版本混合来获得最终图像。AugMix模型使用额外的一致性损失进行训练，以强制执行干净和增强图像嵌入的类似响应。特别地，原始样本及其增强变体的后验分布之间的Jensen-Shannon散度（JSD）被最小化。DeepAugment DeepAugment [14]使用针对图像超分辨率和图像压缩训练的失真图像是通过将图像通过这些网络而生成的，但是权重被随机变换扰动在使用它们进行训练之前，预先计算失真的图像。4. RoHL：组合频率偏置模型用不同的鲁棒性偏差训练的模型可能会犯不同的错误。我们假设，组合与正交的低频和高频偏置的模型应该提高整个频谱的性能。我们提出了RoHL基于这一假设，并表明它是互补的多样化的数据增强。4.1. 针对高频和低频的数据增强为了覆盖高频腐败，我们使用高斯噪声和高斯模糊作为通用变换的数据增强训练时的高频（HF）专家的合奏。为了增加高频鲁棒性，我们图2：三种基本损坏的傅立叶频谱低频分量接近频谱的中心。左：对比度增强主要影响低频分量.中间，右：高斯噪声和模糊在高频区域（远离中心）具有相对较大的浓度。可视化细节;参见补充（第二节）。①的人。在培训这名专家时进一步提出一种新的正规化方法;参见第二节。四点三。系综的第二成员针对低频（LF）损坏进行优化。我们这样做，通过使用对比度变化作为一个简单的通用增强操作，具有主导的低频分量。这些简单的数据增强操作的傅立叶频谱在图中可视化。二、两位专家都通过额外使用不同的数据增强进行训练（我们测试了AugMix和DeepAugment）。实施细节在实验部分中讨论。4.2. 专家预测导出的专家模型的HF和LF的鲁棒性相结合，并测试对象的分类和检测。我们通过简单地平均两个成员模型的预测来组合模型预测我们还探索了更复杂的学习合并模型。然而，性能的改善我们将该组合表示为RoHL（HF，LF）。4.3. 特征图我们通过在网络的早期特征图上引入新的正则化操作来改进HF专家。在经典图像处理中，TV最小化已被广泛用于各种信号恢复问题[2]。TV最小化对于消除信号中的振荡特别有用与传统的低通滤波不同，TV最小化是一个非线性操作，并且被公式化为一个优化问题。TV最小化可以直接滤除测试图像中的噪声，但这需要为每个测试图像求解优化问题，这使得该方法缓慢。此外，去噪还将破坏重要的高频信号，并可能引入新的伪影，这可能导致额外的性能下降[15]。我们建议在训练中使用TV最小化10214Σ⊃→∈∫Σ图像标签：goldfish标准模型预测：金鱼TV正则化模型预测：金鱼该损失可以与用于图像分类的标准交叉熵损失（LCE）组合：L（y¯，y，F）=LCE（y¯，y）+λ LTV（Fc）C其中F∈RC×H ×W表示具有C预测：黄貂鱼预测：金鱼渠道y¯和y表示预测，tar得到重新-图3：TV正则化训练的效果。 a）和d）示出干净的和有噪声的测试图像。我们比较了一个标准和电视正则化模型的特征图可视化。b）和e）分别示出了在转发干净图像和有噪声图像之后生成的最活跃的特征图。c）和f）示出了对于TV正则化模型的相同情况。较大的激活值具有较浅的阴影。我们还显示了平均L2之间的距离，从清洁和嘈杂的测试图像的特征图。对于更鲁棒的模型，激活统计在噪声的影响下应该波动较小 TV正则化模型学习抑制在训练期间不可见的噪声：f）比e）更平滑，并且更接近c）。时间我们没有将其应用于输入图像，而是将其应用于处理输入图像的第一个conv层的特征图正如我们所讨论的，标准CNN模型偏向于使用高频信息，如纹理。这样的偏置模型包含每当输入图像中存在高频信息时不规则地发射的滤波器，从而导致大的噪声激活。这导致依赖于第一卷积特征图的下游层以不可预测的方式表现我们假设在第一个卷积特征图中去除空间异常值（振荡）将产生更稳定的表示，从而提高对高频损坏的鲁棒性。由于高频信号由第一网络层最好地拾取，因此这是正则化器的最佳放置我们也通过实验验证了这一点;见补充资料（第（3）第三章。对于连续函数f：RH× WΩR，f的TV范数被定义为：分别为。因子λ控制正则化强度（较大的值将导致更平滑的特征图）。TV正则化训练模型的效果如图所示。3.第三章。用TV正则化训练的模型为干净和有噪声的图像产生更一致的特征图。我们注意到，TV正则化的这种应用与标准的基于TV的图像去噪不同，因为重建损失（数据项）被交叉熵损失代替。5. 实验5.1. 实验装置5.1.1数据集ImageNet ImageNet-C. ImageNet数据集由大约120万张图像组成，分为1000个类别。为了评估i.i.d性能，我们使用标准清洁测试集。为了评估分布偏移下的性能，我们使用了ImageNet-C数据集[15]，这是ImageNet干净测试集的损坏版本ImageNet-C由15种不同的合成腐败类型（分为噪声，模糊，天气和数字腐败）扭曲的图像组成。每个损坏的子集有5个严重级别。ImageNet-100 ImageNet-C-100. 为了更快的实验，我们在由100个类组成的ImageNet数据集的较小子集上运行消融。我们将这个数据集称为ImageNet-100。此数据集的损坏版本表示为ImageNet-C-100。自然损坏的数据集。为了评估自然损坏，我们使用了BDD 100k [36]和DAWN [19]。BDD100k由在不同天气条件和一天中不同时间记录的驾驶场景组成。它是一个对象检测数据集。我们遵循[21]为不同的天气条件创建测试拆分：晴，雨和雪。DAWN包含了1000张在恶劣天气条件下拍摄的道路交通环境图像。样本分为四种天气条件：雾、雨、雪和沙尘暴。DAWN仅用于测试数据集与其他分布运动一样的对于非-L电视（f）=Ω|.|.基于腐败的移位，我们使用ImageNet-R [14]和Ob-jectNet [1]. ImageNet-R包含样式的图像，例如特征图xRH×W位于离散网格上。有限差分近似如下：LTV（x）=|xi，j +1 − xi，j|+的|xi +1，j −xi，j|.i、j对象类的抽象或艺术再现。ImageNet- R包含200个ImageNet类的30 k图像渲染。ObjectNet包含50k个图像，其中313个对象类，109个类与ImageNet重叠。图像包含不同的姿势和背景。a）、b）、c）、d）、e）、L2距离：697f）的L2距离：112102155.1.2实现细节评价分类模型通常使用在干净测试集（i.i.d）上计算的误差进行比较。错误度量错误分类的百分比表 1 ： TV 正则化模型与常规训练和使用 AugMix（ImageNet-100）训练相比的分类误差。标准：在自然图像上训练的基线模型。TV正则化大大改善了损坏的测试集，但增加了干净图像上的错误。并且被计算为：（100− Top-1-Accuracy）%。除了对于损坏数据集，我们报告平均损坏误差（mCE）。这涉及首先通过在5个严重性级别上求平均来计算给定损坏类型（c）的未归一化损坏错误（uCEc）然后，对于ImageNet-C-100，我们对所有15种腐蚀类型的uCEc求平均值对于ImageNet-C，我们遵循规范化（uCEc）的约定[15为了评估自然腐败的分类性能，我们报告不同的腐败类型及其平均值的错误。对于对象检测性能，我们使用COCO平均精度（AP）指标，该指标在IoU上的平均值在50%到90%之间。在损坏的数据，我们还报告-端口的腐败类型的平均AP，并表示为mAPc。建筑。我们的实验使用ResNet50。对于ImageNet-100上的消融实验，我们转向了较小的ResNet 18架构。对象检测实验使用FasterRCNN [25]，其中ResNet50作为主干。训练我们采用AugMix数据增强以及JSD一致性损失和默认超参数[17]。对于DeepAugment，我们使用增强图像由Hendryks等人预先计算。[14 ]第10段。为了使用TV正则化进行训练，我们对所有实验使用正则化因子λ=1e−5。与特征图的总变差相比，交叉熵损失非常小，因此，小λ需要平衡两种损失（敏感性分析模型清洁错误mCE标准12.2 49.9上午11.840.9AM电视 14.835.9我们还研究了TV调节的逐层应用及其对高频鲁棒性的影响。TV正则化在早期卷积特征图上的应用是实现强高频鲁棒性的关键。此外，我们评估了不属于ResNet家族的架构的适用性，即 DenseNet和MNas-Net。性能提升与ResNet18相似，没有超参数变化。我们还试验了TV的通用Lp范数公式，并尝试了不同的p值。我们发现p的值对性能没有这些额外的结果包括在补充（第（3）第三章。706050403020100明亮。霜雾雪续弹性变焦运动玻璃Defoc。 JPEG。Pix.小恶魔高斯。枪对于λ，包含在补充文件中，Sec.（3）第三章。我们微调模糊模糊模糊模糊噪音噪音噪音模型，以通过数据增强操作引起HF和LF鲁棒性偏差。对于使用 Faster-RCNN 的对象检测，我们使用了MMDetection框架有关更详细的培训设置，请参见补充资料（第2）的情况。5.2. 电视正规化我们考虑了以下设置：a）在自然图像上训练的标准基线模型，b）用AugMix数据增强（表示为AM）训练，c）用AugMix数据增强和TV正则化（表示为AMTV）训练。图4示出了TV正则化模型在影响高频的所有损坏上始终优于标准和AugMix模型。低频损坏（例如：亮度、对比度、雾），TV正则化具有负面影响。此外，Tab。1显示它增加了清洁误差。这表明TV正则化引起高频鲁棒性偏差，其可以由来自Sec. 四点二。图 4 ： AMTV 模型在不同损坏类型上的分类错误（ImageNet-C-100）。Y轴：给定损坏类型在所有严重性上的平均误差。X轴：从低到高频率排序的破裂类型（由颜色梯度指示）。排序基于腐败类型中的高频内容的数量;参见补充（第①的人。标准表示在自然图像上训练的基线模型。使用AugMix训练的模型通常更健壮，TV正则化补充了这一点，在所有高频损坏上都有更好的性能，使其成为优秀的高频专家。5.3. 诱导目标稳健性偏倚5.3.1高频鲁棒性我们之前已经看到，TV正则化以干净图像和低频损坏上的更高误差为代价减少了特别地，我们观察到对于噪声和噪声的改进的鲁棒性。AMT是标准损坏错误10216高斯AM电视-英尺是AM-ftGauss损坏错误N6060505040403030202010100明亮。霜雾雪续弹性变焦运动玻璃Defoc。 JPEG。Pix.小恶魔高斯。枪0明亮。霜雾雪续弹性变焦运动玻璃Defoc。JPEG。Pix.小恶魔高斯。枪模糊模糊模糊模糊噪音噪音噪音模糊模糊模糊模糊噪音噪音噪音(a) 高频稳健性偏倚（b）低频稳健性偏倚图5：稳健性偏差及其对腐败类型绩效的影响图5a和图5b分别示出了表现出高频和低频鲁棒性偏差的模型的损坏误差Y轴：不同损坏类型的损坏错误（严重性级别的平均值）。X轴：从低到高频率排序的腐败类型。在图5a中，AMTV和AMTV-fT高斯都对高频破坏具有鲁棒性。AM电视-英尺高斯显示更大的改善模糊腐败。图5 b示出了AM-ftCont对低频损坏类型的改进。令人惊讶的是，它还提高了一些噪声损坏的性能。比较图5a和图5b，我们可以看到这些模型有非常不同的偏差。表2：由于数据增强导致的稳健性偏差（ImageNet-100上的结果）。利用高斯噪声和高斯模糊的微调引起高频鲁棒性偏差，而使用对比度增强引起低频鲁棒性偏差。模特罗伯偏置干净的错误。 mCE上午11.840.9AM-英尺连续左前11.839.1AM-ftGaussHF 13.2 32.5AMTV HF 14.8 35.9AMTV-ftGaussHF 16.031.5模糊腐败我们测试了通过对AugMix模型进行微调，将高斯噪声和高斯模糊增强应用于图像，可以在多大程度上实现这种效果。我们使用从（0，0. 08）。对于高斯模糊，我们使用3.我们用这些高频增强操作对AM和AM电视模型进行了微调。我们将这些模型分别表示为AM-ft高斯模型和AM-TV-ft高斯模型.选项卡. 图2示出了TV正则化与HF增强操作组合获得最佳mCE。尽管与AM-ft高斯相比的差距看起来很小，但是这些增益对于模糊损坏更明显（参见图1B）。（见第5a段）。因此，TV正则化对高斯噪声和模糊增强具有互补效果。当我们添加更多的高频鲁棒性偏差时，在干净图像和低频损坏上的性能恶化。5.3.2低频鲁棒性为了引起对低频失真的鲁棒性，我们用对比度增强进行微调，这是一种简单的通用变换，主要影响低频分量（见图11）。2）的情况。Yin等[35]通过以下方式明确地将噪声添加到具有从雾损坏采样的幅度的傅立叶分量，并且发现这种方法降低了低频损坏类型（甚至在雾上）的性能-这表明不存在明确相反，我们观察到具有低频扰动（诸如对比度增强）的微调模型确实改善了对其他低频损坏（雾、霜、亮度）的性能。它也不会降低清洁错误，如选项卡所示。二、图5b示出了它还改善了针对某些高频损坏（如噪声）的性能，同时在模糊上降级它。这表明，与高频增强操作相比，权衡更为微妙。我们还尝试了LF数据增强方法，随机扰动补丁集中在0-频率分量。然而，与造影剂相比，该方法的性能较差（参见补充资料，第4节）。5.4. 组合频率偏置模型表3：与标准集合（ImageNet-100）的性能比较。模型1和模型2表示两个成员。对于标准集合，两个模型被独立地训练，但具有相似的偏差（前两行）。我们的结果（第三和第四行）显示了在保持干净性能的同时对损坏的改进性能。模型1模型2干净的错误。mCE是是10.939.1AMGauss，续AMGauss，续11.029.0AM-ftGaussAM-英尺连续11.428.4AMTV-ftGaussAM-英尺连续11.725.9我们能在不降低干净错误的情况下改善腐败吗？选项卡. 图2示出了用于高频鲁棒性的偏置模型改善了损坏误差，但降低了干净误差。AM-ft连续模型保留了干净数据集的性能，同时提高了某些数据集的性能。是AM-英尺连续损坏错误10217基线（单次）Clean vs. Corruption错误（ImageNet-100）16151413表4：ImageNet和ImageNet-C上的结果。我们比较的RoHL其他国家的最先进的方法，使用ResNet50架构和两个AMDA模型的合奏已经提高了国家的最先进的。RoHL显示了干净错误和mCE之间的最佳权衡。12不第十一章25 30 35 40 45 50损坏错误（mCE）图6：ImageNet-100上的Clean vs corruption错误每个点表示具有特定损坏误差（X轴）和干净误差（y轴）的模型。更接近原点的点表明在干净错误和腐败错误之间有更好的权衡蓝色：基线。橙色：RoHL的变体。点：单一型号。明星：两个模型的合奏。腐败，大多是低频的。由于这两个模型具有不同的频率偏差，因此很自然地会问-我们可以通过组合它们来提高性能吗？由于集成一般有一个积极的影响，分类精度，我们建立了标准的集成基线比较建议的专家集成。第一基线由两个AM模型组成。正如我们已经看到的，附加的增强操作改善了mCE，我们考虑第二个集合，其中每个 AM 模型用所有使用的增强操作（除了默认的AugMix操作之外的高斯噪声、模糊和我们将第二系综的成员表示为AM高斯，续。在这些基线集合中，成员模型具有相同的偏差，因为它们使用相同的训练管道。选项卡. 图3示出了专家组合（AMTV-ftGauss，AM-ftCont）提供了最佳的干净和损坏误差折衷。这两个模型构成了我们RoHL方法的高频和低频专家。它将腐败错误提高了13。2%的点相比，AM合奏基线，而降低的清洁误差只有0。百分之八点。低清洁错误和对损坏的高鲁棒性之间的权衡在图中最佳地可视化。6，其中我们绘制了各种模型的清洁与损坏错误。组合具有不同偏差的模型比组合具有相同偏差的模型提供更好的权衡。5.5. 扩展到ImageNet在之前的实验中，我们逐步展示了HF和LF专家模型的训练方案。加入RoHL。在本节中，我们将验证该概念是否适用于更大的ResNet 50架构和完整的Ima-geNet数据集。此外，我们不仅使用AugMix进行多样化的数据增强，而且还将AugMix与DeepAugment相结合，这是Hendryks等人最近提出的一种模型。[14 ]第10段。我们首先用TV正则化和Aug- Mix训练了一个模型为了使用DeepAugment进行训练，我们跟随Hendryks等人。 [14] 并使用 AugMix 和 Deep-Augment （表示为AMDATV）对该模型进行了微调。通过用高斯噪声和模糊增强对AMDATV模型进行微调来获得高频专家模型（表示为AMDATV-ftGauss）。低频专家是通过微调公开可用的AMDA模型与对比增强。我们将该模型表示为AMDA-ftCont。选项卡. 图4和图1比较了我们的RoHL方法与ResNet50模型的最新技术水平。标准基线是在干净图像上训练的模型，具有随机裁剪和水平翻转。Ensemble（AMDA，AMDA）是一个由AugMix和DeepAugment训练的最先进的AMDA模型的两个成员组成的集合 RoHL 相对于先前的最新技术水平（AMDA）及其集成版本在。5.6. 真实图像损坏5.6.1对象分类BDD100k和黎明是对象检测数据集包含，ING多个对象实例，每个图像，因此不能直接用于分类设置。我们提取的对象图像为每个类使用2D边界框annotations首先将这些数据集转换为标准的classisation设置。转化的变体表示为BDD 100 k-cls和DAWN-cls。清理错误AMTV-英尺气体USS频率偏倚基线（ens RoHL变体型号（单emble）s（集合））AM电视AM-ftG奥斯AM-ftCStont安达-R18RoHL（AMTV-英尺RoHL（AM-f高斯，AM-ft连续高斯，AM-ft浓度）RoHL（At）AMMTV，AM）E ns（AM高斯，续，AMGauss，续Ens（AM，AM）模型干净的错误。mCE标准[13]23.976.7[14]第十四话22.465.8自我关注（Self-Attention）22.468.2hesCBAM（自我注意）[14]22.470.0OAC[32]第三十二话46.294.0PPR[26]第二十六话24.268.3一StyleTransfer [12]25.469.3TA美国（AM）[17]22.565.3所以美国（USA）[14]23.360.4AugMix+DeepAugment（AMDA）[14]24.253.6基线集合（AMDA，AMDA）24.051.9UrsRoHL（AMTV，AM）22.261.1ORoHL（AMDATV，AMDA）23.649.7RoHL（AMDATV-ftGauss，AMDA-ftCont）22.747.910218∼表5：自然破裂的对象分类性能。我们显示各种天气腐败的错误表7：调整BN统计后的结果。有无自适应的误差显示在自适应和基数列中。在DAWN-cls测试集中。黎明没有一个人损坏的测试集，因此我们显示了BDD 100 k-cls的“清除”测试分割的结果型号ClearFog雨砂雪误差mCE错误标准数据扩充26.316.130.321.5模型ImageNet-C DAWN-clsmCE基地适应基极适配器标准76.762.223.5十六点八AMDA53.645.416.4十三点六乐团（AMDA，AMDA）51.944.716.2十三点五罗尔(AMDATV-ftGauss ，AMDA-ft（续）47.941.214.5十二点四AMDA4.916.419.4十点九分21.613.6Ensemble（AMDA，AMDA）4.916.219.0十点八21.413.5RoHL（AMDA TV-ftGauss，AMDA-ftCont）4.7 14.517.7十点六19.010.6我们在BDD 100 k-cls的“清晰”分割上微调了我们的ResNet 50 模型（在Im-ageNet 上预先训练）。对于RoHL，我们使用HF和LF偏置进行微调。我们在BDD100 k-cls和DAWN-cls的损坏测试集上进行了评估。我们观察到BDD100k中存在的天气扭曲是相当良性的[19，21]。因此，损坏的测试集不影响训练的模型的性能，即使使用标准数据增强（i.i.d和OOD之间的2%差距;参见补充，第二节。（六）。DAWN包含更严重的失真，因此更具挑战性（例如，参见补充材料，第2节）。（八）。选项卡. 5比较RoHL的性能。与基线相比，RoHL在所有真实损坏上表现更好。5.6.2对象检测表6：FasterRCNN中使用的不同ResNet50骨干的对象检测性能。我们报告AP分数的AP分数越高越好。mAPc表示损坏类型上的平均AP。预训练骨干清除雾雨砂雪APmAPcAP标准数据扩充21.525.1二十四点八二十一点七协会32.427.224.926.227.6 24.8合奏（协会，协会）25.4 26.227.624.2RoHL（AMDA TV-ftGauss，AMDA-ftCont）32.628.824.9二十四点九28.1 33.4为了评估对象检测，我们使用在BDD-100 k-cls上微调的模型为了结合基线集合和RoHL的预测，我们对边界框预测和类别概率进行了平均（在 RPN 和 Fast-RCNN阶段[25]）。有关实施细节，请参见补充（第2）的情况。选项卡. 图6示出了RoHL在对象检测的范围内也在基线上改进5.7. 其他领域转移为了测量图像损坏以外的分布偏移的性能与前面的章节类似，我们比较了AMDA模型的两成员系综对ImageNet-R，RoHL将误差提高了0。百分之七。在ObjectNet上，我们得到了1. 百分之五这些分布变化的收益是微不足道的。这是可以预期的，因为例如对象姿态变化是我们的方法未涵盖的高级修改。见补充（第7)查看详细结果。5.8. 无监督域自适应我们使用Schneider等人的方法评估了我们的模型在适应后的性能。在测试时更新批范数统计量的方法[27]。选项卡. 7显示了ImageNet-C和DAWN-cls上的结果。RoHL6. 结论我们证明了两个专家模型的混合- 一个专用于图像的高频频谱中的损坏，而一个专用于低频频谱中的损坏-一致地改善了损坏样本上的低误差与常规干净样本上的低误差之间的折衷。我们还表明，这种方法增加了相同大小的常规合奏的好处。此外，我们引入了第一特征映射上的TV最小化作为一种新的正则化技术，它不断地改善了高频腐败，并与该领域的其他措施相该原理在所使用的基础模型和数据集大小方面是灵活的我们表明，收益转移到现实世界的腐败，也适用于对象检测。致谢实验主要在由德国研究基金会（INST 39/1108-1）资助的深度学习集群上运行。我们还要感谢Google捐赠GCP学分。该研究由德国联邦科学和教育部在“DeToL -深度拓扑学习”项目中资助，并由德国联邦经济事务和能源部在“KIDelta学习-开发用于有效扩展和转换现有自动驾驶汽车AI模块到新领域的方法和工具”项目中资助作为“Investissementsdavenir”计划的一部分，其部分资金也由法国政府提供，由Agence Nationale de la Recherche管理，10219引用[1] Andrei Barbu 、 David Mayo 、 Julian Alverio 、 WilliamLuo 、 Christopher Wang 、 Dan Gutfreund 、 JoshTenenbaum和Boris Katz。Objectnet：一个大规模的偏差控制数据集，用于推动对象识别模型的极限。NeurIPS，2019。4[2] JulienBect、LaureBlanc-Fe'raud、GillesAubert和AntoninChambolle 。图像复原的 l1- 统一变分框架。InToma´ sPajdlaandJiˇr´ıMatas，editors，ECCV，2004.二、三[3] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。ICLR，2018年。2[4] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现：绕过十种检测方法。在AISec研讨会，2017年。2[5] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.MM检测：打开mmlab检测工具箱和基准测试。arXiv，2019年。5[6] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，无需训练替代模型即可对深度神经网络进行攻击。在AISec研讨会，2017年。2[7] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。CVPR，2019年。第1、3条[8] Yinpeng Dong ， Fangzhou Liao ， Tanyu Pang ， HangSu，Jun Zhu，Xiaolin Hu，and Jianguo Li.给敌对的进攻增加动力。在CVPR，2018年。2[9] Yinpeng Dong，Hang Su，Baoyuan Wu，Zhifeng Li，Wei Liu，Tong Zhang，and Jun Zhu.基于决策的黑盒对抗性攻击在人脸识别中的应用。在CVPR，2019年。2[10] 尼克·福特，贾斯汀·吉尔默，尼古拉斯·卡利尼，和多格斯·库布克。对抗性示例是噪声中测试错误的自然结果ICML，2019年。一、二[11] 放大图片作者： Robert Geirhos ， Patricia Rubisch ，Claudio Michaelis，Matthias Bethge，Felix A.Wichmann和Wieland Brendel。ImageNet训练的CNN偏向于纹理;增加形状偏差提高了精度和鲁棒性。 2019 年，在ICLR。一、二[12] Robert Geirhos ， Carlos RM Temme ， Jonas Rauber ，HeikoH Sc hütt，MatthiasBethge，andFelixAWichmann. 人类和深度神经网络的一般化。NeurIPS，2018。一、二、七[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，an

下载后可阅读完整内容，剩余1页未读，立即下载