分布外鲁棒性评估和数据增强方法探究

26 浏览量更新于2023-10-15 收藏 1.02MB PDF 举报

数据集

数据增强

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1×个鲁棒性的多面性：分布外泛化的批判性分析Dan Hendrycks1史蒂文巴萨特酒店2*诺曼穆酒店1*Saurav Kadavath1弗兰克·王3埃文·多伦多3Rahul Desai1泰勒·朱1Samyak Parajuli1Mike Guo1黎明之歌1雅各布斯坦哈特1贾斯汀吉尔默3摘要我们介绍了四个新的现实世界的分布变化数据集，包括图像风格，图像模糊，riness，地理位置，相机操作，和更多的变化。通过我们的新数据集，我们评估了以前提出的用于提高分布外鲁棒性的方法，并对其进行了测试。我们发现，使用更大的模型和人工数据增强可以提高对现实世界分布变化的鲁棒性我们发现人工鲁棒性基准的改进可以转移到现实世界的分布变化，与以前的工作中的受我们观察到数据增强可以帮助真实世界分布变化的启发，我们还引入了一种新的数据增强方法，该方法推进了最先进的技术，并且优于用1000多个标记数据预训练的模型。总的来说，我们发现一些方法始终有助于纹理和局部图像统计中的分布变化，但这些方法无助于一些其他分布变化，如地理变化。我们的研究结果表明，未来的研究必须同时研究多个分布的变化，因为我们证明，没有评估的方法始终提高了鲁棒性。1. 介绍虽然研究界必须创建适用于新场景的稳健模型，但稳健性文献[6，9]缺乏对评估基准的共识，并且包含许多不一致的假设。Hendrycks等人，2020 [14]发现许多最近的语言模型已经对许多形式的分布变化具有鲁棒性，而其他人[37，10]发现视觉模型在很大程度上是脆弱的，并认为数据增强提供了一种解决方案。相比之下，其他研究人员[30]提供的结果表明，使用预训练和提高分布内测试集的准确性可以提高自然鲁棒性，而其他方法则不能。*同等贡献。1加州大学伯克利分校，2芝加哥大学，3谷歌。代码可在https://github.com/hendrycks/imagenet-r上获得。之前的工作也提供了对经验结果的各种解释，例如纹理偏差假设，即卷积网络偏向于纹理，损害了鲁棒性[10]。此外，一些作者假定了合成基准点上的稳健性与真实世界的分布变化，对从合成基准进行的实验得出的结论的一般性产生怀疑[30]。难以仲裁这些假设，因为现有的鲁棒性数据集改变多个因素（例如，时间、相机、位置等）同时以未指定的方式[26，16]。现有的数据集也缺乏多样性，使得难以推断哪些方法将更广泛地提高鲁棒性。为了解决这些问题并测试上述方法，我们引入了四个新的鲁棒性数据集和一个新的数据增强方法。首先，我们介绍 ImageNet-Renditions （ ImageNet-R），这是一个包含各种渲染（例如，绘画、刺绣等）ImageNet对象类。这些渲染是自然发生的，纹理和局部图像统计数据与ImageNet图像不同，允许我们在合成鲁棒性基准上比较增益。接下来，我们研究了 StreetView StoreFronts（SVSF）和DeepFashion Remixed（DFR）的图像捕获过程中的变化的影响。SVSF包含从谷歌街景收集的商业DFR利用来自DeepFash2 [8]的元数据在测试时系统地移动对象遮挡、方向、缩放和缩放。SVSF和DFR都提供分布移位控制，并且不改变纹理，这消除了影响先前基准的可能的混杂变量此外，我们还收集了真实的模糊图像，它由ImageNet类的100个类子集中的1000个模糊自然图像组成该基准测试用作ImageNet-C基准测试[12]的合成模糊损坏的真实模拟。有了它，我们发现人工合成的腐败与自然界中出现的腐败有关联83408341图1：来自我们四个新数据集中的三个的图像ImageNet-Renditions（ImageNet-R），DeepFashion Remixed（DFR）和StreetView StoreFronts（SVSF）。SVSF图像是从公共Google StreetView重新创建的。我们的数据集测试了对各种自然发生的分布变化的鲁棒性，包括渲染风格，相机视点和地理位置。这与以前的工作相矛盾[30]。最后，我们贡献了DeepAugment来增加对一些新类型的分布偏移的鲁棒性。这种增强技术使用图像到图像神经网络进行数据增强。DeepAugment提高了我们新引入的ImageNet-R基准测试的鲁棒性，并且还可以与其他增强方法相结合，以超过在1000倍以上的标记数据上预训练的模型。我们使用这些新的数据集来测试四种主要的方法，以提高鲁棒性：• 更大的模型：增加模型大小可提高对分布偏移的稳健性[12，35]。• 自我注意：向模型添加自我注意层可以提高鲁棒性[16]。• 多样化的数据增强：通过数据增强可以增加鲁棒性[37]。• 预训练：在更大和更多样化的数据集上进行预训练可以提高鲁棒性[25，13]。在检查了我们在这四个新数据集以及之前的基准上的结果作为一个示例，我们发现合成数据增强鲁棒性干预提高了ImageNet-R和真实世界图像模糊分布偏移的准确性，这为使用合成鲁棒性基准提供了证据，并且还加强了纹理偏差假设。在结论中，我们总结了支持和反对每个假设的各种证据。在我们的许多实验中，我们没有找到一个通用的方法，一贯提高鲁棒性，一些假设需要额外的资格。虽然鲁棒性经常被称为和测量作为一个单一的标量属性，如准确性，我们的调查表明，鲁棒性并不那么简单。我们的研究结果表明，未来的鲁棒性研究需要更彻底的评估使用更强大的数据集。2. 相关工作稳健性基准。最近的工作[12，26，14]已经开始用各种新的测试集来表征模型在分布外（OOD）数据上的性能，结果不一致。例如，先前的工作[14]表明，现代语言处理模型对许多自然发生的分布变化具有适度的鲁棒性，并且IID准确性不能直接预测自然语言任务的OOD准确性。对于图像识别，其他工作[12]分析了图像模型，并表明它们对各种模拟图像损坏（例如，噪声、模糊、天气、JPEG压缩等）ImageNet-C基准测试。Recht等人，2019 [26]重现ImageNet [28]验证集，用作计算机视觉中自然发生的分布变化他们的评估显示，从ImageNet到名为ImageNet V2的新验证集，在广泛的架构中，准确率下降了 11-14%[30] 使用ImageNetV2来测量自然鲁棒性，并得出结论，数据增强等方法不会显着提高鲁棒性。最近， [7] 在ImageNetV2的构造中发现了统计偏差数据增强。最近的工作[10，37，15]证明数据增强可以提高ImageNet-C的鲁棒性。有助于鲁棒性的增强空间包括各种类型的噪声[22，27，21]，高度不自然的图像变换[10，38，39]，或简单图像变换的组合，例如Python Imaging Library操作[4，15]。其中一些增强可以8342绘画雕塑刺绣折纸卡通玩具图2：ImageNet-Renditions（ImageNet-R）包含30，000个具有不同纹理和样式的ImageNet对象的图像此图仅显示了ImageNet-R众多渲染样式的一部分再现样式（例如，“Toy”）是为了清楚起见，不是ImageNet-R的类; ImageNet-R的类是200个ImageNet类的子集。提高了分布内示例和分布外（OOD）示例准确性3. 新数据集为了评估这四种鲁棒性方法，我们引入了四个新的基准，捕捉新类型的自然发生的分布变化。ImageNet-Renditions（ImageNet-R）和Real Blurry Images都是新收集的用于ImageNet分类器的测试集，而StreetViewStoreFronts（SVSF）和DeepFashion Remixed（DFR）各自包含自己的训练集和多个测试集。SVSF和DFR基于存储在元数据中的各种图像属性例如，我们可以选择具有由不同于训练集相机的相机产生的图像的测试集。我们现在描述每个数据集的结构和集合。3.1. ImageNet-Renditions（ImageNet-R）虽然当前的分类器可以学习对象形状的某些方面[24]，但它们仍然严重依赖于自然纹理线索[10]。相比之下，人类视觉可以处理抽象的视觉再现。例如，人类可以从线条画中快速准确地识别视觉场景，就像从照片中一样[3]。甚至一些灵长类动物物种也表现出通过线条图识别形状的能力[18，29]。为了测量对各种抽象视觉再现的泛化，我们创建了ImageNet-Rendition（ImageNet-R）数据集。ImageNet-R包含来自原始ImageNet数据集的对象类的各种艺术再现。请注意，原始ImageNet数据集不鼓励此类图像，因为标注人员被指示收集没有图纸等等”[5]的文件。我们反其道而行之。数据收集。ImageNet-R包含200个ImageNet类的我们选择ImageNet-1 K类的子集，遵循[16]，原因有几个。少数ImageNet类已经有了许多版本，比如我们还选择了一个子集，以便模型错误分类是惊人的，并减少标签噪声。200类子集也选择了基于再现流行，因为“草莓”再现比“散热器”再现更容易获得。如果我们使用所有1，000个Ima-geNet类，注释者将被迫区分Norwich terrierrenditions和Norfolk terrier renditions，这是困难的。我们主要从Flickr收集图像，并使用诸如“艺术”、“卡通”、“涂鸦”、“刺绣”、“图形”、“折纸”、“绘画”、“图案”、“塑料对象”、“毛绒对象”、“雕塑”、“线条画”、“纹身”、“玩具”、“视频游戏”等查询。图像由AmazonMTurk注释器使用ImageNetV2中修改过的收集界面进行过滤。26]。例如，在用查询“灯塔卡通”来抓取Flickr图像之后最后，作为第二轮质量控制，研究生手动过滤结果图像，并确保单个图像具有正确的标签，不包含多个标签。示例在图2中描绘。ImageNet-R还包括来自[32]的线条图，不包括水平镜像的重复图像，漆黑的图像和来自错误收集的“海盗船”类的图像3.2. 街景店面（SVSF）计算机视觉应用通常依赖于来自复杂管道的数据，这些管道跨越不同的硬件、时间和环境。8343图3：来自真实模糊图像的图像示例。该数据集允许我们测试ImageNet-C的合成模糊损坏的模型性能是否地理该管道中的环境变化可能导致意外的性能降低，例如泰国的医疗保健提供者在现场部署实验室调整的糖尿病视网膜病变分类器时所经历的性能降低[2]。为了研究在图像捕获过程中，我们收集了StreetViewStore- Fronts （ SVSF ）数据集，这是一个从 GoogleStreetView图像[ 1 ]中采样的新图像分类数据集，专注于三个分布偏移源：国家、年份和相机。数据收集。SVSF由通过对象检测模型从StreetView图像中提取的商业店面的通过机器学习模型和人工注释器的组合，为每个店面图像分配关联的Google Maps业务列表的类别标签。我们结合了几种视觉上相似的业务类型（例如：药店和药房）共20类，列在补充材料中。将数据按照国家、年份和相机这三个元数据属性进行拆分，我们创建了一个训练集和五个测试集。我们使用“新”相机系统从2019年在美国/墨西哥/加拿大拍摄的图像中抽取了一个训练集和一个分布测试集（分别为200 K和10 K图像）然后，我们对四个OOD测试集（每个10K图像）进行采样，每次改变一个属性，同时保持其他两个属性与训练分布一致我们的测试集是年份：2017年，2018年;国家：法国;相机：“老”。3.3. DeepFashion混合日常摄影机操作中的更改可能会导致对象大小、对象遮挡、摄影机视点和摄影机缩放等属性发生变化。为了衡量这一点，我们重新利用DeepFashion2 [8]来创建DeepFashion Remixed（DFR）数据集。我们指定了一个训练集与48K的图像，并创建八个分布测试集，以测量性能下的对象大小，对象遮挡，相机的观点，和相机放大的变化。DeepFashion Remixed是多标签分类任务，因为每个图像可以包含多于一个的服装项目。数据收集。与SVSF类似，我们为训练分布中的四个元数据属性中的每一个固定一个值。具体地，DFR训练集包含具有中等比例、中等遮挡、侧面/背面视点并且没有放大的图像在对一个IID测试集进行抽样后，通过每次改变一个属性，构造了8个OOD测试分布，得到了最小和重遮挡的测试集;小规模和大规模;正面和未磨损的视点;以及中放大和大放大。有关测试集尺寸的详细信息，请参见补充资料。3.4. 真实模糊图像我们收集了1,000个真实世界模糊图像的小数据集，以捕获真实世界的损坏并验证合成图像损坏基准，如ImageNet-C。我们从Flickr收集示例见图3。每个图像都属于100个ImageNet类中的一个。4. 深度增强为了进一步探索数据增强的效果，我们引入了一种新的数据增强技术。鉴于大多数以前的数据增强技术使用应用于原始图像本身的简单增强基元，我们引入了DeepAugment，它通过扰乱深度网络的内部表示来扭曲图像。DeepAugment的工作原理是通过图像到图像网络传递干净的图像，并在前向传递过程中引入几个扰动。这些扰动是从一组手动设计的函数中随机采样的，并应用于网络权重和随机层的前馈信号。例如，我们的扰动集包括归零、求反、卷积、转置、应用激活函数等。这种设置8344×个×个图4：DeepAugment示例保留了语义，是数据相关的，并且比旋转更具视觉多样性生成语义一致的图像，具有独特和多样的失真，如图4所示。尽管我们的扰动集是用随机操作设计的，但我们表明DeepAugment在ImageNet-C和ImageNet-R等基准测试中仍然优于其他方法。我们在补充材料中提供了伪代码。对于我们的实验，我们特别使用CAE [31]和EDSR[20]架构作为DeepAugment的基础CAE是一种自动编码器架构，EDSR是一种超分辨率架构。这两个架构显示了DeepAugment方法适用于不同的架构。原始数据集中的每个干净图像通过网络，从而随机失真，导致干净数据集的两个失真版本（一个用于CAE，一个用于EDSR）。然后，我们同时在增强的和干净的数据上进行训练，并将这种方法称为深度增强。EDSR和CAE架构是任意的。我们表明，DeepAugment方法也适用于补充材料中未经训练的随机采样架构。5. 实验5.1. 设置在本节中，我们简要描述了评估的模型，预训练技术，自我注意机制，数据aug-注意各种实现细节。模型架构和大小。大多数实验在标准ResNet-50模型上进行评估[11]。模型大小评估使用不同大小的ResNets或ResNeXts [36]训练前。对于预训练，我们使用ImageNet-21 K，它包含大约21，000个类和大约14个100万个标记的训练图像，或者比ImageNet-1 K多10个标记的训练数据我们还调优了ImageNet-21K 模型 [19] 。我们还使用了一个大型的预训练ResNeXt- 101模型[23]。这是在大约10亿张带有标签标签的Instagram图像上进行的预训练，并在ImageNet-1 K上进行了微调。这种弱监督学习（WSL）预训练策略使用了大约1000个标记数据。自我关注。在研究自我注意力时，我们采用CBAM [34]和SE [17]模块，这是两种形式的自我注意力，有助于模型学习空间距离依赖性。数据增强。我们使用 Style Transfer 、 AugMix 和DeepAugment来评估数据增强的好处，并将它们的性能与更简单的噪声增强（如斑点噪声和对抗性噪声）进行对比。风格转移[10]使用风格转移网络将艺术作品风格应用我们使用AugMix [15]，它随机组成简单的增强操作（例如， translate ， posterize ， solarize ）。DeepAugment，引入8345×个+ CBAM（自我关注）+ l∞对抗训练25.1 68.643.5+斑点噪声8.1 62.154.0+ 风格转移增强8.9 58.549.6+ AugMix 7.1 58.951.8+ DeepAugment 7.5 57.850.3+ DeepAugment + AugMix 8.0 53.245.2ResNet-152（较大型号）6.8 58.751.9表 1 ： ImageNet-200 和 ImageNet-R top-1 错误率。 ImageNet-200 使用与 ImageNet-R 相同的 200 个类 DeepAug-ment+AugMix比基线提高超过10个百分点。我们将ImageNet-21 K Pretraining和CBAM分别作为预训练和自我注意的风格转移、AugMix和DeepAugment都是更复杂的数据增强的实例，而不是更简单的基于噪声的增强，例如l∞对抗噪声和斑点噪声。虽然还有很大的改进空间，但结果表明ImageNet-R的进展是容易处理的。上面的方法使图像到图像模型的权重和前馈通道失真斑点噪声数据增强将每个像素乘以（1+x），其中x从正态分布中采样[27，12]。我们还将对抗性训练视为自适应数据增强的一种形式，并使用[33]中的模型对大小为ε= 4/255的l ∞扰动进行训练。5.2. 结果我们现在在ImageNet-R ，StreetView StoreFronts，DeepFashion Remixed和Real Blurry Images上进行实验我们还在ImageNet-C上进行了评估，并将其与真实的分布变化进行了比较和对比。ImageNet-R. 表1显示了ImageNet-R和ImageNet-200（原始ImageNet数据仅限于ImageNet-R的200个类）上的性能。这对四种特定方法的假设有几个影响。使用ImageNet-21 K（大约10个标记数据）进行预训练几乎没有帮助。补充材料显示WSL预训练可以提供帮助，但Instagram有渲染，而ImageNet排除了它们;因此，我们得出结论，可比较预训练是无效的。注意，自我关注会增加IID/OOD差距。与简单的数据增强技术，如斑点噪声相比，数据增强技术的风格转移，增强混合和深度增强提高泛化。注意AugMix和Deep-Augment提高了分发中的性能，而风格转移则损害了它。此外，我们的新DeepAugment技术是最好的独立方法，错误率为57.8%。最后，更大的模型缩小了IID/OOD差距。至于文献中关于模型鲁棒性的先验假设，我们发现，通过不同的数据增强使网络偏离自然纹理，改善了每表演。IID/OOD泛化差距因方法而异，这表明仅针对IID设置优化的模型可以显著优于趋势线。最后，由于ImageNet-R包含真实世界的示例，并且由于数据增强有助于ImageNet-R，我们现在有明确的证据反对鲁棒性干预无法帮助自然分布变化的假设[30]。街景店面。在表2中，我们评估了SVSF上的数据增强方法，发现所有测试方法的性能基本相似，并且没有任何方法对国家转移有很大帮助，其中错误率大致翻了一番。这里，由于数据集的每个实例化的30天保留窗口，评估限于扩增。在法国拍摄的照片包含明显不同的建筑风格和店面设计比那些在美国/墨西哥/加拿大拍摄;同时，我们无法找到相机和年份的明显和一致的指示器。这可以解释评价方法对相机和年份偏移的相对不敏感性。这里的总体数据增强显示出有限的益处，这表明数据增强主要有助于与ImageNet-R一样对抗纹理偏差，或者现有的增强不够多样化，无法捕获高级语义转变，例如建筑架构。DeepFashion Remixed. 表3示出了我们对DFR的实验发现，其中所有评估的方法具有接近基线的平均OODmAP事实上，大多数OOD mAP增加跟踪IID mAP增加。一般来说，DFR的大小和遮挡移位对性能的损害最大。我们还使用随机擦除增强进行评估，该增强删除图像中的矩形，以模拟遮挡[40]。“随机擦除”提高了遮挡性能，但“样式转移”的帮助更大。没什么实质性的ImageNet-200（%）ImageNet-R（%）间隙ResNet-507.963.956.0+ ImageNet-21 K预训练（10×标记数据）7.07.062.863.255.856.28346×个硬件年份位置网络IID老20172018法国ResNet-5027.228.627.728.356.7+ 斑点噪声28.529.529.229.557.4+ 风格迁移29.931.330.231.259.3+ DeepAugment30.531.230.231.359.1+ AugMix26.628.026.527.755.4表2：SVSF分类错误率。网络对一些自然分布的变化是鲁棒的，但比地理变化更敏感。在这方面，数据扩充几乎没有帮助。尺寸遮挡视点变焦网络IID OOD小大轻微/无重无磨损侧/背中大ResNet-5077.655.139.473.051.541.250.563.248.773.3+ ImageNet-21 K预训练80.858.340.073.655.243.063.067.350.573.9+ SE（自我注意）77.455.338.972.752.140.952.964.247.872.8+ 随机擦除78.956.439.975.052.542.653.466.048.873.4+ 斑点噪声78.955.838.474.052.640.855.763.847.873.6+ 风格迁移80.257.137.676.554.643.258.465.149.272.5+ DeepAugment79.756.338.374.552.642.854.665.549.572.7+ AugMix80.457.339.474.855.342.857.366.649.073.1ResNet-152（较大型号）80.057.140.075.652.342.057.765.648.974.4表3：DeepFashion Remixed结果。与前面的表不同，越高越好，因为所有值都是该多标签分类基准的mAP分数。“OOD”列是该行最右边的八个OOD值的平均值。所有的技术都没有缩小IID/OOD泛化的差距。改进的OOD性能超出了IID性能所解释的范围，因此在此设置中，似乎只有IID性能重要。我们的研究结果表明，虽然一些方法可能会提高某些形式的分布变化的鲁棒性，没有任何方法大大提高了所有变化的性能。真实模糊图像与ImageNet-C 我们现在考虑以前的鲁棒性基准来评估四种主要方法。我们使用ImageNet-C数据集[12]，它应用了15种常见的图像损坏（例如，高斯噪声、离焦模糊、模拟雾、JPEG压缩等）ImageNet-1K验证图像。我们发现DeepAugment提高了ImageNet-C的鲁棒性。图5显示，当使用AugMix和DeepAugment训练模型时，它们设置了一个新的最先进的状态，打破了趋势线，并超过了在1000多个标记的训练数据上训练所提供的腐败鲁棒性。请注意， AugMix 和DeepAugment的增强与ImageNet-C的损坏不相交。完整结果见补充材料。IID准确性本身显然无法捕捉模型鲁棒性的全部故事。相反，更大的模型，自我注意，数据增强和预训练都提高了鲁棒性，远远超出了它们对IID准确性的影响所预测的最近的一项工作[30]提醒我们，ImageNet-C使用各种合成腐败，并建议它们与现实世界的鲁棒性解耦。现实世界的健壮性需要推广到自然发生的损坏，例如例如雪、雾、模糊、低光照噪声等，但ImageNet-C的模拟损坏是否有意义地近似真实世界的损坏是一个悬而未决的问题我们在真实模糊图像上评估了各种模型，发现所有有助于ImageNet-C的鲁棒性干预措施也有助于真实世界的模糊图像。因此，ImageNet-C可以跟踪真实世界的腐蚀性能。此外，DeepAugment+AugMix在真实模糊图像上具有最低的错误率，这再次与合成与自然二分法相矛盾。结果是ImageNet- C是现实世界鲁棒性的受控和系统代理我们的结果在补充材料中得到了扩展，表明更大的模型，自我注意力，数据增强和预训练都有帮助，就像在ImageNet-C上一样。在这里，DeepAugment+AugMix达到了最先进的水平。这些结果表明，ImageNet-C的模拟腐败跟踪现实世界的腐败。事后看来，这是意料之中的，因为几十年来，各种计算机视觉问题已经使用合成腐败作为现实世界腐败的代理。简而言之，ImageNet-C是一个多样化和系统化的基准测试，与现实世界的改进相关。6. 结论在本文中，我们介绍了四个真实世界的数据集，用于评估计算机视觉模型的鲁棒性： ImageNet-Renditions，DeepFashion Remixed，StreetView8347++− −多样化数据增强+−预训练++− −表4：针对不同数据集测试时每种方法的高度简化说明证据表示IID与OOD泛化706050403068 70 72 74 76 78 80 82ImageNet准确度（%）图5：ImageNet精度和ImageNet-C精度。以前的架构进步缓慢地转化为ImageNet-C性能的提高，但ResNet-50上的DeepAugment+AugMix产生了大约19%的准确性提高。这表明IID精度和OOD精度不耦合，相反[30]。Storefronts和真实的模糊图像。通过我们的新数据集，我们重新评估了以前的稳健性干预措施，并根据我们的新发现确定各种稳健性假设是否正确。我们对不同稳健性干预的主要结果如下。更大的模型提高了真实模糊图像，ImageNet-C和ImageNet-R的鲁棒性，但没有DFR。虽然自我注意力明显有助于RealBlurry Images和ImageNet-C，但它对ImageNet-R和DFR没有帮助。多样化的数据增强对于SVSF和DFR无效，但它大大提高了 Real Blurry Images ， ImageNet-C 和ImageNet-R的准确性。预训练对Real Blurry Images和ImageNet-C有很大帮助，但对DFR和ImageNet-R几乎没有帮助合成数据增强可以提高真实世界分布偏移（如ImageNet- R）的准确性，这一点并不明显，在早期的研究中，预训练也未能提高性能[30]。表4显示了许多方法提高了跨多个分布变化鲁棒性虽然没有一种方法在所有分布变化中都有一致的帮助，但有些方法比其他方法更有帮助。我们的分析也有影响的三个鲁棒性假设。为了支持纹理偏差假设，ImageNet-R表明，标准网络不能很好地推广到渲染（具有不同的纹理），但不同的数据增强（通常会扭曲纹理）可以恢复准确性。更一般地，更大的模型和多样的数据增强始终有助于ImageNet-R、ImageNet-C和真实模糊图像，表明这两种干预减少了纹理偏差。然而，这些方法对地理变化的帮助不大，这表明鲁棒性比单独的纹理偏差更重要。关于过去几年深度学习进展的更普遍趋势，虽然IID准确性是OOD准确性的强有力预测因素，但与一些先前的工作相反，它不是决定性的[30]。再次与先前工作[30]的假设相反，我们的研究结果表明，ImageNet-C上的数据增强的收益推广到ImageNet-R和真实模糊图像，这是使用合成基准来测量模型鲁棒性的有力验证现有的文献提出了几个相互矛盾的帐户的鲁棒性。是什么导致了这场冲突？我们怀疑，这在很大程度上是由于如何最好地评估鲁棒性的不一致的概念，特别是希望通过建立一个单一的基准比其他人的首要地位，以作为回应，我们收集了几个额外的数据集，每个数据集都捕获了以前没有很好研究的分布变化和模型性能退化的新维度。这些新的数据集表明了对鲁棒性进行多方面评估的重要性，以及鲁棒性研究领域的一般复杂性，到因此，研究界可能会考虑优先研究新的鲁棒性方法，我们鼓励研究界评估未来的方法对多个分布的变化。例如，ImageNet模型至少应该针对ImageNet-C和ImageNet-R进行测试通过提高实验标准的鲁棒性研究，我们促进未来的工作，开发系统，可以强大的概括在安全关键的设置。+1000x标记数据（WSL）+DeepAugment+AugMixResNeXtResNetImageNet-C准确度（%）方法图像网络-C真实模糊图像ImageNet-RDFR更大的模型Self-Attention+++- -8348引用[1] Dragomir Anguelov 、 Carole Dulong 、 Daniel Filip 、Christian Frueh、Stéphane Lafon、Richard Lyon、AbhijitOgale、Luc Vincent和Josh Weaver。谷歌街景：在街道上捕捉计算机，43（6）：32[2] Emma Beede 、 Elizabeth Baylor 、 Fred Hersch 、 AnnaIurchenko 、 Lauren Wilcox 、 Paisan Ruamviboonsuk 和Laura M Vardoulakis。以人为中心的深度学习系统的评估部署在诊所检测糖尿病视网膜病变。在2020年CHIConference on Human Factors in Computing Systems的会议记录中，第1-12页[3] 欧文·比德曼和金妮·朱。表面与基于边缘的视觉识别决定因素。认知心理学，20（1）：38[4] Ekin Dogus Cubuk 、 Barret Zoph 、 Dandelion Mané 、Vijay Vasudevan和Quoc V.乐自动增强：从数据中学习增强策略。CVPR，2018年。[5] 贾登。大规模视觉识别。技术报告，普林斯顿，2012年。[6] 塞缪尔·道奇和莉娜·卡拉姆视觉失真下人类和深度学习识别性能的研究与比较。2017年第26届计算机通信和网络国际会议（ICCCN），第1IEEE，2017年。[7] Logan Engstrom ， Andrew Ilyas ， Shibani Santurkar ，Dimitris Tsipras ， Jacob Steinhardt ， and AleksanderMadry.识别数据集复制中的统计偏差。ICML，2020年。[8] Yuying Ge ，Ruimao Zhang，Xiaogang Wang ，XiaoouTang，and Ping Luo. Deepfashion2：服装图像的检测、姿态估计、分割和重新识别的通用基准。在IEEE计算机视觉和模式识别会议论文集，第5337[9] RobertGeirhos ， Jörn-HenrikJacobsen ， ClaudioMichaelis，Richard Zemel，Wieland Brendel，MatthiasBethge，and Fe-lix A Wichmann.深度神经网络中的快捷学习。arXiv预印本arXiv：2004.07780，2020。[10] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. ImageNet训练的CNN偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。ICLR，2019。[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。corr abs/1512.03385（2015），2015.[12] Dan Hendrycks和Thomas Dietterich基准神经网络对常见损坏和扰动的鲁棒性ICLR，2019。[13] Dan Hendrycks Kimin Lee和Mantas Mazeika。使用预训练可以提高模型的鲁棒性和不确定性。在ICML ，2019。[14] Dan Hendrycks 、 Xiaoyuan Liu 、 Eric Wallace 、 AdamDziedzic、Rishabh Krishnan和Dawn Song。预先训练的变压器提高了配电外的鲁棒性。ACL，2020年。[15] Dan Hendrycks 、 Norman Mu 、 Ekin D Cubuk 、 BarretZoph 、 Justin Gilmer 和 Balaji Lakshminarayanan 。混合物：A简单的数据处理方法，以提高鲁棒性和不确定性。ICLR，2020年。[16] Dan Hendrycks ， Kevin Zhao ， Steven Basart ， JacobSteinhardt，和Dawn Song.自然对抗的例子。ArXiv，abs/1907.07174，2019。[17] 杰虎，李申，孙刚。压缩-激励网络。2018 IEEE/CVF计算机视觉和模式识别会议，2018。[18] 板仓正二黑猩猩（pan troglodytes）对线条画表征的识别。The Journal of General Psychology，121（3）：189[19] Alexander Kolesnikov 、 Lucas Beyer 、 Xiaohua Zhai 、Joan Puigcerver 、 Jessica Yung 、 Sylvain Gelly 和 NeilHoulsby。大规模学习一般视觉表示转移。arXiv预印本arXiv：1912.11370，2019。[20] Bee Lim ， Sanghyun Son ， Heewon Kim ， SeungjunNah，and Kyoung Mu Lee.用于单图像超分辨率的增强深度残差网络在IEEE计算机视觉和模式识别研讨会集，第136-144页[21] Raphael Gontijo Lopes ，Dong Yin， Ben Poole ，JustinGilmer，and Ekin Dogus Cubuk.改进鲁棒性而不牺牲精度与补丁高斯增强。arXiv预印本arXiv：1906.02611，2019。[22] AleksanderMadry 、 Aleksandar Makelov 、 LudwigSchmidt、Dimitris Tsipras和Adrian Vladu。迈向抵抗对抗性攻击的深度学习模型。 arXiv 预印本 arXiv ：1706.06083，2017。[23] Dhruv Mahajan，Ross Girshick，Vignesh Ramanathan，Kaiming He ， Manohar Paluri abd Yixuan Li ， AshwinBharambe，and Laurens van der Maaten.探索弱监督预训练的局限性。ECCV，2018年。[24] Alexander Mordvintsev Christopher Olah和Mike Tyka。猜想主义：深入研究神经网络。arXiv，2015.[25] A.艾敏·奥尔罕Facebook的ResNeXtWSL模型的鲁棒性ArXiv，abs/1907.07640，2019。[26] Benjamin Recht ， Rebecca Roelofs ， Ludwig Schmidt ，and Vaishaal Shankar.ImageNet 分类器可以推广到ImageNet吗？ArXiv，abs/1902.10811，2019。[27] Evgenia Rusak 、Lukas Schott、Roland Zimmermann 、Julian Bitterwolf、Oliver Bringmann

下载后可阅读完整内容，剩余1页未读，立即下载