降低图像分类依赖全局统计的方法PAdaIN

82 浏览量更新于2024-01-22 收藏 876KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9482置换AdaIN：减少图像分类特拉维夫大学摘要最近的研究表明，卷积神经网络分类器过度依赖于纹理，而牺牲了形状线索。一方面，我们对形状和局部图像线索进行了类似但不同的区分，另一方面，我们对全局图像统计进行了区分。我们的方法，称为置换自适应实例归一化（pAdaIN），减少了图像分类器的隐藏层中的全局统计的表示。pAdaIN对随机置换π进行采样，该随机置换π重新排列给定批次中的样本。然后在每个（非置换的）样本i的激活和样本π（ i）的对应激活之间应用自适应实例归一化（AdaIN），从而在批次的样本之间交换统计数据。由于全局图像统计数据失真，这种交换过程导致网络依赖于线索，如形状或纹理。通过选择概率为p的随机置换和概率为p的单位置换，可以控制效应通过正确选择p，固定所有实验的先验，并且在不考虑测试数据的情况下选择，我们的方法在多个设置中始终优于基线在图像分类中，我们的方法使用多种架构改进了在鲁棒性的设置中，我们的方法改进了ImageNet-C和Cifar-100-C的多种架构。在域自适应和域泛化的设置中，我们的方法在从GTAV到Cityscapes的迁移学习任务和PACS基准上取得了最先进的结果1. 介绍计算机视觉的早期成功之一是Sakai等人的人脸识别系统。[33]它采用了一个简单的神经网络分类器。事实证明，该网络依赖于全局图像统计数据，即平均亮度来执行识别。在这项工作中，我们证明了消除对全局图像统计的依赖可以改善现代网络中的分类结果。为了减轻全球统计的影响抽搐，一个层的激活和它的累积统计数据之间的故意不匹配通过使用不匹配的统计数据进行归一化，激活值的分布作为标签信息的来源变得不可靠。虽然在生成[13，21]的上下文中探索了将图像的全局统计数据更改为另一个，但我们表明它在各种歧视性设置中也很有用。我们的工作在精神上是相似的，但在结论上与最近的工作[4，15，19，35，42，47]不同，后者以牺牲形状为代价确定了对纹理的偏好。这种最近的方法通常可以提高测试集上的图像分类器的性能，并且已经被证明可以显著提高分类器在移位图像域上的准确性，其中图像变换改变图像统计，但保持大部分形状不变。在我们的工作中，我们还展示了分类和域生成的改进。然而，我们证明了分类性能的提高同时发生在基于类别的图像识别和纹理识别。这表明，虽然纹理通常被定义为局部图像统计，但变得对全局图像统计不变可以提高形状和纹理识别。我们证明了我们的方法的有效性，在一些设置。首先，我们演示了在添加基于置换的正则化时，分类性能如何提高。我们的方法提高了 CI-FAR 100 和ImageNet在以香草方式训练的多个架构上的准确性。其次，我们在预先训练的图像分类网络的表示层上训练线性分类器，并表明纹理分类的准确性在图像分类结果最大化时达到我们表明，当这种情况发生时，网络接下来，我们证明了我们的方法可以减少域转移的不利影响，通过测试它在域适应的设置我们的方法在从GTA 5到Cityscapes语义分割的域适应和PACS数据集上实现了最先进的结果。最后，我们证明了我们的方法在处理损坏的图像时具有更高的鲁棒性，我们的方法优于所有基线方法。背景下9483鲁棒性，我们的方法改进了ImageNet-C和Cifar-100-C的多种架构。2. 相关工作偏向纹理。大量研究表明，与人类不同，网络在决策时倾向于偏向于纹理Gatys等人，[13]已经表明，在VGG19纹理表示之上训练线性分类器与直接在此任务上训练VGG19实现了类似的性能。Geirhos等人，[15]在预训练的 ImageNet CNN 的上下文他们提出了Hermann和Kornblith [19]探讨了不同因素（如训练目标或架构）在减少纹理偏差方面的作用。然而，这导致了网络性能的下降。与这些方法不同，从技术角度来看，我们的方法不依赖于以扩展或修改的数据集形式的额外监督，而是直接修改网络的架构。我们对结果的解释也不同。我们表明，操纵的全球统计，这是直接链接到风格，不会伤害纹理识别。一些贡献试图减轻纹理偏见，提出了一个架构的变化或一个新的训练目标。Shi等人，[35]开发一个类似Dropout的算法。王例如，[42]惩罚具有预测能力的浅层。Zhang和Zhu [47]表明，对抗性训练减少了纹理偏差。Carlucci等人，[4]提出减少纹理偏差，通过训练网络来解决拼图游戏。与这些方法不同的是，我们的方法使用了一个新的归一化层，如第二节所示。3.1，直接影响对全局图像统计的依赖性。规范化和风格转换。Batch Norm [24]已经成为一种标准机制，通过minibatch的统计来规范化激活，从而有效地训练深度神经网络。为了减少小批量依赖性，提出了几种替代方案，包括层规范化[1]，实例规范化[40]和组规范化[44]。我们的工作利用交换图像的风格统计信息的能力作为一个新的规范化层的一部分。与我们的标准化层不同，它的作用不是支持有效的训练，而是将网络导向所需的形状和细节。Ulyanov等人的实例规范，[40]，可以被看作是通过规范化特征统计的风格规范化的基于这一观点，Huang和Belongie [21]提出了自适应实例规范化（AdaIN）作为风格转移的一种形式，首先规范化目标图像风格统计数据，然后通过源图像风格统计数据重新缩放。这些通过规范化层方法进行的样式操作主要应用于生成环境，在那里它们可以用于纹理合成和风格转移，而我们的方法侧重于图像识别。我们的方法基于AdaIN来交换不同元素激活的样式统计信息据我们所知，虽然其他方法使用风格转移来构建改进的数据集[19，15]以减轻对全局图像统计的依赖，但我们的方法是第一个在网络中这样做的方法。3. 方法我们感兴趣的是一方面的全局图像统计之间的区别，以及其他全球性的线索，如形状和本地线索，另一方面。全局统计量是从图像的所有像素测量的统计量（例如平均值和标准差）。这些包括，例如，亮度，对比度，闪电和全局颜色变化。更改图像的样式通常会更改此类统计信息。全局线索指的是存在于整个图像或其大块中的任何线索，但不是在小块中。这些包括全局统计信息，但也包括形状信息（例如猫的边缘图局部线索是指图像中的小块中存在的任何信息，其可以包括那些块内的纹理和形状信息。3.1. 动机为了激励我们的方法，我们进行了一个简单的实验，可视化交换自动编码器的中间层表示的统计数据的效果。训练自动编码器以最小化Stan-ford Car数据集上的重建误差[25]。我们考虑两个图像输入a和b，并检查在预训练编码器的不同层交换它们的统计信息时对a解码器保持不变。作为基线方法，我们还观察了使用Gatys等人的方法将图像b的风格转换为a的效果，[13 ]第10段。如可见于图1，当交换AdaIN模块使用的图像统计数据时，重建图像具有类似的全局统计数据，例如b的颜色和整体图像外观，但保留了图像a的更精细的细节在更多层上应用这种交换，导致b的全局统计的更大转移。相比之下，当使用样式转换时，a的精细细节是从图像b借用的，并且不再保留。例如，在图1中，当应用风格转移时，树上的鸟被赋予水下鲨鱼的细节，同样地，猫被赋予大象皮肤的纹理这些细节没有通过交换归一化参数进行我们认为，保留精细的细节，同时转移全局的，结果在一个增强的样本，可以利用，以提高分类精度，使训练的网络更强大的成像条件，更适合推广到新的视觉领域。94841图像b图像a重建a L.0 L。0-1 L。0-2 L。0-3 L。0-4 [13]图1.将pAdaIN应用于作为自动编码器的一部分训练的编码器的不同层上的推理。输入和重建图像显示在左侧。随后示出了在编码器的不同层上应用pAdaIN时的重构结果右边的最后一幅图像是使用Gatys等人的方法应用风格转移的结果[13 ]第10段。L.=层;Recon=重建。3.2. 自适应实例归一化我们首先定义实例规范化（IN），如[40]和[21]中所对于给定的卷积神经网络，令给定卷积层的输出激活为x∈RN×C×H×W，其中N是批量大小，C是通道数，H是层的高度，W是宽度.实例范数定义为：.Σx−µ（x）3.3. 置换AdaIN给定一个输入激活映射x∈RN×C×H×W，设π（x）=[x π（1），x π（2），. . .，x π（N）]∈RN×C×H×W是对给定的小批量x = x1，. . . ，xN沿小批量轴。将pAdaIN应用于单个样品xi的结果如下：对于给定的置换π，其批处理的上下文是：p-IN π（x i）= AdaIN（x i，x π（i））。（五）IN（x）=γσ（x）+β，（1）然后，为整个张量x定义pAdaIN：.其中，µ（x）和σ（x）均以RN×C表示，是沿空间维度（H×W）计算的批次（n）中每个通道（c）和样品的平均值和标准差pAdaIN（x）=x，概率p（p-IN π（x），..，p-INπ（xN）），否则µnc（ x）=1小时中国 xnchw（2）其中π是均匀选择的置换，并且p是超-参数在训练前固定。pAdaIN仅在训练期间应用，而不在测试期间应用。我们应用pAdaINHWh=1w=1‚.HW所有卷积层的输出激活，特别是在应用批量归一化之前。反向传播通过x应用，但不通过.1 Σ Σσnc（ x）=，HWh=1w=1（x nchw−µ nc（x））2+μ。（三）π（x）。具体地，在等式中设置a=x i和b=x π（i）。4，我们把μ（x π（i））和σ（x π（i））看作常数，不通过它们反向传播。执行不同的更新，例如γ和β都是RN×C中的重标度仿射参数独立于X学习。上述操作在训练和试验时均以相同的方式应用。如[21]所述，IN可以被视为规范化批处理中每个输入的样式统计信息。自适应实例规范化（AdaIN）建立在这个视图上，首先规范化输入a的样式统计信息，从而提取其内容，然后通过目标样式输入b的统计信息缩放规范化的输出。这允许风格从B到A的转换。具体来说，设a，b∈RC×H×W，则AdaIN定义为：因为在μ（xπ（i））和σ（xπ（i））上的一个导致次优结果，如第2节所示四点六在训练过程中，在for-ward通道中混合批次信息被用作模型的正则化，并被证明可以提高泛化能力（参见第二节）。4.4）。x和π（x）上的反向传播梯度导致批次的样本xi上的损失影响批次中的另一个样本x π（i）的梯度，这是不期望的。批次标准的影响。批量范数（BN）规范化通道统计数据，但不会撤销我们的方法的效果要看到这一点，我们首先定义BN操作：.µc（x）=1000N微纳（x）（6）AdaIN（a，b）=σ（b）a−µ（a）σ（a）+µ（b）（4）9485Nn=1‚.NHW.1Σ Σ Σ其中，（A）和（B）是（b）和（c）是a的平均值和标准差。b）在其空间维度上，针对每个通道计算。σc（x）=，NHWn=1h=1w=1（xnchw−µc（x））2+µ（七）9486BN（ x）=γ.Σx− µc（ x）σc（ x）+β。（八）输入基线pAdaIN对于某些参数γ和β。应用BN后，我们有：γ（一）µnc（ BN（ x））=σc（ x）·（µnc（x）−µc（x））+β，（9）γ· σnc（ x）鸵鸟鸵鸟围栏σnc（BN（x））=σc（x）（十）（b）第（1）款使用pAdaIN，当交换统计信息时（即不是身份）：γµnc（BN（pAdaIN（x）=σc·（μπ（n）c（x）−μc（x））+β，（十一）消防车消防车军装σncγ·σπ（n）c（x）（BN（pAdaIN（x）=σc（ x）（十二）（c）第（1）款当量11、Eq。图12遵循pAdaIN移位逐信道统计。在应用pAdaIN之后，样本n的通道c的统计与样本π（n）的统计相同。因此，BN不会撤销统计数据的交换，而是通过批量统计数据对其进行缩放。（d）其他事项鲨鱼钩枕头石壁鲨鱼钩4. 实验我们的实验探索分类精度的对象和纹理，图像损坏的鲁棒性，并推广到新的领域。除非另有说明，pAdaIN应用于p = 0的固定选择。01号。4.1. 图像分类我们在CIFAR100和ImageNet的图像分类背景下评估pAdaIN为了评估pAdaIN，对于每个架构，我们在每次使用批处理归一化之前和使用卷积层之后对于CIFAR100，我们考虑VGG19[36]，InceptionV4[37]，PyramidNet [16]，ResNet18和ResNet50 [17]的架构。在训练过程中，我们应用了4的填充，随机裁剪和高达15%的随机旋转，结果-图像大小为32×32。这些网络是在一个批量大小为128，SGD动量为0。9，重量衰减为5e−4。我们使用200个epoch，以0的学习率开始训练。1，并在时期60、120和160处将学习率除以5。对于ImageNet，我们考虑ReseNet 50，ResNet 101和ResNet 152的架构[17]。我们训练了300个epoch，并使用标准的256×256的扩展，并应用随机的224×224，然后应用随机水平翻转。的学习速率初始化为0。ResNet50、ResNet101和ResNet152的值为1，之后每75个epoch减少10倍。采用动量SGD作为优化器。批量大小、重量衰减和动量被设置为256、1e−4和0。9分别。对于所有实验，默认值p=0。01已使用在Tab。1、Tab。2我们比较，对于不同的建筑师-tures，用pAdaIN训练网络的结果，9487图2. GradCam [34]用于Ima-geNet训练的ResNet 50模型的可视化和预测，有和没有pAdaIN。地面实况标签和模型预测分别显示在每张图像的底部。无pAdaIN（基线）。除了使用pAdaIN（不向网络添加任何可学习的参数）之外可以看出，我们的方法在上述数据集上优于基线。这种改进在网络中是一致的，参数数量差异很大，例如CIFAR100的ResNet18 和 ResNet50 以及 ImageNet 的 ResNet50 ，ResNet101和ResNet152这种改进在不同的模型类型中也是一致的，例如 CIFAR100 的 VGG 、Inception、PyramidNet和ResNet我们考虑了改变p对总体准确度的影响这是针对分别在CIFAR100和ImageNet如可见于图 3（d），将p的值增加到0。01导致精度提高，之后精度下降。最后，为了定性分析我们的方法，我们考虑了在ImageNet上训练的两个ResNet50模型，无论是否有pAdaIN。图2描述了四个示例以及预测类pAdaIN的GradCAM [34]可视化香草（基线）模型预测鸵鸟，因为它更多地依赖于全球统计数据。虽然两个答案都可能是正确的，但GT（地面实况）注释是鸵鸟的注释，因此这被视为pAdaIN的错误。与此相反，（c）描绘了一个鲨鱼在陆地上的形象。我们的模型较少依赖于全局背景（例如鲨鱼在海上），因此预测鲨鱼（对应于GT注释）。香草模型预测一个枕头。9488(a)（b）（c）（d）图3.（a）在CIFAR100上训练的ResNet18模型的不同p值的纹理准确度（b）与（a）中一样，但用于在ImageNet上训练的ResNet50（c）在ImageNet上训练的ResNet50模型的形状偏差，p值的范围。（d）对于各种p值，用pAdaIN训练的模型的准确性。蓝色是在ImageNet上训练的ResNet50模型，橙色是在CIFAR100上训练的ResNet18模型对于p值大于0。1（未显示），ImageNet和CIFAR100的准确率均显着低于75%架构基线pAdaINVGG1972.3072.90ResNet1876.1377.82ResNet5078.2279.03InceptionV478.0079.50PyramidNet83.4984.17表1.CIFAR100在不同架构上的顶级精度架构Top-1基线pAdaINTop-5基线pAdaINResNet5077.177.793.6393.93ResNet10178.1378.893.7194.35ResNet15278.3179.1394.0694.64表2.不同架构上的Top-1/Top-5 ImageNet准确度和CIFAR100，如图所示。第3段（d）分段。主要是增加（resp）。P值的减小导致P值的增加（分别为，降低）整体准确度和纹理准确度。为了评估这种连接的背景下，以前的工作，旨在消除纹理偏见，我们重复这样的方法的实验。具体来说，我们考虑如Geirhos等人所述训练的模型，[15]关于ImageNet和程式化ImageNet的组合。我们测量它的纹理精度，如上所述。所使用的Shape-ResNet的ImageNet分类准确率从76提高到76。13到7672.目前，纹理精度从89. 2%至88。百分之七这表明，与我们保留局部线索的方法不同，Geirhos等人，[15]不要。他们表现的提高是因为他们以牺牲局部线索为代价，增加了对全局线索的利用我们的方法提高了同样，对于（b）（resp. (d))图像，pAdaIN侧重于穿军装的人（分别为钩），和香草模型上的消防车（分别。石墙）的背景。4.2. 纹理和形状表示为了评估用于纹理识别的所得特征表示，采用了纹理表面数据集[22它由64个类组成，共有8674张图像。由于某些纹理可能与其他纹理相似，因此我们将10%的样本用于训练，其余的用于测试。我们的训练过程包括冻结训练模型的主干，并在两个ResNet模型的最后一个表示层（在标签logits之前）上训练线性分类器高精度表明模型在其表示层中更强地捕获纹理对于 ImageNet 和 CIFAR100 ，我们考虑了使用pAdaIN训练时的纹理准确度，p.如图3（a，b）中可见，p的值=0。01导致最佳性能模型。由于pAdaIN以概率p独立地应用于每一层，因此将p设置得太高可能导致统计的过度变化，从而导致准确性下降。我们注意到，这与ImageNet和ImageNet具有最佳整体准确度的p而不降低局部纹理的可识别性。此外，我们证明，对于p≤0。01，而全局统计数据的表示，如背景颜色是通过使用pAdaIN失真，表示，形状不是。为了证明这一点，我们考虑Geirhos等人的形状[15]关于线索冲突数据集。这个数据集是为了评估ImageNet训练模型的形状偏差而制作的，由1280张图像组成。每个图像都有两个标签：纹理标签和形状标签。纹理和形状标签来自16个不同的类。每个图像都是在纹理数据集的图像（包含与其中一个纹理类相对应的纹理）和来自其中一个形状类的具有白色背景的对象的自然彩色图像之间执行迭代样式转换[14从图1中的[15]中可以看到一个例子，大象皮肤（纹理）和猫（形状）。正确的预测被认为是与组成测试图像的两个类中的一个相匹配的预测，即，形状类或纹理类。给定一个ImageNet训练模型，形状偏差计算为模型在所有正确预测（正确的纹理或形状）中做出的正确形状预测的比例。如可见于图3（c）增加p的值9489方法路SW构建壁围栏极TLTSVeg.地形天空PR骑手车卡车总线火车电机自行车Miou源仅57.917.471.519.318.325.3932.516.882.328.278.055.331.371.619.126.89.226.313.737.0仅来源+pAdaIN57.220.271.628.319.126.133.613.082.129.069.556.733.067.527.835.117.633.714.538.7[38]第三十八话86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4SIBAN [28]88.535.479.526.324.328.532.518.381.240.076.558.125.882.630.334.43.421.621.542.6[29]第二十九话87.027.179.627.323.328.335.524.283.627.474.258.628.076.233.136.76.731.931.443.2[39]第三十九话92.351.982.129.225.124.533.833.082.432.882.258.627.284.333.446.32.229.532.346.5[第41话]89.433.181.026.626.827.233.524.783.936.778.858.730.584.838.544.51.731.632.445.5FADA [43]92.547.585.137.632.833.433.818.485.337.783.563.239.787.532.947.81.634.939.549.2FADA [43] + pAdaIN93.355.785.638.329.631.234.217.886.241.088.865.137.187.645.955.115.139.431.151.5表3. GTA5→ Cityscapes在语义分割任务中的无监督域自适应和域泛化（仅源代码）的实验结果，使用具有ResNet101主干架构的DeepLabv2 [5直到0。01不会使形状偏差劣化超过一个没有pAdaIN（p=0）的模型，事实上，当p = 0时，它会稍微增加。001.在p=0时。01，纹理识别能力（图3（b））和准确性（图3（d））都是最大的。显然，虽然我们的模型在改进分类的同时增强了局部线索，但它对基于形状的分类的亲和力并没有降低。对于p >0。01，我们注意到形状偏差和准确性的下降这表明，使用过高的p值可能会对形状表示产生不利影响，从而影响模型为了进一步验证pAdaIN不支持以形状为代价的纹理分类，我们在两个面向形状的数据集上评估我们的方法。第一个是ImageNet-Sketch [42]，由50000个类似于草图的图像组成，1000个ImageNet类中的每个类有50个图像。第二个是Edges数据集[15]，它由16个不同对象的160张图像组成，具有白色背景，由Canny边缘提取器[3]处理。使用pAdaIN（p=0. 01）（无微调），达到26。0%，26。在ImageNet-sketch和Edges数据集上的准确率分别为9%相比之下，没有pAdaIN的ImageNet训练模型的准确率较低，为24。5%和24。4%，分别。4.3. 域适应特别感兴趣的是图像分类器在测试分布与训练分布相比发生偏移的设置中进行概括的能力在域自适应的设置中，给定一个标记的源数据和一个未标记的目标数据，并要求在源和目标分布上进行良好的概括[31，12]。我们评估我们的方法上的语义分割的像素分类任务，在域自适应的设置在训练时，我们可以访问来自源域和目标域的训练图像。然而，语义分割标签仅可用于来自源域的图像。目标是最大化目标域的性能。我们考虑Wang等人的现有技术方法[43]为此采取了三步方法，并与之结合应用pAdaIN。在第一步中，使用两个输入图像仅在源域上和标签。在第二步骤中，使用来自第一步骤的权重初始化模型，并且以无监督的方式使用来自目标域的图像以及以监督的方式使用源图像来训练模型。有两种损失。第一种是源域和目标域的特征之间的域混淆损失（类对抗损失）第二个损失是源输入和源标签上的模型输出在第三步中，执行伪标记方法。使用在第二步骤中训练的模型，为目标图像生成伪标签。网络在目标域上使用这些伪标签进行重新训练。在所有三个阶段期间应用pAdaIN，其中p=0相同。01，就像所有其他基准一样。在第二步的第二次损失中，对[43]的训练过程进行了轻微的修改在原始设置中，在给定的批处理中只使用源主图像.相反，当使用pAdaIN时，来自目标域的输入被连接到一批源域图像。因此，当对来自源域的输入应用前向步骤时，pAdaIN将来自目标域的统计信息混合到源域。请注意，我们不会在前向传递中修改目标域此外，虽然pAdaIN通常应用于较大的批处理大小，但由于GPU内存限制，使用的批处理大小为2，每个域中有一个图像我们在GTAV数据集[32]上评估我们的方法作为我们的源域，Cityscapes数据集作为目标域[6]，并使用FADA的官方实现和训练方案[43]。GTAV是一个合成数据集，包含24，966个来自视频游戏渲染引擎GrandTheft Auto V的城市场景图像，Cityscapes是一个真实世界的城市场景数据集，包含2975个训练图像和500个验证图像。mIOU度量用于评估。为了与以前的方法进行公平的比较，我们在一个尺度上评估每个图像正如在Tab中所看到的 3，当与FADA [ 43 ]结合应用时，我们的方法改进了现有技术，实现了2的差距。三百万差距也是1。当将pAdaIN添加到仅针对第一阶段训练的模型时，即，而不访问目标域映像。我们注意到，最大的改进发生在大型物体上，如公共汽车、火车、卡车、人行道和9490墙壁和天空类别中的降级4.4. 多领域综合比域自适应更严格的设置是域泛化，其中未标记的目标数据在训练期间不可用上面描述的3是这个问题的一个实例。我们在PACS数据集上评估了我们的域泛化方法[26]。它包括四个领域：照片，艺术，卡通和素描。我们遵循[4]的多源评估协议，在四个领域中的三个领域进行训练，并在第四个领域进行评估。我们比较了最新的领域推广方法。对于基线方法比较，我们只需在源数据上训练一个网络，而无需进一步修改。我们的模型使用SGD进行训练，超过30个epoch，批量大小为128。学习率设置为0。001.对于RSC [23]方法，我们还使用作者发布的开源实现独立运行该方法，使用默认配置（https://github.com/DeLightCMU/RSC）。选项卡. 图4显示了我们的方法与基线方法的结果可以看出，当使用pAdaIN进行训练时，我们的方法平均而言击败了ResNet18和ResNet50上的所有基线方法，除非考虑RSC的报告值。我们注意到，我们的方法优于我们独立复制的RSC结果，它遵循官方开源实现。我们的结果改善了基线方法，特别是在草图域。草图图像主要由没有纹理的对象的轮廓组成如前所示，这表明基于全局线索（如对象的轮廓（形状））的性能4.5. 对腐败的鲁棒性卷积神经网络往往对小扰动敏感[9]。这些小扰动会影响网络表示层的统计数据因此，一个被教导对特征空间的统计偏移不敏感的模型，比如我们的方法，对腐败更鲁棒，这是为了验证这一假设，我们针对ImageNet-C和Cifar-100-C [9]（ImageNet和CIFAR 100的损坏版本）评估了我们的方法。首先，我们考虑在有或没有pAdaIN的ImageNet上训练的ResNet50模型。正如在Tab中所看到的 5，我们的方法改进了没有pAdaIN训练的基线方法（p=0。01）。接下来，我们考虑将pAdaIN与Augmix [18]结合，这是目前的最新技术水平。可以看出，将pAdaIN与Augmix结合超过Augmix，因此是最新技术水平。作为参考，表1中报告了六、在这里，我们注意到，我们最小的改进是噪音，模糊，像素化和JPEG cor-方法照片艺术推车草图Avg基线[4]95.9877.8774.8670.1779.72D-SAM [11]95.3077.3372.4377.8380.72JiGen [4]96.0379.4275.2571.3580.51MASF [10]94.9980.2977.1771.6981.03E-FCR [27]93.9082.1077.0073.0081.50MetaReg [2]95.5083.7077.2070.3081.70[35]第三十五话96.1180.2776.5476.3882.32[23]第二十三话95.9983.4380.3180.8585.15[23]第二十三话94.1078.9076.8876.8181.67我们96.2981.7476.9175.1382.51基线[4]97.6686.2078.7070.6383.29MASF [10]95.0182.8980.4972.2982.67MetaReg [2]97.6087.2079.2070.3083.60[23]第二十三话97.9287.8982.1683.3587.83[23]第二十三话93.7281.3880.1482.3184.38我们97.1785.8281.0677.3785.36表4. PACS数据集上多源域泛化的结果。顶部：ResNet18，底部：ResNet50。突出显示的是每个类别的最佳分数我们认为RSC [23]再现的评分（评分）而不是报告的评分（评分）。参见第二节。4.4详情Cart是Cartoon的缩写中断，因为这些保留了全局统计数据，并有修改细节的趋势相反，天气和对比度损坏保留纹理，因此，我们看到这些类别的整体改善更大。4.6. 消融分析为了进一步评估pAdaIN的不同变体，我们考虑了在CIFAR100上训练的ResNet18网络，如第2.2节所述。4.1.在Tab。7.我们考虑在ResNet18网络的特定块上使用pAdaIN的效果。在所有其他实验中，我们将其应用于所有层。可以看出，pAdaIN的效果在应用于更深的区块时，特别是在区块3和4时最突出。接下来，我们要了解使用统计，从自然图像的特征表示。我们不是在图像的特征表示之间交换统计数据，而是将图像的特征表示的统计数据与从具有零均值和单位方差的正态分布中采样的我们将这种情况发生的概率设为p=0。01，与默认pAdaIN设置相同。我们观察到，当模型在训练集上收敛到最小损失时，验证性能非常不稳定，无论是在损失还是测试准确性方面。整体准确度为57。3，明显偏低。我们认为这是由于自然图像的统计分布偏移，发生概率为p。如第3.1，在我们的方法中，我们将μ（xπ（i））和σ（xπ（i））视为常数，并且不通过它们反向传播。正如在Tab中所看到的。8，将µ（xi）和σ（xi）设置为常数会导致性能下降。9491Dataset Network Architecture E mCE Noise Blur Weather Digital高斯拍摄脉冲散焦玻璃运动变焦雪霜雾明亮的对比度弹性像素JPEGINet-C基线ResNet5022.9 76.78082837589788078 75 66 57718577 77INet-C pAdaINResNet5022.3 72.87879817087747674 71 64 55658266 71C100-C Augmix [18]DenseNet-BC 24.2 38.96051412755312936 39 35 28373339 41C100-C Augmix+pAdaIN DenseNet-BC22.2 37.55849402654302835 38 33 25363237 40C100-C Augmix [18] ResNext-29 21.0 34.45648322349272532 35 32 24323034 37C100-C Augmix+pAdaIN ResNext-2917.3 31.65848242054232128 30 25 19272733 36表5.清除前1错误（E）、平均损坏错误（mCE）和各种损坏的损坏错误值。首先，我们考虑ImageNet训练的ResNet 50模型，有或没有pAdaIN，在IMAGENET-C（INet-C）上进行评估。其次，我们考虑在CIFAR-100上训练的DenseNet和ResNext模型，无论是单独使用Augmix还是与pAdaIN一起使用，并在CIFAR-100-C（C100-C）上进行评估。基线切口MixupCutMix自动-对抗性奥格米克斯pAdaIN+[八]《中国日报》[46个][46个]补块[7]培训[30][18个国家]奥格米克斯DenseNet-BC59.359.655.459.253.955.238.937.5ResNext-2953.454.651.454.151.354.434.431.6表6.与CIFAR-100-C上ResNext [45]和DenseNet [20]的最新基线相比的分类错误。pAdaIN与Augmix [18]的结合超过了现有技术水平基线表示在CIFAR-100上训练的网络，没有任何修改。0 1 2 3 1-3 4 3-4全部76.1 75.9 76.1 76.5 76.4 77.5 78.1 77.8表7.在CIFAR100上训练的ResNet18上应用pAdaIN的不同块号（顶部）的准确度（底部）µ（xi），σ（xi）是的是的没有没有-µ（xπ（i）），σ（xπ（i））没有是的是的没有-77. honor877. 6块75。275一百七十六。1表8. 在CIFAR100上训练的ResNet18的替代反向传播方案的准确性。是表示反向传播，否表示反向传播。我们主张最左的方案。最右边的列不使用pAdaIn。* 表示训练不稳定。通过µ（xπ（i））和σ（xπ（i））应用反向传播也会导致不稳定的训练。此外，我们分析了在所有层上应用固定置换突变的效果为此，我们考虑在CIFAR100上训练的ResNet18模型，这将准确率降低到68。02，相比之下，pAdaIN的准确性为77。82和76。13为基准模型。计算时间。我们通过将pAdaIN纳入训练来测量额外的时间。使用相同的计算资源（4×Nvidia V100 GPU），在ImageNet上使用ResNet50进行300epoch的训练时间为108小时，有和没有pAdaIN（p=0.01）。因此，培训使用pAdaIN不会导致时间复杂度的增加5. 结论虽然CNN图像分类器非常强大，但它们仍然依赖于全局图像统计数据，这些数据很容易操作，而不会改变图像语义。在9492在这项工作中，我们利用标准化机制，以消除对这种偏见的依赖。该方法是概率性的，并且具有参数p，该参数p控制在故意不匹配的图像统计上的训练和采用匹配的全局统计之间的当然，这些统计数据中有可利用的信息，可以帮助图像识别基准。由于纹理通常被定义为图像统计，并且由于先前的工作集中于消除对纹理的偏见，因此区分纹理和全局图像统计是很重要的正如我们的激励示例所示，纹理模式在很大程度上不随全局图像统计数据的变化而变化，即使这些变化同时发生在多个编码通道中。事实上，与用于校正纹理偏差的方法的结果相反，我们证明了分类性能的提高与纹理数据集上的分类能力的提高齐头并进我们不认为这是以前工作的误解，因为我们在纹理数据集上测试了所选纹理偏差去除方法的性能，并观察到性能下降因此，我们认为这两种影响是不同的。尽管这种独特性，我们和纹理偏差去除方法都表现出在面对域转移的识别能力的增加作为今后的工作，我们希望探讨将这两种方法结合起来。确认该项目已获得欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划下的资助9493引用[1] Jimmy Lei Ba，Jamie Ryan Kiros，and Geoffrey E Hinton.层归一化。arXiv预印本arXiv：1607.06450，2016年。2[2] 尤格什·巴拉吉，斯瓦米·桑卡拉纳拉亚南，和拉玛·哲拉帕. Metareg：使用元正则化实现领域泛化. 神经信息处理系统的进展，第998-1008页，2018年7[3] J. 精明边缘检测的计算方法IEEE模式分析与机器智能，PAMI-8（6）：679-698，1986年。6[4] 法比奥·卡卢奇，安东尼奥·德诺森特，西尔维娅·布奇，巴巴拉·卡普托和塔蒂亚娜·托马西.通过解决拼图游戏进行领域概括。在IEEE计算机视觉和模式识别会议论文集，第2229-2238页，2019年。一、二、七[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络，atrous卷积和全连接crfs进行语义IEEEtransactionsonpatternana

下载后可阅读完整内容，剩余1页未读，立即下载