IBN-Net：增强深度学习中的域泛化能力

101 浏览量更新于2023-10-13 收藏 722KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

一次两个：通过IBN-Net增强学习潘新港1[0000 - 0002 - 5825 - 9467]、罗平1、石建平2、唐晓鸥11香港中文大学-商汤科技联合实验室{px117，pluo，xtang}@ ie.cuhk.edu.hk2商汤集团有限公司shijianping@sensetime.com抽象。卷积神经网络（CNN）在许多计算机视觉问题中取得了巨大的成功。与设计CNN架构以提高单个域的单个任务上的性能并且不可推广的现有作品不同，我们提出了IBN-Net，一种新的卷积神经网络，其可以在一个域上（例如，在一个域上）增强CNN的建模能力。城市景观）以及其在另一个域（例如，城市景观）上的泛化能力。GTA5）没有微调。IBN-Net精心集成了实例规范化（IN）和批量规范化（BN）作为构建块，并可以包装到许多高级深度网络中以提高其性能。这项工作有三个关键贡献。（1）通过深入研究IN和BN，我们公开了IN学习对外观变化不变的特征，例如颜色、风格和虚拟/现实，而BN对于保存内容相关信息是必不可少的。（2）IBN-Net可以应用于许多高级的深度架构，如DenseNet，ResNet，ResNeXt和SENet，并且一致1在不增加计算成本情况下提高它们的性能。（三）当将训练好的网络应用到新的领域时，例如从 GTA5 到Cityscapes，IBN-Net实现了与域适应方法相当的改进，即使不使用目标域的数据。凭借IBN-Net，我们以86.18%的mIoU赢得了WAD 2018挑战赛可驾驶区域赛道的第一名关键词：实例归一化，不变性，泛化，CNN1介绍深度卷积神经网络（CNN）提高了计算机视觉中许多任务的性能，例如图像识别[17]，对象检测[21]和语义分割[1]。然而，现有的工作主要是在单个域上设计网络架构来解决上述问题，例如，改进Cityscape数据集的真实图像上的场景解析[2，20]。当这些网络被应用于该场景解析任务的其他域时，例如1代码和型号可在https://github.com/XingangPan/IBN-Net上获得2X. Pan，P. Luo，J. Shi和X。唐城市景观-现实GTA5-虚拟起源亮度色移（一）起源莫奈·万戈（b）（c）（d）其他事项Fig. 1. （a）分别从Cityscapes [2]和GTA 5 [22]中选择两个示例图像（左）及其分割图（右）。当比较它们的分割图时，这些样本具有相似的类别和场景配置，但是它们的图像来自不同的域，即现实和虚拟。(b)示出了简单的外观变化，而复杂外观变化的那些在（c）中提供(d) 证明了实例规范化（IN）能够过滤掉复杂的外观变化。这里使用的风格转换网络是AdaIN [14]。（彩色效果GTA5数据集的虚拟图像[22]，其性能将显著下降这是由于这两个数据集的图像之间的外观差距，如图所示。第1（a）段。解决外观差距的自然解决方案是使用迁移学习。例如，通过使用来自GTA5的数据对在Cityscapes上预训练的CNN进行微调，我们能够将从Cityscapes学习到的特征适应GTA5，从而提高准确性。但即便如此，外观差距也没有消除，因为当将微调的CNN应用到Cityscapes时，准确性会显著降低。如何通过设计深层架构来解决外观的巨大多样性？这是计算机视觉中的一个关键挑战。答案是将外观不变性引入CNN。这个解决方案是显而易见的，但并非微不足道。例如，有许多方法可以在深度网络中产生空间不变性的特性，例如最大池化[17]，可变形卷积[3]，它们对姿势，视点和尺度等空间变化是不变的，但对图像外观的变化不是不变的如图1（b），当两个数据集的外观方差是简单的并且预先已知时，例如照明和红外，它们可以通过显式地增加数据来减少。然而，如图1（c），当外观变化复杂且未知时，例如任意图像风格和虚拟性，CNN必须通过在其深层架构中引入新组件来学习减少它们。在VGG编码器解码器IBN-Net3432101 3 5 7 9 11 13 15 17块ID图二. （a）从具有外观差异（蓝色）和内容差异（橙色）的图像集计算的特征散度。我们展示了ResNet50剩余块后的17个特征的结果。特征发散度的详细定义在4.3节中给出。橙色条放大10倍以更好地可视化。为此，我们提出了IBN-Net，这是一种新型的卷积架构，它可以学习捕获和消除外观方差，同时保持对学习到的特征的区分IBN-Net精心集成了实例规范化（IN）和批量规范化（BN）作为构建块，增强了其学习和泛化能力。它有两个吸引人的好处，以前的深度架构没有。首先，与之前隔离IN和BN的CNN结构不同，IBN-Net通过深入研究它们的学习特征来统一它们例如，许多最近的高级深度架构采用BN作为关键组件，以提高其在高级视觉任务（如图像识别）中的学习能力[8，30，12，13]，而IN通常与CNN相结合，以消除低级视觉任务（如图像风格转换）中的图像方差[29，5，14]。但它们的学习特征的不同特点以及它们的组合所产生的影响在现有的研究中还没有被揭示出来。相比之下，IBN-Net表明，以适当的方式组合它们可以提高学习和泛化能力。其次，我们的IBN-Net保留了IN和BN特征在浅层，BN特征在高层，继承了网络不同深度下特征发散的统计优点。如图在图2中，X轴表示网络的深度，并且y轴示出经由对称KL散度计算的特征散度当分析ImageNet原始版本与其Monet版本（蓝色条）的深度与散度时，散度随着层深度的增加而减小，表明外观差异主要在于浅层。相反，与两个不相交的ImageNet分裂（橙色条）相比，对象级别差异主要归因于高层分歧和部分低层分歧。基于这些观察，我们引入IN层CNNs以下两个规则。首先，为了减少由浅层中的外观引起的特征方差，同时不干扰深层中的内容辨别，我们仅将IN层添加到CNN的浅半部其次，为了还保留图像浅层中的内容信息，我们替换原始的ImageNet-莫奈（风格不同）A级-B级（内容不同）特征发散4X. Pan，P. Luo，J. Shi和X。唐BN层到IN的特征的一半和BN的另一半。这就产生了我们的IBN-Net。我们的贡献可归纳如下：(1) 提出了一种新的深度结构IBN-Net，以提高深度网络的学习和泛化能力例如，IBN-Net 50在ImageNet [4]的原始验证集和样式转换后的新验证集上分别实现了 22.54%/6.32%和51.57%/27.15%的 top1/top5错误，比ResNet 50高1.73%/0.76%和2.17%/2.94%，当它们具有相似的参数数量和计算成本时。(2) 通过深入研究IN和BN，我们揭示了其学习特征的关键特征，其中IN提供了视觉和外观不变性，而BN加速了训练并保留了判别特征。这一发现对于理解它们是重要的，并且有助于设计IBN-Net的架构，其中IN在浅层中是优选的以去除外观变化，而其在深层中的强度应该被降低以保持区分。IBN-Net的组件可用于重新开发许多最近的深度架构，提高其学习和泛化能力，但保持其计算成本不变。例如，通过使用IBN-Net，DenseNet 169 [13]，ResNet 101 [8]，ResNeXt 101 [30]和 SE-ResNet 101 [12]，在 ImageNet 上的原始版本分别超过0.79%，1.09%，0.43%和0.43%这些重新开发的网络可以在未来的研究中用作许多任务的强大骨干(3) IBN-Net显著提高了跨域性能。以场景理解为例，在交叉评估设置下，即在Cityscapes上训练CNN并在GTA5上对其进行评估而不进行微调，反之亦然，与IBN-Net集成的ResNet 50分别将其对手提高了8.5%和7.5%。在Cityscapes上微调GTA5预训练模型时，它还显着减少了样本量。例如，当仅使用来自Cityscapes的30%训练数据进行微调时，它实现了65.5%的分割准确率，而单独使用ResNet50的分割准确率为63.8%。2相关作品本文从CNN的不变性、网络结构、领域自适应和泛化方法三个方面介绍了IBN-Net的研究进展。CNN中的不变性已经提出了几个模块[17，3，24，29，15]来提高CNN这些方法通常通过将特定种类的不变性引入CNN的架构中来实现上述目的。例如，最大池化[17]和可变形卷积[3]为CNN引入了空间不变性，从而提高了它们对空间变化（如仿射、失真和视点变换）的鲁棒性。dropout[24]和batch normalization（BN）[15]可以被视为正则化器，以减少训练中样本噪声的影响当图像外观IBN-Net5如所呈现的，简单的外观变化（诸如颜色或亮度偏移）可以简单地通过用其平均值和标准偏差对图像的每个RGB通道进行归一化来消除。对于更复杂的外观变换，如样式变换，最近的研究发现，这些信息可以编码在隐藏特征图的均值和方差中[5，14]。因此，实例规范化（IN）[29]层显示出消除这种外观差异的潜力CNN建筑。由于CNN已经显示出超过传统方法的令人信服的建模能力，因此它们的架构已经经历了许多发展。其中使用最广泛的是残差网络（ResNet）[8]，它使用捷径来减轻非常深的网络的训练困难。从那时起，提出了许多ResNet的变体与ResNet相比，ResNeXt[30]通过将Cre作为ResNet的“插件”来改进的捕获它是通过使用群卷积来实现的。在实践中，增加基数会增加现代深度学习框架中的运行时间此外，挤压和激励网络（SENet）[12]将通道注意力引入ResNet。与ResNet相比，它在ImageNet上实现了更好的性能，但它也增加了网络参数和计算的数量。最近提出的密集连接网络（DenseNet）[13]使用级联来取代捷径连接。事实证明，它比ResNet更有效然而，在上述CNN架构中存在两个限制。首先，有限的基本模块阻止它们获得更吸引人的属性。例如，所有这些架构都简单地由卷积、BN、ReLU和池化组成它们之间的唯一区别是这些模块是如何组织的。然而，这些层的组成自然易受外观变化的影响。其次，这些模型的设计目标是在单个领域的单个任务上实现强大的建模能力，而它们推广到新领域的能力仍然有限。在图像风格转换领域，一些方法采用IN来帮助去除图像对比度[29，5，14]。基本上，这有助于模型将图像转换为不同的风格。然而，图像外观的不变性尚未成功引入到上述CNN中，特别是在图像分类或语义分割等高级任务中。这是因为IN丢弃了隐藏特征中呈现的有用内容信息，阻碍了建模能力，如[29]中所证明的。跨域提高性能。减轻不同畴之间的外观差距所导致的性能下降是一个重要的问题。一种自然的方法是使用迁移学习，例如在目标域上微调模型。然而，这需要目标域的人工注释，并且当它们应用于源域时，微调模型的性能将下降。存在许多使用目标域的统计来促进适应的域适应方法。这些工作中的大多数通过精心设计的损失函数（如最大平均差异（MMD）[28，18]、相关比对（CORAL）[25]）来减少两个域之间的特征差异来6X. Pan，P. Luo，J. Shi和X。唐[27][28][29][29][29][29]此外，[23]和[10]使用生成对抗网络（GAN）在两个域之间传输图像以帮助适应，但需要两个域的独立模型。迁移学习和领域适应有两个主要的限制。首先，在实际应用中很难获得目标域的统计信息。收集涵盖目标域中所有可能场景的数据其次，大多数最先进的方法采用不同的模型权重的源和目标域，以提高性能。但理想的情况是，一个模型可以适应所有领域。另一个解决这个问题的范例是领域泛化，其目的是从多个相关的源领域中获取知识，并将其应用于一个新的目标领域，该领域的统计数据在训练过程中是未知的。现有方法通常设计算法来学习领域不可知表示或设计模型，其从领域捕获共同方面，例如[16][19][6]。然而，对于实际应用，往往很难从多个相关的源域中获取数据，并且性能高度依赖于源域的系列。在这项工作中，我们通过设计一种新的CNN架构IBN-Net来提高跨领域的建模能力和泛化能力。这样做的好处是，我们不需要目标域数据或相关的源域，不像现有的领域适应和泛化方法。通过设计具有内建外观不变性的体系结构来实现跨域泛化的改进我们的方法是非常有用的情况下，目标域数据是无法获得的，传统的域适应不能应用。有关我们的方法与相关工作的更详细比较，请参阅我们的补充材料。3方法3.1背景批量归一化[15]通过减少训练CNN期间的内部协变量偏移，实现了更大的学习率和更快的收敛。在训练阶段，它使用小批量的均值和方差来归一化每个特征通道，而在推理阶段，BN使用全局统计来归一化特征。实验结果表明，BN能显著加快训练速度，并能提高运动成绩.它已成为最流行的CNN架构中的标准组件，如Inception [26]，ResNet[8]，DenseNet [13]等。与批量归一化不同，实例归一化[29]使用单个样本的统计数据而不是mini-batch来归一化特征。IN和BN之间的另一个重要区别是IN对训练和推理应用相同的标准化过程。实例规范化主要用于风格转换领域[29，5，14]。IN在风格转换和类似任务中取得成功的原因在于，这些任务试图在保留内容的同时改变图像外观，并且IN允许过滤掉特定于实例的IBN-Net71x1转换，64BN，64ReLU3x3转换器，64BN，64ReLU1x1转换，256x，256d1x1转换，64IN，32BN，32岁ReLU(a) 原（b）IBN-a（c）IBN-b图三. 实例批量归一化（IBN）块。对比度信息尽管取得了这些成功，但IN尚未显示出对图像分类和语义分割等高级视觉任务的Ulyanov等人 [29]已经给出了采用IN进行图像分类的初步尝试，但结果比使用BN的CNN更差。总之，批量归一化保留了个体样本之间的区分，但也使CNN容易受到外观变换的影响。实例规范化消除了个体间的差异，但同时也减少了有用的信息.这两种方法都有其局限性。为了在不损害特征区分的情况下将外观不变性引入CNN，在这里我们将它们仔细地统一在一个单一的深层结构中。3.2实例-批量归一化网络我们的架构设计基于一个重要的观察：所示图2（a）（b），对于基于BN的CNN，由外观方差引起的特征发散主要位于CNN的浅半部分，而内容的特征区分度在深层中高，但也存在于浅层中。因此，我们按照两个规则引入IN。首先，为了不减少深度特征中的内容区分，我们不在CNN的最后一部分添加IN其次，为了还保留浅层中的内容信息，我们保留了部分批归一化特征。为了提供讨论的例子，我们描述了我们的方法的基础上的经典残差网络（ResNet）。ResNet主要由四组残差块组成，每个块具有如图1所示的结构。第3（a）段。根据我们的第一个规则，我们只将IN添加到前三个组（conv 2 x-conv 4 x），并保留第四个组（conv 5 x）。对于残差块，在残差路径中的第一卷积层之后，我们对半通道应用BN，对其他通道应用IN，如图所示。3（b）所示。这样做有三个原因ReLUIN，256ReLUx，256dx，256d1x1转换，64BN，64ReLU3x3转换器，643x3转换器，64BN，64BN，64ReLUReLU1x1转换，2561x1转换，256ReLU8X. Pan，P. Luo，J. Shi和X。唐1x1转换，256BN，256BN，2561x1转换，256ReLUBN，643x3转换器，64128dx，256d(a) IBN-cx，256dIN，128身份ReLU(b) IBN-dx，256d1x1转换，64IN，32BN，32岁ReLUIN，128身份ReLU(c) IBN-a dx，256d1x1转换，64IN，32BN，32岁ReLU3x3转换器，64IN，32BN，32岁ReLUReLU(d) IBN-ax2见图4。 IBN阻断的变体。首先，正如[9]所指出的，干净的身份路径对于优化ResNet至关重要，因此我们将IN添加到剩余路径而不是身份路径。其次，在残差学习函数y = F（x，{Wi}）+ x中，残差函数F（x，{Wi}）被学习为与恒等路径中的x对齐。因此，IN被应用于第一归一化层而不是最后一层，以避免未对准。第三，半BN半IN方案来自我们前面讨论的第二设计规则这就产生了我们的实例批量归一化网络（IBN-Net）。这种设计是一种追求模型容量的设计。一方面，INs使模型能够学习外观不变特征，以便它可以更好地利用一个数据集中具有高外观多样性的图像。另一方面，以适度的方式添加IN，使得可以很好地保留内容相关信息。我们将该模型表示为IBN-Net-a。为了充分利用IN由于外观信息既可以保存在残留路径中，也可以保存在标识路径中，因此我们在加法操作之后立即添加IN，如图所示在图3（c）中。为了不恶化ResNet的优化，我们只在第一个卷积层（conv1）和前两个卷积组（conv2 x，conv3 x）之后添加三个IN层。IBN-Net的变体上述两种类型的IBN-Net不是在CNN中利用IN和BN的唯一方式。在实验中，我们还将研究一些有趣的变体，如图所示。4.第一章例如，为了保持可概括和可区分的特征，另一个自然的想法是将特征馈送到IN和BN层两者，然后将它们的输出连接起来，如图2所示。4（a），但这将引入更多参数。并且保持两种特征的思想也被应用于IBN-b，从而产生图1B。第4（b）段。我们还可以将这些方案组合为图1D。4（c）（d）do.关于这些变体的讨论将在实验部分中给出。BN，64IN，64ReLU1x1转换，64concat3x3转换器，64BN，64ReLU1x1转换，2561x1转换，64BN，64ReLU3x3转换器，64BN，64ReLU1x1转换，ReLUIBN-Net9表1. ImageNet验证集的结果与外观变换。性能下降在括号中给出。外观ResNet50 [8]IBN-Net50-aIBN-Net50-b变换top1/top5错误top1/top5错误top1/top5错误起源24.27/7.0822.54/6.3223.64/6.86RGB+5028.22/9.6425.54/8.0323.82/6.96(3.94/2.56）(3.00（1.71）(0.18/0.10）R+5027.53/8.7825.20/7.5625.10/7.43(3.26/1.70）(2.66/1.24）(1.46/0.57）标准品×1。540.01/19.0835.97/16.2223.64/6.86（15.74/12.00）（13.43/9.90）(0.00/0.00）莫奈54.51/29.3251.57/27.1550.45/25.22（30.24/22.24）（29.03/20.83）（26.81/18.36）4实验我们分别在ImageNet和Cityscapes-GTA5数据集上评估了IBN-Net的分类和语义分割任务。在这两项任务中，我们都将您的模型与外观转换下的外观和几何关系相结合4.1ImageNet分类我们在ImageNet [4] 2012分类数据集上评估了我们的方法，其中包含1000个对象类。它有128万张图像用于训练，5万张图像用于验证。数据增强包括随机比例、随机纵横比、随机裁剪和随机翻转。我们使用与[7]中相同的训练策略，并在测试期间应用224×泛化到外观变换。我们首先评估在颜色、亮度、对比度和样式变换中具有高亮度、高对比度和高样式变换的应用程序形式的模型的通用性，其使用Cycle-GAN [ 32 ]实现。模型仅在ImageNet训练集上进行训练，并在验证集上使用上述外观变换进行评估。原始ResNet 50和我们的IBN-Net版本的结果在表中给出1.一、从实验结果可以看出，IBN-Net-a具有较好的泛化能力和较强的泛化能力。当应用于具有新外观域的图像时，它显示出比原始ResNet更少的性能下降。同时，其对原始图像的top1/top5误差显著改善了1.73%/0.76%，表明模型容量也得到了提高。对于IBN-Net-b，泛化显著增强，因为新图像域上的性能下降大大减少。这表明IN确实有助于CNN泛化。同时，它对原始图像的性能也有所提高，这表明虽然IN消除了特征均值和方差的差异，但在空间维度上可以很好地保留内容信息模型容量。为了证明IBN-Net比传统CNN具有更强的模型能力，我们将其性能与ImageNet验证集上的一些最近流行的CNN架构进行了如表2所示，10X. Pan，P. Luo，J. Shi和X。唐表2.IBN-Net在ImageNet验证集上优于其他CNN的结果性能增益在括号中示出补充材料中提供了这些IBN-Net的更详细描述模型原始重新实现IBN-Net-a表3. IBN-Net变体在ImageNet验证集和Monet样式集上的结果模型起源莫奈表4. IBN-Net 50- a与添加到不同量的残余基团的IN层的比较。表5. 在IBN层中IN信道的比率的影响。 ’fu ll d e - notes ResNet50，其中所有BN层被IN替换。残基的无1 1-2 1-3 1-4top1错误。24.27 23.58 22.94 22.54top5错误7.086.726.406.32 6.49IN比0 0.25 0.5 0.75 1满top1错误。24.27 22.49 22.54 23.11top5错误7.086.396.32 6.576.94九点八三IBN-Net在这些CNN上实现了一致的改进，表明模型能力更强。具体而言，IBN-ResNet 101提供了与ResNeXt 101和SE-ResNet 101相当或更高的准确性，这需要更多的时间消耗或引入额外的参数。注意我们的方法带来了没有附加参数，而仅在推理阶段添加边际计算。我们的研究结果表明，在特征中丢弃一些均值和方差统计有助于模型从具有高外观多样性的图像中学习。IBN-Net变体。我们进一步研究了IBN-Net的一些其他变体。表。图3示出了方法部分中描述的IBN-Net变体的结果我们所有的IBN-Net变体都表现出比原始ResNet 50更好的性能，并且在外观变换下性能下降更具体而言，IBN-Net-c实现了与IBN-Net-a类似的性能，提供了替代的特征组合方法。IBN-Net-d的建模能力和泛化能力介于IBN-Net a和IBN-Net b之间，这表明保留某些BN特征top1/top5错误top1/top5错误top1/top5错误[13]第十三话25.0/-24.96/7.8524.47/7.25（0.49/0.60）[13]第十三话23.6/-24.02/7.0623.25/6.51（0.79/0.55）ResNet50 [8]24.7/7.824.27/7.0822.54/6.32（1.73/0.76）top1/top5错误top1/top5错误ResNet5024.26/7.08（30月24日/22月24日）IBN-Net50-a22.54/6.32（29.03/20.83）IBN-Net50-b23.64/6.8650.45/25.22（26.81/18.36）IBN-Net50-c22.78/6.3251.83/27.09（29.05/20.77）IBN-Net50-d22.86/6.4850.80/26.16（27.94/19.68）IBN-Net50-a d22.89/6.4851.27/26.64（28.38/20.16）IBN-Net11有助于提高性能，但同时失去泛化能力 IBN-Net a和d的组合与d几乎没有区别，表明IN对ResNet主路径的影响将占主导地位，消除了对剩余路径的影响。最后，向IBN-Net-a添加额外的IBN层没有什么好处，适量的IN特性就足够了。关于IN和BN的量。在这里，我们研究了添加了不同数量的IN层的IBN网。表. 图4给出了具有添加到不同量的残余组的IN层的IBN-Net 50-a的性能可以看出，随着更多IN层被添加到浅层，性能得到改善，但是当IN层被添加到最后的剩余组时，性能下降这表明，在浅层中的IN有助于提高建模能力，而在深层中，BN应被保留以保存重要的内容信息。此外，我们研究了IN-BN比对性能的影响，如表所示五、再次，在0.25-0.5的中等比率下实现最佳性能，证明了IN和BN之间的权衡关系。4.2跨域实验如果使用合成数据训练的模型可以应用于现实世界，那么将节省大量的数据收集和标记工作。在本节中，我们将研究我们的模型在CITYSCAPE和GTA5数据集上的捕获能力，以实现实际的捕获Cityscapes [2]是一个从欧洲多个城市收集的交通场景数据集。它包含高分辨率2048×1024图像，具有34个类别的像素级数据集分为2975个用于训练，500个用于验证，1525个用于测试。GTA5 [22]是一个类似的街景数据集，由现实电脑游戏《侠盗猎车手V》（GTA5）半自动生成。它有12403张训练图像、6382张验证图像和6181张测试图像，分辨率为1914× 1052，标签的类别与Cityscapes中的相同。实施. 在训练过程中，我们使用随机比例，纵横比和镜像进行数据增强。我们在Cityscapes的全分辨率图像和GTA5的1024 × 563大小的图像上应用随机裁剪，因为这会导致更好的形式。我们使用基本学习率设置为0.01并且幂设置为0.9的“poly”学习策略。我们训练了80个时期的模型。批量大小、动量和重量衰减分别设置为16、0.9和0.0001在GTA5上训练时，我们使用四分之一的训练数据，以便数据规模与Cityscapes相匹配。与[1]一样，我们使用带有atrous卷积策略的ResNet 50作为我们的基线，我们的IBN-Net遵循相同的修改。我们在每个数据集上训练模型，并在两者上进行评估，结果见表6。结果我们的结果与ImageNet数据集上的结果一致。IBN-Net在一个数据集内表现出更强的建模能力，并在不同领域的数据集具体而言，IBN-Net-a显示出更强的模型容量，在两个月内分别比ResNet 50高出4.6%和3.8%。而且，随着风险评估的进行，IBN-Net-b的一般性更好12X. Pan，P. Luo，J. Shi和X。唐表6. Cityscapes-GTA数据集上的结果报告了域内评估和跨域评估的平均IoU火车测试模型mIoU（%）像素Acc.（%）ResNet5064.593.4城市景观IBN-Net50-a69.194.4城市景观IBN-Net50-b67.094.3ResNet5029.471.9GTA5IBN-Net50-a32.571.4IBN-Net50-b37.978.8ResNet5061.091.5GTA5IBN-Net50-a64.892.5GTA5IBN-Net50-b64.292.4ResNet5022.253.5城市景观IBN-Net50-a26.060.9IBN-Net50-b29.666.8表7.与域自适应方法的比较请注意，我们的方法不使用目标数据来帮助适应。方法Miou mIoU增益目标数据来源[11][11]第十一话21.227.15.9w/来源[31]Curr. [31]第三十一话22.328.96.6w/来源[23]甘达[23]29.637.17.5w/我们的-仅我们的- IBN -仅22.1729.647.5W/O表8.微调不同的数据百分比。finetune数据（%）102030 10052.7 54.2 58.763.84IBN-Net50-a 56.5 60.5 65.568.78从 Cityscapes到 GTA5的性能提高了 8.5%，相反方向的性能提高了7.5%。与域自适应方法的比较。应该提到的是，我们的方法是在不同的设置下与域自适应工程。域自适应是面向目标域的，并且在训练期间需要目标域数据，而我们的方法不需要尽管如此，我们表明，我们的方法的性能增益是可比的域自适应方法，如表。7场演出我们的方法向更通用的模型迈出了重要的一步，因为我们将内置的外观不变性引入模型，而不是强迫它适应特定的数据域。Finetune on Cityscapes.在新数据域上应用模型的另一种常用方法是使用少量目标域注释对其进行微调。在这里，我们表明，与我们更普遍的模型，微调所需的数据可以显着减少。我们使用不同数量的Cityscapes数据对在GTA5数据集上预训练IBN-Net13一B和标签。初始学习率和时期的数量分别设置为0.003作为表。8显示，只有30%的Cityscapes训练数据，IBN-Net 50-a在所有数据上的表现都优于resnet 50。4.3特征散度分析为了理解IBN-Net如何实现更好的泛化，我们在本节中分析了由领域偏差引起的特征分歧。我们的特征散度度量如下。对于CNN中某个层的输出特征，我们将通道的平均值表示为F，它基本上描述了这个通道被激活的程度。我们假设F为高斯分布，均值为μ，方差为σ2。则域A和B之间的该通道的对称KL散度将是：D（F）A F B）= KL（F A F B）+KL（F BF A）（1）||||||σAKL（FA||FB）=logσBσ2+（µA−µB）21+2µ2−2（二）DenoeD（FiA||如图1B 所示，由于该层的平均特征发散度为：1摄氏度D（LA||LB）= Ci=1D（FiA||（3）其中，C是该层中的通道数该度量提供了域A的特征分布与域B的特征分布之间的距离的度量为了捕捉实例规范化对外观信息和内容信息的影响，这里我们考虑三组域。前两组分别为“Citiysacapes-G T A5”和“photo-M onet”，外观复杂。为了构建具有不同内容的两个域，我们将ImageNet-1 k验证集分为两部分，第一部分包含具有500个对象类别的图像，第二部分包含具有其他500个类别的图像。然后，我们计算ResNet 50和IBN-Net 50主路径上17个ReLU层的特征散度结果示于图五、从图中可以看出。从图5（a）（b）可以看出，在我们的IBN-Net中，由外观差异引起的特征分歧显著减少。对于IBN-Net-a，发散度适度减小，而对于IBN-Net-b，发散度在IN层之后在位置2，4，8处突然下降。并且这种效果持续到不添加IN的深层，这意味着在深层特征中减少了方差编码外观，从而减少了它们对分类的干扰。另一方面，在IBN-Net中，由内容差异引起的特征分歧并没有下降，如图所示。图5（c）示出，示出特征中的内容信息在BN层中被很好地保留讨论。这些结果让我们直观地了解了IBN-Net如何获得更强的泛化能力。通过以一种巧妙而温和的方式将IN层引入CNN14X. Pan，P. Luo，J. Shi和X。唐4201 3 5 7 9 11 13 15 17(a) 城市风景-GTA54201 3 5 7 9 11 13 15 17(b)摄影-莫奈0.40.20.01 3 5 7 9 11 13 15 17BlockID(c)A类-B图五.由（a）真实-虚拟外观差距，（b）风格差距，(c)对象类差异。它们可以以帮助滤除在当前具有该特征的外观变化的方式工作。如我们的实验中所示，在这种情况下，改进了模型的可应用性请注意，泛化和建模能力不是不相关的属性。一方面，直观的外观不变性也可以帮助模型更好地适应高外观多样性的训练数据，并提取它们的共同点。另一方面，即使在一个数据集内，训练集和测试集之间也存在外观差距，在这种情况下，更强的泛化也会提高性能。这可能是IBN-Net具有更强建模能力的原因。5结论在这项工作中，我们提出了IBN-Net，它在单个深度网络中仔细地统一了实例规范化和批量规范化层，以提高建模和泛化能力。我们表明，IBN-Net在ImageNet数据集上实现了许多经典CNN的一致改进，包括VGG，ResNet，此外，IN引入的内置外观不变性有助于我们的模型在图像域中进行泛化，即使不使用目标域数据。我们的工作总结了IN和BN层在CNN中的作用：IN引入了外观不变性，提高了泛化能力，而BN保留了判别特征中的内容信息。谢谢。这项工作得到商汤科技集团有限公司、香港创新及科技支援计划和国家自然科学基金委员会（61503366）的部分支持。IBN-Net50-a IBN-Net50-bIBN-Net50-a IBN-Net50-bIBN-Net50-a IBN-Net50-b特征发散特征发散特征发散IBN-Net15引用1. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.：Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。TPAMI（2017）2. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集见：CVPR（2016）3. Dai，J.，Qi，H.，Xiong，Y.，李，Y.，张，G.，Hu，H.，魏云：可变形对流网络。In：ICCV（2017）4. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）5. Dumoulin，V.，Shlens，J.，Kudlur，M.：对艺术风格的博学的表现。In：ICLR（2017）6. Ghifary，M.，Bastiaan Kleijn，W.，张，M.，Balduzzi，D.：用多任务自动编码器进行对象识别的域泛化In：ICCV（2015）7. 格罗斯，S.，Wilber，M.：训练和调查残余网。https://github.com/ facebook/fb.resnet.torch（2016）8. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）9. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射In：ECCV（2016）10. Hoffman，J.，Tzeng，E.，Park，T. Zhu，J.Y.，Isola，P.，Saenko，K.埃夫罗斯，匿名戒酒会Darrell，T.：苏铁：周期一致的对抗域适应。arXiv预印本arXiv：1711.03213（2017）11. Hoffman，J.，Wang，D.，中国科学院，余，F.，达雷尔，T.：野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649（2016）12. 胡， J ， Shen ， L. ， Sun ， G. ：压缩 - 激励网络。 arXiv 预印本 arXiv ：1709.01507（2017）13. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。在：CVPR（2017）14. 黄，X.，Belongie，S.：实时任意样式传输，具有自适应实例规范化。In：ICCV（2017）15. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。In：ICML（2015）16. Khosla，A.周，T.，Malisiewicz，T.，埃夫罗斯，匿名戒酒会Torralba，A.：消除数据集偏差的损害。In：ECCV（2012）17. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类在：NIPS（2012）18. Long，M.，曹玉，王杰，Jordan，M.：使用深度适应网络学习可转移特征In：ICML（2015）19. Muandett，K.， Balduzzi，D. ，Scchoülkopf，B. ：管理虚拟化特征表示。In：ICML（2013）20. Pan，X.，施，J.，Luo，P.，王，X.，唐X：空间一样深：用于交通场景理解的空间cnn。In：AAAI（2018）21.

下载后可阅读完整内容，剩余1页未读，立即下载