深度表示学习中的可切换白化方法(SW)的优化与应用

149 浏览量更新于2023-10-12 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1863用于深度表示学习的潘新港1号，詹晓航1号，石建平2号，唐晓鸥1号，罗平1号，3号1香港中文大学-商汤科技联合实验室2商汤科技集团有限公司3香港大学{px117，zx017，xtang，pluo}@ ie.cuhk.edu.hk，shijianping@sensetime.com摘要归一化方法是卷积神经网络（CNN）的重要组成部分他们要么标准化或使用统计数据估计在预定义的像素集的数据。与现有的针对特定任务设计标准化技术的工作不同，我们提出了可切换白化（SW），它提供了一种统一不同白化方法和标准化方法的一般形式。SW学习以端到端的方式在这些操作之间切换。它有几个优点。首先，SW自适应地为不同的任务选择适当的白化或标准化统计量（见图1），使其非常适合广泛的任务，而无需手动设计。其次，通过整合不同规范化器的优点，SW在各种具有挑战性的基准测试中表现出了相对于同行的一致改进。第三，SW作为一个有用的工具，了解美白和标准化技术的特点我们表明， SW 在图像分类（ CIFAR-10/100 ，ImageNet），语义分割（ADE 20 K，Cityscapes），域自适应（ GTA 5 ， Cityscapes ）和图像风格转换（COCO）方面优于其他替代方案。例如，在没有额外功能的情况下，我们在ADE 20K数据集上实现了45.33% mIoU的最新性能。1. 介绍归一化方法作为卷积神经网络（CNN）的基本模块得到了广泛的应用.在各种应用中，提出了不同的归一化技术，如批量归一化（BN）[10]，实例归一化（IN）[27]和层归一化（LN）[1这些标准化技术通常执行标准化，集中和缩放功能。然而，这些特征没有去相关，因此它们的相关性仍然存在。另一种类型的归一化方法是白化，（一）（b）第（1）款图1. (a)SW在各种基准测试中均优于同行。（b）SW学习在不同的任务和数据集中选择合适的白化或标准化方法 CNN为ImageNet和ADE 20 K的ResNet 50，CIFAR-10的ResNet 44和GTA5→Cityscapes的VGG 16。GTA5→Cityscapes表示使用域自适应从GTA5适应到Cityscapes。其不仅使特征模糊而且使特征去相关。例如，解相关批量归一化（DBN）[13]，或称为批量白化（BW），使用其协方差矩阵对小批量进行白化，这在图像分类中产生了比BN更好的优化效率。此外，在图像风格转换[15]中使用单个图像的白化特征来过滤掉图像外观的信息。在这里我们将此操作称为实例白化（IW）。尽管他们取得了成功，现有的作品将这些美白技术分别应用于不同的任务，阻止他们相互受益此外，白化和标准化方法通常用于CNN的不同层，这使模型设计复杂化。为了解决上述问题，我们提出了可切换美白（SW）。SW提供了一个通用的形式，集成了不同的美白技术（例如，BW，IW），以及标准化技术（例如BN、IN和LN）。SW通过学习其重要性权重来控制每种技术的比率。它能够针对各种视觉任务选择适当的归一化器，如图所示。第1段（b）分段。例如，语义分割偏好BW和BN，而IW主要被选择来解决图像的多样性，1864图像分类与语义分割相比，领域自适应算法选择了更多的IW和IN，减少了CNN特征的领域差异。在图像风格转换中，IW在处理图像风格变化方面占主导地位。SW可以插入到先进的CNN架构中，并有效地提高其性能。由于SW的丰富统计数据和选择性，使用SW训练的模型在许多流行的基准测试中始终优于其他同行，例如用于图像分类的 CIFAR-10/100 [12] 和ImageNet [4] ，用于语义分割的 ADE 20 K [35] 和Cityscapes [3] ， GTA 5 [23] 和 Cityscapes 之间的域适应，以及COCO [18]上的图像风格转换。例如，当使用 ResNet50[7] 进行 ImageNet 、 ADE20K 和Cityscapes，以及使用VGG16 [25]进行域自适应时，SW分别显著优于基于BN的基线1.51%、3.2%、4.1%和3.0%。SW作为一个有用的工具，分析这些白化或标准化技术的特点。这项工作回答了两个问题：（1）IW对分类和领域适应等高级视觉任务是否有益？(2)当存在美白时，标准化是否仍然必要？我们的实验表明：（1）IW在处理图像外观多样性和减少域间隙方面非常有效，从而提高了性能高水平视觉任务;（2）在SW中使用BW+IW与在SW中使用上述所有归一化器相比表现良好，表明完全白化通常效果良好，并且当呈现白化时，对白化的要求是微不足道的。总体而言，我们的贡献概述如下。(1)我们提出了可切换美白（SW），它统一了现有的白化和标准化方法，并学习在训练期间在它们之间切换。(2)SW适应各种任务，并用作高级CNN中的新构建块。我们表明，SW在多个具有挑战性的基准测试中优于同行。(3)SW可以作为一种工具来分析不同归一化方法的效果和特点，以及白化和标准化之间的相互作用。我们将提供SW的代码，希望它能加深我们对各种规范化方法的理解。2. 相关工作标准化。现有的规范化技术一般执行标准化。例如，Batch Nor-而LN已被证明有利于训练递归神经网络[1]。上述三个归一化器在可切换归一化（SN）[20]中组合，学习每个归一化器的比率。BN和IN的组合也在IBN-Net [22]和Batch-Instance Normalization [21]中进行了探索。此外，还有其他尝试来改进小批量的BN，例如群归一化[29]，批量重整化[9]和批量卡尔曼归一化[28]。所有这些标准化方法执行对激活的居中和缩放，而激活之间的相关性仍然存在，导致次优优化效率。我们的工作提供了一个通用的形式，集成了白化和标准化技术，SN作为一个特例。美白. 改善优化的另一范例是增白。Desjardins等人[5]提出了自然神经网络，它隐式地白化了激活，改进Fisher信息模型的条件这提高了深度神经网络的优化效率。去相关批量归一化（DBN）[13]使用在小批量上计算的协方差矩阵来白化特征。它通过去相关特征来扩展BN。在本文中，为了保持一致性，我们将DBN称为批次增白（BW）。此外，在图像风格转移领域，白化和着色操作用于操纵图像外观[15，24]。这是因为单个图像的出现在其特征的协方差矩阵中被很好地编码。我们把对单个图像的白化称为实例白化（IW）.在这项工作中，我们首次尝试将IW应用于高级视觉任务，如图像分类和语义分割。3. 可切换美白（SW）我们首先提出了一个一般形式的白化以及标准化操作，然后介绍SW。3.1. 一般形式我们的讨论主要基于CNN，其中数据有四个维度。设X ∈ RC×NHW为小批量的数据量，其中N，C，H，W分别表示样本数，通道数，高度和宽度。这里，为了方便起见，N、H和W被视为单个设矩阵Xn∈RC×HW是第n个小批量中的样本，其中n∈ {1，2，...，N}个。然后样本Xn的白化变换φ：RC×HW→RC×HW可表示为：使用在小批量、加速和非加速条件下估计的均值和方差，φ（Xn）=−1/2（X-µ·1T）（1）加强训练，提高泛化能力。相比之下，实例规范化（IN）[27]和层规范化（LN）[1]使用在层重新配置的每个单独通道和所有通道上计算的统计数据来标准化激活。IN主要用于图像生成[8，27]其中μ和μ是从数据计算的均值向量和协方差向量，1是所有1的列向量注意，不同的白化方法可以通过使用不同的像素集计算μ和μ来实现我们将在下面详细讨论它们n1865KKK批次增白（BW）。在BW [13]中，统计数据是在小批量中计算的。因此3.2. SW配方对于数据样本Xn，统一微体重1=NHW X·1前面提到的白化和标准化变换的另一个重要目的是组合那些变换的均值和协方差统计量。贝伊1=NHW （X−µ·1T）（X−µ·1T）T+I（2）方法，并使用此统一的统计进行白化，从而产生其中，k>0是一个小的正数，以防止出现奇异位数。以这种方式，白化变换φ白化整个小批量的数据，即，φ（X）φ（X）T=I.SW（Xn）=−1/2（X-μπ ι·1T）（5）实例白化（IW）。[15]《易经》中，在每个单独的样品内计算Δ和Δ哪里=Σk∈Ωωkµk，Σˆ= Σk∈Ω（6）微Σ1=1X·1HWnT T T这里，Eq是一组以不同方式估计的统计数据。在这项工作，我们主要集中在两种情况下，即，={bw，iw}iw=HW（Xn−µ·1）（Xn−µ·1）（3）以及n ={bw，iw，bn，in，ln}，其中，前一个开关是-两种美白方法之间，而后者结合对于{1，2，...，N}个。 IW分别对每个样本进行白化，即，φ（Xn）φ（Xn）T=I.白化和标准化方法。ωk是在不同统计量之间切换的重要比率实际上，ωk由相应的控制参数产生请注意，方程式(1)也自然地结合了Escherichia-作为其特殊情况。在协方差矩阵中λ k通过softmax函数，即，ωkλkz∈λz. 而ω′是因此，对角线元素是每个通道的方差，而非对角线元素是通道之间的相关性。因此，通过简单地将非对角元素设置为零，左乘等于除以标准方差，因此等式2 =1。(1)成为标准化。批量归一化（BN）。BN[10]使用小批量的平均值和标准差对数据进行因此其平均值与BW中的相同，即，µbn=µbw。如上所述，由于BN不对数据进行解相关，因此协方差矩阵变为bn=diag（bw），这是一个仅保留bw的对角线的对角矩阵。实例规范化（IN）。在《易经》中，我们也有这样的说法：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”层归一化（LN）。LN [1]使用样本中所有通道的均值和方差进行归一化。令µln和σln表示均值和方差，则µln=µln1，且μln=σlnI。在实践中，可以使用[20]中的结果从µin和μin有效地计算µ ln和σln由方程式(1)通常通过使用ZCA白化来计算协方差矩阵的平方根倒数，D Λ−1/2=DΛ −1/2DT（4）其中Λ=diag（σ1，.，σ c）和D= [d1，.，dc]是矩阵的特征值和特征向量，即，通过本征分解得到到目前为止，我们已经制定了不同的白化和归一化变换的一般形式。在下一节中，我们将介绍基于此公式的可切换美白。使用另一组控制参数进行类似tersλ′。这解除了均值和协方差之间的一致性约束，这是一种更一般的形式。请注意，上述公式通过让SN ={bn，in，ln}将SN [20]作为其特殊情况。我们的公式更灵活和通用，因为它考虑了整个协方差矩阵，而不仅仅是对角线。这就提供了产生去相关fea的可能性tures，从而产生更好的优化条件或风格不变性。SW可以很容易地扩展到包括一些其他的规范化方法，如批重归一化[9]或组规范化[29]，这超出了这项工作的范围。3.3. 训练和推理可切换的白化可以广泛地插入到卷积神经网络（CNN）中。令Θ是CNN的一组参数，Φ是SW中的一组重要性重要性权重被统一初始化e.G. λk= 1。在训练期间，通过使用反向传播最小化损失函数L（Θ，Φ）来联合优化Θ和Φ。我们提出的SW的向前和向后计算在算法1和2中给出。为了清楚起见，我们使用k ={bw，iw}作为说明性示例。在训练阶段，µbw和µbw的计算范围为每个小批次，用于更新运行均值和运行协方差，如算法1的第7行和第8行。在推断过程中，运行平均值和运行协方差用作µbw和bw，而µiw和iw是针对每个样本独立计算的。在实践中，缩放和移位操作通常紧接在归一化或白化变换=n1866KKXΣˆ∂µˆnω（）sym+∂Σˆ算法1每次迭代的SW前向传递1：输入：小批量输入X ∈ RC×NHW，其中批量中的第n个样本为Xn∈ RC×HW，n ∈ {1，2，.， N};重要性权重λ和λ′，k ∈ {bw，iw};期望均值μE和期望协方差μE。2：超参数：平均动量α。算法2每次迭代的SW反向传递一曰：输入：关于白化输出{n = 1，2，.，N}个。其他辅助数据来自各自n向前传球2：输出：相对于输入的梯度{n= 1，2，.，N}; 相对于IM的梯度，3：输出：白化动作{X，n=1，2，.， N}个。Xnn′ ′ ′′重要权值ε L和ε L，k∈ {bw，iw}。4：计算：ωbw，ωiw=Softmax（λbw，λiw），ωbw，ωiw=Softmax（λbw，λiw）。5：计算：µbw=1X ·1。λk3：对于n= 1至N，∂λ′NHW6：计算：bw=1（X−µ·1T）（X−µ·1T）T+2001年。4：使用附录A中的结果计算BRL。科隆7：更新：NHWµE←（1−α）µE+αµbw。5：使用附录A中的结果计算BRL。第八章：更新：E←（1−α）E+αbw。6：结束9：对于n= l至N，做10：计算：µ（n）=1×n·1。7：对于n= 1至N，8：计算L=LU+（ωbwNL+ ωiw（L）iw硬件XnnNHWi=1µiHWµn11：计算：π（n）=1（Xn−μ·1T）（Xn−μ·1T）T+ πI。2ω′（Xn−µ）TN2ω′（Xn−µ）TIW12：计算：µ=公司简介（n）µ=<$ω′<$（n），k ∈{bw，iw}.+[体重BWNHWLi=1IWHW（L）sym]nnkk knKKK9：结束13：执行特征值分解：n=DΛDT.14：计算ZCA白化矩阵：Un=DΛ−1/2DT。10：计算：ω L=ω（1−ω）N（μL））−ω ωΣN（μ Lµ（n））bwn=1µnBWIwbwn=1µnIw15：计算ZCA白化输出：Xn=Un（Xn−µn·1）。ω L=ω（1−ω）N（Lµ（n））−ω ωN（μL）16：结束λiwiwiwn=1µnIwBW IWn=1BWω L=ω′ （1−ω′）BWNL.S.L，F−ω′ω′N⟨∂L,Σ(n)⟩F1′bwn=1nbwIW BWn=111niwΣω L=ω′ （1−ω′）NL，NL，F提高模型对于SW，我们遵循此设计来引入尺度和移位参数γ伊夫IWiwn=1niwBW IWn=1nbw和BN中的β3.4. 分析与探讨我们介绍了SW的形成和训练，这里我们讨论了它的一些重要性质，并分析了它的复杂性。外观不变性的实例白化。在风格迁移中，研究者们发现图像外观信息（即图像信息）是影响风格迁移的重要因素.颜色、对比度、风格等）在CNN产生的特征的协方差矩阵中进行了很好的编码[15]。在这项工作中，我们首次尝试通过利用IW来诱导外观不变性，这对于领域适应或高级视觉任务（如分类或语义分割）是有益的虽然IN也通过单独标准化每个样本来引入不变性，但在高度非线性的深度神经网络中，相关性的差异很容易扩大。在IW中，不同样本的特征不仅被标准化，而且被单独白化，从而产生相同的协方差矩阵，即，单位矩阵因此，IW比IN具有更好的不变性。在美白和标准化之间切换。我们的SW配方可以在美白和标准化之间切换。比如考虑n={bw，bn}，即，Σˆ=ωbwΣbw+ωbnΣbn,(ωbw+ωbn=1). 当ωbn增大时，非对角线方向上的能量将被削弱，而对角线方向上的能量将保持这将使特征在白化之后较少去相关。当美白程度需要仔细调整时，这是有益的，这是[13]中指出的BW的重要问题。SW组 Huang等人. ”[13]《易经》云：降低复杂度，并解决大协方差矩阵的不准确估计。在西南，我们遵循相同的设计，即，特征沿着沟道维度被分成组，并且对每个组执行SW。重要性权重λk对于每个组可以是共享的或独立的。在这项工作中，我们让一个层的组共享相同的λk以简化讨论。表1.计算复杂度的比较。N、C、H、W分别是输入张量的样本数、通道数、高度和G表示在组白化中用于每个组的通道的数量方法计算复杂度w/o组w/组BN、IN、LN、SNO（ NCHW）O（ NCHW）BWO（C2 max（NHW，（C））O（CGmax（NHW，G））IWO（NC2 max（HW，（C））O（NCGmax（HW，G））SWO（NC2 max（HW，（C））O（NCGmax（HW，G））复杂性分析。表1比较了不同归一化方法的计算复杂度。SW的触发器与IW相当。应用群白化算法可使计算量减少C/G倍。通常我们有HW > G，因此SW和BW的计算成本大致相同（即，O（CGNHW））。在实际应用中，软件的运行时间瓶颈在于特征分解。为了提高训练效率，我们在算法1的第9行和算法2的第3行，第7行中为'for'循环实现了一个分布式版本补充资料中提供了更多关于时间复杂度的分析1F表示Frobenius内积。K∂λBW∂λ1867141210864200 50 100150历元201816141210860 50 100150历元605550454035302520150 20 40 60 80100历元605550454035302520150 20 40 60 80 100历元(a) CIFAR-10上的ResNet 20（b） ImageNet图2.在CIFAR-10和ImageNet上训练和验证误差曲线报告了具有不同归一化方法的模型这里，SW具有k ={bw，iw}。表2. CIFAR-10/100和ImageNet验证集上的测试误差（%）[12]。对于每个模型，我们评估不同的归一化或白化方法。SWa和SWb分别对应于λ ={bw，iw}和λ ={bw，iw，bn，in，ln}CIFAR的结果平均5次运行。数据集方法BNSNBWSWaSWbResNet208.458.348.287.647.75CIFAR-10ResNet44ResNet567.016.886.756.576.836.626.276.076.356.25ResNet1106.215.975.995.695.78CIFAR-100 ResNet2032.09 32.28 32.44 31.00 30.87ResNet11027.32 27.25 27.76 26.64 26.48ImageNetResNet50（top1）23.58 23.10 23.31 22.10 22.07ResNet50（top5）7.006.556.725.965.914. 实验我们评估了图像分类（ CIFAR-10/100 ，ImageNet），语义分割（ADE 20 K，Cityscapes），域适应（ GTA 5 ， Cityscapes ）和图像风格转换（COCO）。对于每个任务，SW与以前的归一化方法进行了比较。4.1. 分类CIFAR-10、CIFAR-100 [12]和ImageNet [4]是标准的图像分类基准。我们的培训政策和设置与[7]相同。实施.我们基于标准ResNet [7]评估了不同的归一化方法。请注意，在ResNet的所有卷积层之后引入白化是不考虑2048个通道以节省计算。补充材料中可以找到关于这些选择的更多讨论。这里研究的归一化层是BN、SN、BW和SW。对于SW，我们考虑两种情况：其中，n ={bw，iw}和n={bw，iw，bn，in，ln}分别表示为SW a和SW b。在所有实验中，我们采用组对于SW和BW，组大小G= 16的白化。以来[19]表明，将早期停止应用于SN的训练可以减少过度拟合，我们在CIFAR的第80个epoch和ImageNet的第30个epoch结果结果见表。2、培训曲线如图所示。二、在两个数据集中，SWa和SWb在不同的网络深度上，比BN、SN和BW显示出更好的结果和更快的收敛速度具体而言，仅使用7个SWb层，ResNet50在ImageNet上的top1和top5误差显著降低了1.51%和1.09%。这一性能与原始ResNet152相当，后者的top5误差为5.94%。我们的研究结果表明，以适当的方式结合不同的例如，SWb优于SN归因于白化带来的更好的优化条件。SWa优于BW的性能此外，SWa和SWb表现得相当好，这表明完全白化通常表现得很好，并且当呈现白化时，对标准化的需求是微不足道的。讨论。 SW具有两组重要性权重λk的λ′。我们观察到，允许λk和λ′分担权重，K K冗余的，并且会导致高计算成本，因为也在[13]中指出。因此，我们将ResNet中的部分BN层替换为所需的归一化层。对于CIFAR，我们在第1个和第{4 n}个（n = 1，2，3，.）卷积层。对于ImageNet，考虑的归一化层是第1层和第{6 n}层（n = 1，2，3，.）层。的残余块会产生稍差的结果。例如，ResNet20具有当使用具有共享重要性权重的软件时，测试误差为8.17%。我们推测均值和协方差在训练中具有不同的影响，并建议保持均值和协方差的独立重要性权重。请注意，这里没有报告IW，因为它通常会产生更差的结果，因为它会减少功能区分。BNSNBWSWBNSNBWSWBNSNBWSWBNSNBWSW训练误差（%）验证误差（%）验证误差（%）训练误差（%）1868表3. Cityscapes和ADE20K数据集上的结果。‘ss’ and ‘ms’indicate single-scale and multi-scale test0.80.60.40.20.0135 7 9 11 13层id表4.与ADE20K验证集上的先进方法进行比较* 表明我们的执行。方法mIoU（%）像素Acc.（%）DilatedNet [31]32.31 73.55CascadeNet [36]34.90 74.52[第17话]40.70-PSPNet101 [33]43.29 81.39SDDPN [16]43.68 81.13WiderNet [30]43.73 81.17PSANet101 [34]43.77 81.51EncNet [32]44.65 81.69PSPNet101*43.5981.41PSPNet101-SWa45.3382.05民族例如， ResNet 20 与 IW 在 CIFAR-10 上给出了12.57%的测试误差，这比其他归一化方法更差。这也意味着SW借用了不同规范化器的优点，因此它可以胜过其中的任何一个4.2. 语义分割我们进一步验证了我们的方法在ADE20K [35]和Cityscapes [3]上的可扩展性，这是标准且具有挑战性的语义分割基准。我们基于ResNet和PSPNet评估软件[33]。实施. 我们采用与[33]相同的ResNet架构，训练设置和数据增强方案。考虑的归一化层是第一层和第二层。{3n}th（n = 1，2，3，.）除了那些有2048个通道的层。由于在这两个基准点中没有观察到过拟合，因此这里不使用提前停止BN和BW-volved在多个GPU之间同步。结果表. 3报告了两个基准测试的验证集上的mIoU。对于ResNet50，只需将BN的一部分替换为SW，就可以将 ADE 20K 和 Cityscapes 的 mIoUss 分别显著提高3.2%SW也显著优于SN和BW，这与分类结果一致。此外，我们表明，SW甚至可以改善最先进的语义分割模型。我们将SW应用于PSPNet 101 [33]，并与其他方法在ADE 20K数据集上进行比较。结果见表。4.第一章简单地使用一些SW层可以提高图3.Cityscapes和GTA5之间的MMD距离强大的PSPNet在mIoU上增长了1.74%。我们的最终得分为45.33%，优于其他更先进的语义分割方法，如PSANet [34]和EncNet [32]。4.3. 域适应SW的自适应风格不变性使其适合于处理两个图像域之间的外观差异。为了验证这一点，我们评估域自适应任务的软件。使用的数据集是广泛使用的GTA5[23]和Cityscapes [3]数据集。GTA5是从计算机游戏侠盗猎车手V（GTA5）半自动生成的街景数据集，而Cityscapes包含从现实世界收集的交通场景图像实施. 我们基于AdaptSegNet [26]框架进行实验，这是一种最新的领域自适应方法。它采用对抗性学习的方法来缩短两个域之间的距离.分段网络是具有VGG 16[25]主干的DeepLab-v2 [2]模型。训练设置与[26]相同。请注意，VGG 16模型有五个卷积组，其中这些组的卷积层数为{2，2，3，3，3}。我们在每组的第一个卷积层之后添加SW或其对应物，并使用不同的归一化层报告结果。结果表. 5报告了将GTA5改编为Cityscapes的结果。当在不同的图像域上进行评估时，具有SW的模型实现了更高的性能。与BN和SN相比，SWa使mIoU分别提高了3.0%和1.6%。为了理解SW如何在跨域评估下表现得更好，我们分析了两个数据集之间深度特征的最大均值差异（MMD）[6MMD是一种常用的度量域差异。具体来说，我们使用MMD与高斯内核[14]。我们使用不同的归一化层计算VGG16中前13层特征的MMD结果示于图3 .第三章。与BN和SN相比，SW显著降低了浅特征和深特征的MMD。这表明引入的IW有效地减少了CNN特征中的域差异，使模型更容易推广到其他数据域。VGG16-BNVGG16-SNVGG16-SWaVGG16-SWbMMD方法ADE20K城市景观mIoUss mIoUms mIoUss mIoUmsResNet50-BN36.637.972.173.4ResNet50-SN37.838.875.076.2ResNet50-BW35.937.872.573.7ResNet50-SWa39.840.876.277.1ResNet50-SWb39.840.776.077.01869KKK表5.将GTA5改编为Cityscapes。报告了具有不同归一化层的模型的mIoU方法道路人行道建筑墙栅栏杆光标志蔬菜地形天空人乘用车卡车busMiouAdaptSetNet-BN88.342.774.922.014.016.517.84.283.534.372.144.81.776.918.06.70.03.00.132.7AdaptSetNet-SN87.041.677.521.220.0 18.320.98.382.435.472.648.41.481.118.75.20.08.40.034.1AdaptSetNet-SWa 91.850.278.125.317.517.521.46.283.436.674.050.7 7.483.416.76.30.0 10.4 0.835.7AdaptSetNet-SWb91.8 50.5 78.423.516.517.219.85.5 83.6 38.4 74.648.95.383.617.63.90.17.70.735.113.012.512.011.511.010.510.05.04.54.03.53.02.50.80.70.60.50.40.30.20.19.520000 40000 6000080000迭代2.020000 40000 6000080000迭代0.00 20000 40000 6000080000迭代图4.风格迁移中的训练损失和SWb的学习重要性比率。重要性比率在图像风格化网络中的所有SWb层上平均样式BN IWSWaSWb图5.使用不同规格化层的样式转移的可视化4.4. 图像样式转换由于具有丰富的统计数据，SW不仅可以在高级视觉任务中工作，而且可以在低级视觉任务因为BW保留了重要的内容信息。使用不同规格化层的风格转移的定性示例五、BN产生差的风格化图像，而IW给出令人满意的结果。SW与IW的工作良好，表明SW能够根据任务选择适当的规范化器补充材料中提供了更多的例子。4.5. 软件分析为了理解SW的行为，在本节中，我们研究了它的学习动态和学习的重要性比率。学习动力学。SW的重要性比被初始化为具有统一的值，即，0.5，且0.2，对于λ ={bw，iw，bn，in，ln}。为了了解不同层中SW的比例在训练过程中如何变化，我们绘制了像图像风格转移。为了证明这一点，我们雇用了一个流行的-ωk和ω′的学习曲线图6和图7 .第一次会议。它可以经典风格转换算法[11]。它有一个形象风格化网络训练的内容损失和风格损失计算的损失网络。MS-COCO数据集[18]被用作内容图像，而所选择的风格图像是糖果和星夜。我们遵循与[11]相同的训练策略，并为图像风格化网络采用不同的归一化层结果训练损失曲线如图所示。4.第一章根据前人的研究结果，IW和IN的性能优于BN.可以看出，重要性比率在开始时变化很快有几个有趣的观察。(1)不同任务的学习动力各不相同。在CIFAR-10 中， SW 主要选择 IW ，偶尔选择 BW ，而在Cityscapes中，BW或BN主要被选择。(2)SW在不同层次的学习行为往往是不同的，而不是同质的。例如图在图7（a）中，SW选择用于层{15，21，39}的IW，以及用于除了层{6，9}之外的其余层的BW，其中，此外，我们观察到IW具有较小的含量损失，比例保持一致。（3）ωk和ω′的行为是风格损失比IN，这验证了IW在大多数连贯和有时发散的情况下更好例如在操纵图像样式。虽然SW在开始时收敛得比IW慢，但当SW学会选择IW作为规范化器时，它很快就赶上了IW此外，当训练收敛时，SW比IW具有更小的内容损失，图15的层{15，21}7，ωk选择IW，而ω′选择BW或BN。这意味着μ和μ不一定是必须保持一致，因为它们可能对培训产生不同的影响。BNINSNIWSWaSWbBNINSNIWSWaSWbBWBNIW在LN内容损失内容风格损失重要性比1870KKK1.0（a）0.50.01.0（b）0.50.00.50（c）0.250.00（d）0.50.0图6. CIFAR-10上ResNet 56中重要性权重的学习曲线。 (a)和（b）显示ωk和ω′在SW中，其中Ω ={bw，iw}。（c）第（1）款′和（d）对应于ω k和ω 在SW中，其中k ={bw，iw，bn，in，ln}。1.0（a）0.50.01.0（b）0.50.00.50（c）0.250.000.5（d）其他事项0.0图7.ResNet50在Cityscapes上的重要性权重的学习曲线（a）（b）（c）（d）具有与图中相同的含义六、百分之三十九点五百分之五十六点四百分之七十七点二百分之七十六点四62.4%BWIW60.5%百分之六点四29.3%百分之二点四百分之四十三点六48.6%38.2%二点二百分之二十二点八百分之二十八点九31.4%百分之二十三点六百分之二十七点二25.0%百分之三十七点六百分之二十三点二百分之五点九11.0%百分之四十三点八3.0%百分之十七点五百分之八点五6.9%14.0%15.4%百分之十三点六百分之十三点八百分之十九点二百分之十七点二百分之十一点六九点五厘分类CIFAR-10分类ImageNet分割ADE20K细分城市景观域适应GTA->城市景观风格转移COCO图8.学习软件在各种任务中的重要性比率。上面和下面分别对应于λ ={bw，iw}和λ ={bw，iw，bn，in，ln}。各种任务的重要性比率我们进一步分析了SW中各种任务的学习重要性比率，如图所示。8.结果是通过对CNN中所有SW层的重要性比率ω′该模型是ResNet 50为IM-ageNet 、 ADE 20 K 和 Cityscapes ， ResNet 44 用于CIFAR- 10，VGG 16用于GTA5→Cityscapes，以及类似ResNet的网络用于风格传输，如[11]所示。报告了λ={bw，iw}和λ ={bw，iw，bn，in，ln}我们提出以下意见：（1）在语义切分上，SW主要选择BW和BN，其余部分也有选择，而在分类上则更多地选择IW。这是因为图像之间的多样性在分类数据集中比在分割数据集中更高。因此，需要更多的IW来减轻数据集内方差。（2）Cityscapes的语义分割在领域适应设置下比在正常设置下产生更多的IW和IN由于域自适应引入了域差异损失，更多的IW和IN将有利于减少两个域之间的特征差异，即，GTA5和城市景观(3)在图像风格转换中，SW积极地切换到IW这种现象与IW非常适合于风格转移的常识我们的实验也验证了在这个任务中，IW是一个更好的选择。5. 结论在本文中，我们提出了可切换的美白，它集成了各种美白和标准化技术的一般形式。SW通过学习在CNN的不同层中选择适当的归一化器来适应各种任务。我们的实验表明，SW实现了consis- tent改善了以前的归一化方法在一些计算机视觉任务，包括分类，分割，域自适应，图像风格转移。SW的研究揭示了在CNN中利用不同白化方法的重要性。我们希望我们在这项工作中的发现将有利于其他使用深度学习的研究领域BWIWBWIWBW/BNIW/INLNBWBNIWIN层1层4层8层层12层16层20层24层28层32层36层40层44层48LNBWIWBWIWBW/BNIW/INLNBWBNIW层1中层3层6层9层12层15层18层21层24层27层30层33层36层39 LN百分之十二点六87.4%41.3%12.0%BWIWINLN66.0%7.0%BN1871引用[1] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。一、二、三[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2018年。6[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。CVPR，2016年。二、六[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009年。二、五[5] GuillaumeDesjardins ， KarenSimonyan ， RazvanPascanu，等.自然神经网络NIPS，2015年。2[6] ArthurGretton，Karsten M Borgwardt，Malte J Rasch，Bern-hardSchoülk opf，andAl e xanderSmola. 一个核双样本检验。Journal of Machine Learning Research，2012。6[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，2016年。二、五[8] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。ICCV，2017年。2[9] 谢尔盖·约菲批量重整化：减少批处理标准化模型中的小批处理依赖性。NIPS，2017年。二、三[10] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015.一、二、三[11] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失ECCV，2016。七、八[12] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，技术报告，2009年。二、五[13] 黄磊，杨大伟，郎波，邓佳。Decorrelated批处理归一化。CVPR，2018年。一、二、三、四、五[14] Chun-LiangLi，Wei-Cheng Chang，Yu Cheng，YimingYang，andBarna

下载后可阅读完整内容，剩余1页未读，立即下载