局部上下文规范化：重新审视局部规范化

20 浏览量更新于2023-10-23 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1局部上下文规范化：重新审视局部规范化安东尼·奥尔蒂斯1，4，凯莱布·罗宾逊3，4，丹·莫里斯2，奥拉克·富恩特斯1，克里斯托弗·基金特费尔德1，Md Mahmudulla Hassan1，和Nebojsa Jojic†21德克萨斯大学埃尔帕索分校2微软研究院3佐治亚理工4微软AI for Good研究实验室摘要归一化层已被证明可以提高深度神经网络的收敛性，甚至可以增加有用的诱导偏差。在许多视觉应用中，特征的局部空间背景是重要的，但是大多数常见的归一化方案包括组归一化（GN）、实例归一化（IN）和层归一化（LN）在特征的整个空间维度上进行归一化。这可能会洗掉重要信号并降低性能。例如，在使用卫星图像的应用中，输入图像可以任意大;因此，在整个区域上进行标准化是没有意义的。另一方面，位置归一化（PN）一次仅一个自然的折衷方案是通过本地上下文来规范化特征，同时还考虑到组级别的信息。在本文中，我们提出了局部上下文规范化（LCN）：一个规范化层，其中每个特征都基于其周围的窗口及其组中的过滤器进行规范化。我们提出了一种算法解决方案，使LCN有效的任意窗口大小，即使在图像中的每个点都有一个独特的窗口。LCN在多个基准数据集中的对象检测、语义分割和实例分割应用方面优于其批归一化（BN）、GN、IN和LN同行，同时保持性能不依赖于批大小并促进迁移学习。1. 介绍在文献中已经提出了各种神经网络归一化层以帮助收敛和优化。*作者在微软研究院实习期间完成了部分工作†通信：jojic@microsoft.com，anthonymlortiz@gmail.com有时甚至添加所需的电感偏置。批量归一化（BN）是一种减法和除法特征归一化方案，广泛用于深度学习架构[12]。最近的研究表明，BN通过平滑优化景观来加速非常深度的学习架构的收敛[32]。BN通过在小批量内计算的均值和方差对特征进行归一化。在计算归一化统计信息时使用批次维度有两个主要缺点：• 小批量会影响模型性能，因为均值和方差估计值的准确度较低。• 在推断过程中可能不存在批次，因此从训练集预先计算均值和方差，并在推断过程中使用。因此，在目标数据分布在执行迁移学习时会导致问题，因为模型假设原始训练集的统计数据[27]。为了解决这两个问题，Wu和He最近提出了群归一化（GN）[40]。GN将通道划分为组，并通过使用每个组内的统计数据对特征进行归一化。GN不利用批次维度，因此计算与批次大小无关，并且当批次大小减少时，模型性能不会降低。当批量较小时，GN相对于BN表现出竞争力;同时，GN正迅速被用于分割和视频分类等计算机视觉任务，因为这些应用的批量通常受到限制。当批量足够大时，BN仍然优于GN。BN、GN、IN和LN都执行我们认为，对于上述应用程序，当地的上下文问题。为了体现这种直觉，我们提出了洛-1127611277图1：本地上下文规范化（LCN）层。LCN根据其特征组和空间邻域中的值对通道中的每个值进行归一化。该图显示了我们提出的方法与其他归一化层在归一化中使用的特征（以蓝色显示）方面的比较，其中H，W和C是卷积层输出体积中通道的高度，宽度和数量。calContextNormalization（LCN）作为规范化层，其通过基于其局部邻域和对应特征组的统计来规范化每个特征，从而利用数据分布的上下文LCN实际上受到计算神经科学的启发，特别是人类视觉系统所利用的对比度归一化方法[21]，以及早期的生成建模方法来共同分割[14，15，39]，其中关于像素标签的推理基于图像或图像窗口内的共享自相似性模式，而不是跨图像的共享特征LCN提供了比所有先前提出的规范化技术更高的性能我们经验证明了LCN的对象检测以及语义和实例分割的性能优势。GN的另一个问题是，由于它使用特征的整个空间维度执行归一化，因此当它用于在需要以块处理输入图像的应用中进行推断时，仅将输入块移位几个像素就会产生不同的预测。这是地理空间分析和遥感应用中的常见场景，其中输入往往覆盖巨大的区域[28，23]。像[29]这样的交互式微调应用程序使用GN变得不可行，因为用户将无法识别预测的变化是因为微调还是仅仅因为图像输入统计的变化而发生的。使用LCN，预测仅依赖于特征邻域内的统计数据;当输入移位时，推理不改变。2. 相关工作神经网络中的归一化。从神经网络的早期开始，人们就知道输入归一化通常会提高收敛性[18，17]。LeCun et al.表明神经网络的收敛速度更快如果任何层的每个输入变量的平均值接近于零，并且它们的协方差大致相同[17]。从那时起，文献中提出了许多归一化方案[21，13，16，12，19，37，40]。局部对比归一化层由[13]引入，后来被称为局部响应归一化（LRN）。原始AlexNet论文使用了LRN原始版本的修改，该论文在2012年赢得了Imagenet [7]挑战赛[16]，以及2013年的获奖作品[42]。直到2015年，大多数流行的深度学习架构，包括Overfeat和GoogLeNet[34，36]也使用LRN，基于每个特征周围非常小的窗口（最多9 ×9）中的统计数据进行归一化在Ioffe et al.在2015年提出的BN中，社区转向了全球归一化方案，其中统计数据是沿着整个空间维度计算的[12]。BN沿着批次维度对给定小批次的特征图进行归一化对于卷积层，平均值和方差是在批处理和空间维度上计算的，这意味着特征图中的每个位置都以相同的方式归一化。平均值和方差是在训练集上预先计算的，并在推断时使用，因此当输入数据中存在任何分布偏移时，BN在传输或推断时产生不一致性[27]。减少批量大小也会影响BN性能，因为估计的统计数据不太准确。其他标准化方法[37，40，19]已被提出，以避免利用批量尺寸。LN [19]沿通道维度执行归一化，IN [37]对每个样本执行归一化，GN使用来自整个空间维度和一组特征通道的均值和方差。不同规格化方案的可视化表示见图1权重归一化（WN）不是对特征进行操作，而是对过滤器权重进行归一化[31]。这些策略不受沿批次维度归一化所引起的问题的影响，但它们在大多数视觉识别应用中无法接近BN性能。吴和11278Σ^最近提出的GN，当批量大小很小时，它能够在一些计算机视觉任务上匹配BN性能[40]。所有这些方法都执行全局规范化，这可能会消除局部上下文。我们提出的dow的大小为9×9，pqWpq= 1，c设置为均值（σhw），σhw是小空间邻域内所有特征的加权标准差。h和w是空间上的ω-坐标，i是特征索引。LCN利用了当地环境的优势，从全局标准化中获得的x=xihw−pqWpqxi，h+p，w+q（一）方法.^IHWmax（c，σhw）对比度增强。总的来说，对比在典型图像中变化很大。对比度增强用于在对比度低或中等的区域增强对比度这是-全局归一化最新的归一化技术，包括BN、LN、IN和GN，应用全局归一化。在这些技术中，按照等式2对特征进行归一化。要求对比度增强适应于局部图像内容。对比度归一化的灵感来自com-x=xi−µiiσi（二）推定神经科学模型[13，21]，并反映了人类视觉感知的某些方面这启发了神经网络的早期归一化方案，但对比度增强尚未被纳入最近的归一化方法。Perin等人显示了突触对于2D图像，i=（iB，iC，iH，iW）是以（B，C，H，W）顺序对特征进行索引的4D向量，其中B是批次轴，C是通道轴，并且H和W是空间高度和宽度轴。µ和σ计算如下：集群，其中小的神经元组（几十个）形成没有枢纽的小世界网络[25]。考试-1µi= M阿克斯克k∈Si每一个人，都有一个更大的可能性，与集团其他成员的联系，而不仅仅是一个小的σi= .1（xk−µi）2+（三）中枢神经元的数量，促进整个组内的抑制或兴奋。此外，这些细胞组件交错，使得它们一起形成重叠的组。这些团体实际上可以实现LCN。这些组还可以实现更极端的颜色和特征不变性，如概率索引图（PIM）模型[14，39，15]，其假设特征的空间聚类模式（分割）在图像之间共享，但调色板（每个聚类中的特征强度）可以自由变化。PIM自然适合于共分段应用。LCN还强调像素特征之间的局部相似性，但也保留了一些强度信息。局部对比度增强已应用于计算机视觉中，以预处理输入图像[26，33]，确保对比度在非常小的窗口（传统上为7×7或9×9局部对比度归一化对于流行直方图的性能至关重要[6 ]关于《易经》的研究[编辑]在这项工作中，我们建议不仅在输入层，而且在神经网络的所有层中应用类似的归一化，Mk∈Si其中为小常数。Si是计算平均值和标准差的像素集合，m是该集合的大小。如[40]所示，最新类型的特征归一化方法主要区别在于如何定义集合Si。图1以图形方式示出了不同归一化层的对应集合Si对于BN，统计量沿着（B，H，W）计算：BN=Si={k|kC=iC}（ 4）对于LN，在每个层内对每个样本执行归一化。μ和σ沿着（C，H，W）计算：LN={k}i={k|kB=iB}，（ 5）对于IN，归一化是按样本、按通道执行的。μ和σ沿着（H，W）计算：IN=INi={k|kB=iB，kC=iC}，（ 6）对于GN，归一化是在沿着通道轴的大小为G神经元群KCIC3. 局部上下文规范化3.1. 制剂11279^局部归一化在的 LRN 方案由[13]提出，每个特征xi，h，w-GN=Si={k|kB=iB，<$C/G<$=<$C/G<$}，（7）所有全局归一化方案（GN、BN、LN、IN）学习每通道线性变换以补偿特征幅度的变化：yi=γxi+β（8）其中，Wpq是高斯加权win。其中γ和β是在训练期间学习的11280n^在LCN中，使用由9定义的集合Si，按照等式2计算归一化统计量μ和γ。我们建议在大小为p×q的窗口内，针对大小由沿着通道轴的每组通道数（c组）预定义的滤波器组，执行每个样本的归一化，如等式9所示。而不是像com这样的组G的数量对于GN，我们使用（c群）作为超参数。我们考虑的窗口比LRN中使用的窗口大得多，并且可以以计算有效的方式计算μ和γ。大小p和q应根据输入大小和分辨率进行调整，并且对于算法1LCN伪码输入：x：形状[B，C，H，W]的输入特征，C组：每组的信道数，窗口大小：作为元组（p，q）的空间窗口大小，γ，β：要学习的尺度和移位参数输出：{y=LCNγ，β（x）}1 S←dilated conv（I（x），d，k）/*I（x）是整数x的像，伸缩d是（c群，p，q），核k是一个张量，其中-1和1是子维或加维*/2 Ssq←dilated conv（I（xsq），d，k）// I（xsq）是x平方的积分像网络的不同层次3µ←S//计算平均值n=c组pq4 σ2←1（Ssq−S<$S）//计算方差n n5x←x−µ//将激活标准化Ki联系我们LCN=100%i={k|KB=iB，Cc组=C.c组6 y ←γx+β//应用仿射变换kHp p q q与先前归一化方案的关系LCN允许对大多数先前提出的小批量独立归一化层进行有效的泛化像GN一样，我们执行每组归一化。如果所选的p大于或等于H，并且所选的q大于或等于W，则LCN的行为与GN完全相同，但在整个网络中保持每组的信道数量而不是组的数量固定。如果在这种情况下，每组（c组）的信道数量被选择为信道总数（c组= C），则LCN变为LN。如果每组（c组）的信道数被选择为1（c组= 1），则LCN变为IN。3.2. 执行LCN可以在任何支持自动区分的框架中轻松实现，如PyTorch [24]和TensorFlow [2]。为了有效地计算均值和方差，我们使用了求和面积表算法，在计算机视觉中也称为积分图像技巧[38]，以及扩张卷积[41，3]。算法1示出了用于实现LCN的伪代码。我们首先使用输入特征和输入特征的平方创建两个积分图像。然后，我们将扩张卷积应用于具有适当扩张（扩张取决于c群，p和q），内核和步长的积分图像。这为我们提供了相应窗口和组内每个特征xihw的和和平方张量。从总和和平方张量的总和，我们得到的平均值和方差张量需要规范化的输入功能。请注意，运行时间相对于窗口大小是恒定的，使得LCN对于任意大的胜利是有效的4. 实验结果在本节中，我们将在几个基准数据集中评估我们提出的用于对象检测、语义分割和实例分割任务的规范化层，并将其性能与最佳的已知规范化方案进行比较。4.1. 城市景观的语义分割语义分割是指为图像中的每个像素分配一个类别每个像素通常都标记有封闭对象或区域的类别。我们在Cityscapes数据集[5]上测试了语义分割，该数据集包含5，000个精细注释的图像。这些图像分为2，975个训练图像、500个验证图像和1，525个测试图像。有30个类，其中19个用于评估。实施详情。我们训练最先进的 HR-NetV 2 [35] 和HRNetV 2-W18-Small-v1网络作为基线1。我们遵循与[35]相同的训练方案。数据通过随机裁剪（从1024×2048到512× 1024），在[0.5，2]和随机水平翻转。我们使用随机变量梯度下降（SGD）优化器，基本学习率为0.01，动量为0.9，权重衰减为0.0005。使用幂为0.9的多学习率策略来降低学习率，如[35]中所做。所有的模型被训练了484个时期。我们使用四个GPU训练HRNetV2，每个GPU的批量大小为两个。然后，我们用BN、GN、LCN替换同步批量归一化层1我们使用的官方实现代码来自：https：//github.com/leoxiaobin/deep-high-resolution-net.PyTorch11281表1：Cityscapes语义细分性能方法正常化mIoU类别（%）像素Acc.（%）平均加速（%）HRNetV2 W48BN76.2296.3983.73HRNetV2 W48GN75.0895.8482.70HRNetV2 W48LCN（我们的）77.4996.1484.60HRNetV2 W18小型v1BN71.2795.3679.49HRNetV2 W18小型v1在69.7494.9277.77HRNetV2 W18小型v1LN66.8194.5175.46HRNetV2 W18小型v1GN70.3195.0378.99HRNetV2 W18小型v1LCN（我们的）71.7795.2679.72GN1.460.230.73并比较结果。我们使用HRNetV 2-W18-Small-v1进行了详尽的比较，这是HRNetV 2的较小版本;除了批次大小之外，所有训练细节都保持不变，为了更快的训练，批次大小增加到每个GPU四张图像。定量结果。表1显示了Cityscapes验证集上不同标准化层的性能。除了类交联平均值（mIoU）外，我们还报告了像素精度（Pixel Acc.）和类像素精度的平均值（Mean Acc.）。我们观察到，我们提出的归一化层优于包括BN在内的所有其他归一化技术。LCN几乎比最佳GN配置关于 MIOU 对于 LCN ，选择 c 组为 2 ， HRNetV2W18Small v1的窗口大小为227× 227（p=q= 227），HRNetV2 W48的窗口大小为255× 255对于GN，我们测试了不同数量的组，如表1所示。2，我们在表1中报告了与其他方法比较的最佳方法（使用16组）。表2显示，GN对组的数量有些敏感，范围从67%到70.3% mIoU。表2还显示了IN和LN的结果，两者的性能都比最佳GN性能差。这些结果使用HRNetV 2-W18- Small-v1网络架构获得。值得一提的是，我们使用相同的学习率值来训练所有模型，这意味着LCN仍然受益于与其他全局归一化技术相同的快速收敛;对于局部归一化方案，例如LRN，这是不正确的，LRN倾向于需要较低的学习速率来收敛。对每组通道数的敏感性。我们测试了LCN对每组通道数（c组）参数的敏感性，方法是在保持窗口大小固定为227× 227（p=q= 227）的同时，针对不同的c组值训练模型。表3显示了每组不同通道数时LCN的性能，在所有配置中，LCN的性能相当稳定。对窗口大小的敏感性。我们还测试了LCN性能如何随着窗口大小的变化而变化，同时保持每组的通道数量固定。结果示于表4中。窗口大小越大，LCN越接近GN。当窗口大小（p，q）等于整个空间维度时，LCN变为GN。从表4中我们可以看到，当窗口大小接近GN等效值时，性能如何下降。定性结果图2显示了从HRNetV 2-W18-Small-v1获得的语义分割结果的两个随机选择的示例，使用GN（最后一列）和LCN（倒数第二列）作为规范化层。第二行和第四行是通过最大化它们上面的图像的橙色区域获得的。通过放大并查看分割结果中的细节，我们可以看到LCN允许更清晰和更准确的预测。仔细观察第二行，我们可以观察到使用GN HRNet如何错过行人，而使用LCN时会识别行人。从最后一行，我们可以看到，使用LCN的结果更清晰，不连续的预测。LCN允许HRNet区分自行车和骑自行车者的腿，而GN不能。LCN还为背景中的汽车提供了比GN更精确的边界4.2. 基于Microsoft COCO数据集的我们评估我们的LCN对以前提出的规范化计划的对象检测和实例分割。对象检测涉及从图像中的特定类别检测对象的实例。实例分割涉及检测和分割图像中的每个对象。Microsoft COCO数据集[20]是一个高质量的数据集，它提供了适合检测和实例分割的标签，并且是这两项任务的标准数据集。注释包括像素级分割掩模和属于80个类别的对象的边界框11282表2：不同数量组方法数量的组mIoU类别（%）像素Acc.（%）平均加速（%）HRNetV2 W18小型v11（=LN）66.8194.5175.46HRNetV2 W18小型v1269.2894.7877.39HRNetV2 W18小型v1467.0094.5076.13HRNetV2 W18小型v1867.6794.7675.81HRNetV2 W18小型v11670.3195.0378.99HRNetV2 W18小型v1C（=IN）69.7494.9277.77(a) 输入（b）真实值（c）GN预测（d）LCN预测(e)输入（f）真实值（g）GN预测（h）LCN预测图2：城市景观的定性结果。从左到右，这张图显示：输入、地面实况、组范数预测和局部上下文范数预测。第二行和第四行是通过最大化上面图像中的橙色区域获得的。我们观察LCN如何允许模型检测GN错过的小物体，并提供更清晰，更准确的预测。这些计算机视觉任务通常受益于更高分辨率的输入。我们使用Mask R-CNN基线进行实验[9]，在公开可用的Detectron代码库中实现。我们在微调期间使用GN从ImageNet预训练的模型，用LCN替换BN和/或GN。我们使用每个GPU一个图像的批量大小进行微调，并使用四个GPU训练模型。这些模型在COCO [20] train2017集合中训练，并在COCO val2017集合中进行评估。minival）。我们报告的标准 COCO 指标的平均精度（ AP ）， AP50，和AP75，这两个边界框检测技术2.在所有实验中，LCN的性能都大大优于GN和BN，即使使用针对其他方案调整的超参数。4.3. ImageNet中的图像分类我们还使用ImageNet数据集进行了图像分类实验[7]。在这个实验中，图像必须被分类到1000类之一。我们对所有训练图像进行训练，并使用ResNet模型对50，000个验证图像进行评估[11]。（APbbox）和实例分割（APmask）。2我们的结果与原始论文中报道的结果略有不同表5显示了不同的正常-但这不应影响归一化方案之间的比较11283表3：固定窗口大小时，LCN对每组通道数的灵敏度（227，227）方法每组通道数mIoU类别（%）像素Acc.（%）平均加速（%）HRNetV2 W18小型v1271.7795.2679.72HRNetV2 W18小型v1470.2695.0778.49HRNetV2 W18小型v1870.1494.9778.11HRNetV2 W18小型v11670.1194.7879.10表4：LCN对窗口大小的灵敏度方法窗口大小mIoU类别（%）像素Acc.（%）平均加速（%）HRNetV2小型v119971.5595.1879.89HRNetV2小型v122771.7795.2679.72HRNetV2小型v125571.8095.1879.26HRNetV2小型v138370.0995.0677.64HRNetV2小型v151170.0395.0977.94HRNetV2小型v1所有/GN70.3095.0478.97表5：Microsoft Coco数据集上的检测和实例分割性能方法APbbox（%）APbbox（%）50APbbox（%）75AP掩码（%）AP掩码（%）50AP掩模75R50 BN37.4759.1540.7634.0655.7436.04R50 GN37.3459.6540.3434.3356.5336.31R50 LCN（Ours）37.9059.8241.1634.5056.8136.43表6：Imagenet网络架构正常化前1名错误（%）前5名错误（%）Resnet 50BN23.596.82Resnet 50GN24.247.35Resnet 50LCN24.237.22实施详情。与大多数报告的结果一样，我们使用8个GPU来训练所有模型，并在每个GPU中计算BN的批均值和方差。我们使用 He 我们训练所有模型 100 个epoch，并在30，60和90 epoch时将学习率降低10倍在训练过程中，我们采用Szegedy等人的数据增强。[36]如[ 40 ]所示。我们评估了验证集中224×224像素的中心作物上的前1个分类错误为了减少随机变化，我们报告了最后五个时期的中位数错误率[8]。在[40]中，我们的基线是用BN训练的ResNet [11]。为了与GN和LCN进行比较，我们将BN替换为特定变体。我们对所有模型使用相同的我们将LCN的每组通道数设置为32，并使用p=q= 127作为窗口大小参数。表6显示，LCN提供了与GN相似的性能，但我们没有看到在对象检测和图像分割方面观察到的相同性能提升。我们假设发生这种情况是因为图像分类是一项全局任务，可能无法从局部上下文中受益。4.4. INRIA航空影像数据集引入INRIA航空图像标记数据集以测试遥感分割模型的泛化[22]。它包括来自北美和欧洲10个不同城市地区的图像。不是将相同图像的相邻部分拆分为训练集和测试集，而是按城市进行拆分。五个城市的所有瓦片都包括在训练集中，其余的瓦片用作测试集。图像经过正射校正[22]，空间分辨率为每像素0.3米。数据集覆盖810平方公里（405平方公里的训练和405平方公里的测试集）。图像被标记为建筑物和非建筑物的语义类别。实施详情。我们训练了不同版本的U-Net [30]，其中只改变了归一化层在这组实验中，我们使用来自所有训练图像图块的572×572个随机采样块来训练所有模型我们使用Adam优化器，批量大小为12。所有网络都是从头开始训练的，11284表7：Inria航空图像标记数据集的性能LCN总体上优于所有其他归一化层方法贝灵汉布卢明顿因斯布鲁克旧金山东蒂罗尔整体IOUAcc.IOUAcc.IOUAcc.IOUAcc.IOUAcc.IOUAcc.U-Net + BN65.37 96.53 55.07 95.83 67.62 96.08 72.8091.0067.00 96.91 67.98 95.27U-Net + GN55.48 93.38 55.47 94.41 58.93 93.77 72.1289.5662.27 95.73 63.71 93.45U-Net + LCN 63.61 96.26 60.47 96.22 68.99 96.28 75.0191.4668.90 97.19 69.90 95.48率为0.001。我们在前60个epoch中保持相同的学习率，并在接下来的40个epoch中将其衰减到0.0001。每个网络都经过了100个epoch的训练。每一个时期都能看到8,000个斑块。二进制交叉熵损失被用作损失函数。表7总结了INRIA空间图像标记数据集中不同归一化层的性能。我们提出的LCN优于所有其他归一化层，其总体mIoU比下一个最佳归一化方案高出近2%，并且在总体IoU方面比GN高出6%以上LCN提供了许多在几乎每个测试城市都比其他方法有更好的性能。LCN使用91×91窗口大小和每组四个通道进行训练4.5. 土地覆盖物扫描表8：在马里兰州2013年测试中测试的土地覆盖图方法mIoU（%）像素Acc.（%）UNet + BN76.6987.15UNet + GN74.1585.18UNet + LCN76.5186.96最后，我们评估LCN的土地覆盖制图任务，以前在[28，1]中研究。土地覆盖制图是一项语义图像分割任务，其中航空或卫星图像中的每个像素必须被分类为属于各种土地覆盖类别之一。这种将原始遥感图像转化为汇总数据产品的过程是许多下游可持续性相关应用的重要第一步。例如，切萨皮克湾保护协会使用土地覆盖数据进行各种研究，环境的有效性，包括确定在何处种植河岸森林缓冲区[4]。数据集可以在在[1]，包含4通道（红、绿、蓝和近红外），1米分辨率的图像，来自国家农业图像计划（NAIP）和密集像素标签，来自切萨皮克保护协会我们使用马里兰州2013年的子集-对来自训练分割的50，000个多光谱图像块进行训练，每个图像块的大小为256×256×4。我们测试超过20个测试瓷砖3.每个像素必须分类为：水、树冠/森林、低植被/田地或不透水3由900，000，000像素组成表面。我们针对不同的归一化层训练了[28]中使用的不同版本的U-Net架构，而没有进行任何数据增强并比较结果。我们使用Adam优化器，批量大小为96.所有网络都是从头开始训练100个epoch的，初始学习率为0.001，60个epoch后衰减到0.0001。采用多类交叉熵损失作为判别准则。使用8个组获得最佳GN结果。LCN结果使用4个通道获得，一个31×31的窗口。表8示出了图10的平均IoU和像素精度。土地覆盖制图的不同标准化层LCN在此任务上优于GN，性能略低于BN。我们注意到LCN受益于更大的输入图像。当输入图像像这样小时，使用LCN的性能提升会变得更小。5. 讨论和结论我们提出了局部上下文规范化（LCN），归一化层，其中每个特征基于其周围的窗口及其组中的过滤器我们的经验表明，LCN优于所有先前提出的标准化层的对象检测，语义分割，并在各种数据集的实例图像分割LCN的性能不受批量大小的影响，非常适合迁移学习和交互式系统。我们注意到，我们使用了已经针对BN和/或GN高度优化的超参数，而没有调整，因此我们可能通过仅搜索更好的超参数来获得LCN的更好结果。在我们的实验中，我们也没有考虑改变网络中不同层的窗口大小，但这是一个值得探索的方向：在训练期间通过梯度下降调整窗口大小可以进一步提高LCN的性能。确认作者感谢Lucas Joppa和Microsoft AI for Earth倡议的支持。A.O. 由陆军研究办公室在W 911 NF-17-1-0370的支持下进行我们感谢英伟达公司捐赠两个Ti- tan XpGPU用于这项研究。11285引用[1] 切萨皮克的土地覆盖。马里兰分裂。8[2] Mart´ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S. Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， SanjayGhemawat ， IanGoodfellow ， Andrew Harp ， GeoffreyIrving ， MichaelIsard ， YangqingJia ， RafalJozefowicz，Lukasz Kaiser，Man-junathKudlu r，JoshLev enbe r g，DanMan e´，RajatMon g a，Sherry Moore，Derek Murray ， Chris Olah ， Mike Schuster ， JonathonShlens，Benoit Steiner，Ilya Sutskever，Kunal Tal war，Paul Tucker ， Vincent Vanhoucke ， Vijay Vasudevan ，Fer-nandaVie´gas ， OriolVinyals ， PeteWarden ，MartinWatten-berg ， Martin Wicke ， Yuan Yu ， andXiaoqiang Zheng. 张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。4[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和完全连接的CRF进行语义图像分割。arXiv预印本arXiv：1412.7062，2014。4[4] 切萨皮克保护协会。2013/2014年土地覆被数据项目。https：//chesapeakeconservancy.org/conservation-innovation-center/高分辨率数据/land-cover-data-project/，2016年。8[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32134[6] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。2005年IEEE计算机视觉和模式识别会议，2005年。3[7] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。二、六[8] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确的大批量小批量 SGD ： 1 小时内训练 Imagenet 。 arXiv预印本arXiv：1706.02677，2017。7[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面罩R-CNN。在IEEE国际计算机视觉会议论文集，第2961-2969页，2017年。6[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页，2015年。7[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机识别和模式识别会议论文集，第770-778页，2016年。六、七[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协作加速深度网络训练11286变量移位机器学习国际会议，2015年。一、二[13] Kevin Jarrett，Koray Kavukcuoglu，Yann LeCun，等.对象识别的最佳多级架构是什么？2009年IEEE第12届计算机视觉国际会议，第2146-2153页。IEEE，2009年。二、三[14] Nebojsa Jojic和Yaron Caspi。用概率索引图捕捉图像结构。2004年IEEE计算机协会计算机视觉和模式识别会议论文集，2004年。CVPR 2004。，第1卷，第1I. IEEE，2004年。二、三[15] Nebojsa Jojic ， Alessandro Perina ， Marco Cristani ，Vittorio Murino，and Brendan Frey. Stel成分分析：在图像类别结构中建模空间相关性。在2009年IEEE计算机视觉和模式识别会议上，第2044-2051页。IEEE，2009年。二、三[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。2[17] YannLeCun ， Le'onBottou ， YoshuaBengio ， PatrickHaffne r 等人。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998.2[18] YannALeCun ， L e'onBottou ， Gen evive eBOr r ，andKlaus- RobertMüller.有效的反向传播。在神经网络中：贸易技巧，第9-48页。Springer，1998年。2[19] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。2[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 五、六[21] Siwei Lyu和Eero P Simoncelli。非线性图像表示使用分裂规范化。在2008年IEEE计算机视觉和模式识别会议上，第1-8页IEEE，2008年。二、三[22] Emmanuel Maggiori 、 Yuliya Tarabalka 、 GuillaumeCharpiat和Pierre Alliez。语义标注方法可以推广到任何城市吗？INRIA航空图像标记基准。IEEE国际地球科学与遥感专题论文集（IGARSS）。IEEE，2017年。7[23] 安东尼·奥尔蒂斯、阿隆索·格拉纳多斯、奥拉克·富恩特斯、克里斯托弗·基金特费尔德、道尔顿·罗萨里奥和扎卡里·贝尔。多光谱图像中深度神经网络的集成学习和特征选择。在IEEE计算机视觉和模式识别研讨会论文集，第1196-1205页，2018年。2[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动微分。在NIPS-W，2017年。4[25] Rodrigo Perin，Thomas K Berger，and Henry Markram.皮质神经元群的突触组织原则。Proceedings of theNational Academy of Sciences ， 108

下载后可阅读完整内容，剩余1页未读，立即下载