没有合适的资源?快使用搜索试试~ 我知道了~
实例级Meta规范化机制及其在深度学习中的应用
1-µ实例级Meta规范化贾松浩国立清华大学gasoonjia@gapp.nthu.edu.tw陈定杰中央研究院djchen.tw邮件gmail.com国立清华大学htchen@cs.nthu.edu.tw摘要本文提出了一种规范化机制,称为实例级MetaNormalization(ILM Norm),以解决学习规范化问题。ILM Norm通过特征前馈和梯度反向传播路径学习预测归一化参数。ILM Norm提供了一种Meta规范化机制,并具有几个良好的属性。它可以很容易地插入到现有的实例级规范化方案,如实例规范化,层规范化,或组规范化。ILM Norm对每个实例单独进行标准化,因此即使使用小的minibatch也能保持高性能。实验结果表明,ILM Norm能够很好地适应不同的网络结构和任务,并在一定程度上提高了原有模型的性能。该代码可在https://github.com/Gasoonjia/ILM-Norm 上获得。图1. CIFAR-10分类错误率与每个GPU的批量大小。评估模型是ResNet-101。结果表明,与批归一化[11]和原始组归一化[27]相比,ILM范数应用于组归一化具有最佳的阶段通过1. 介绍规范化机制在深度学习中起着关键作用其中xncess.xn=ωxs+β,(2)是整个归一化过程的最终输出学习各种规范化策略已被提出,以显示其在稳定梯度传播的有效性在实践中,归一化机制旨在归一化给定层的输出,使得可以抑制消失梯度问题,从而减少输出分布中的振荡。通过适当的归一化,深度网络将能够提高训练速度和泛化能力。典型的规范化机制包含两个阶段:标准化和重新缩放。标准化阶段通过下式将特征图的输入张量x与其均值μ和方差γ正则化:Xxs=γ+,(1)其中xs是标准化的输入特征张量。 在重新缩放阶段,标准化的特征张量xs通过学习的权重ω和偏置β重新缩放,以恢复在标准化现有的规范化技术主要集中在研究标准化阶段,以改善各种情况下的深度网络训练。相比之下,据我们所知,重新缩放阶段的研究较少,其相关的改进仍然没有探索。我们观察到,估计用于恢复标准化输入特征张量的重新缩放参数的现有技术通常仅依赖于反向传播过程,而不考虑标准化阶段和重新缩放阶段之间的相关性。因此,当数据流通过这两个阶段时,信息我们认为,两个阶段之间缺乏相关性可能会导致现有的正常化技术的性能瓶颈。提出的实例级Meta Normalization(ILM Norm)旨在连接标准化阶段和重新缩放阶段。ILM Norm的设计灵感来自残差网络[6],它使用先前访问的特征图来指导当前特征48654866图2. ILM Norm的概述,这是一种用于实例级规范化的Meta学习机制。作为一种Meta规范化机制,ILM Norm可以从各种实例级规范化方法中推导出其规范化阶段的机制和重新缩放阶段的参数。为了进行关联,ILM Norm将输入的C个通道分成组,以计算每组的均值和方差作为关键特征μ和γ。然后使用自动编码器将输入特征张量的特征μ和γ经由输出(Dγ和Dμ)和原始重新缩放参数(Bω和Bβ)与重新缩放参数ω和β相关联,以重新缩放标准化特征图。地图ILM Norm中的权重ω和偏置β的学习遵循来自标准化阶段的输入特征图的线索,而不是像以前的方法那样仅仅依赖于反向传播。我们在重新缩放阶段将特征映射的输入tensorx与权重ω和偏置β以这种方式,权重ω和偏置β不仅可以更好地优化,而且还可以在正向传递期间更有效地适应不同的输入。ILM Norm为实例级规范化技术提供了Meta学习机制。它可以方便地与现有的实例级技术结合,例如实例规范化[25]或组规范化[27]。ILM Norm将每个实例内的特征分别标准化,即,在不使用所述批次维度的情况下执行所述归一化该属性的优点在于,由于归一化与批量大小无关,因此性能对于适合于不同任务上的特定网络架构的批量大小的各种设置更鲁棒。所提出的Meta规范化机制的概述如图2所示。本文的主要思想、优势和贡献总结如下:1. ILM范数提供了一种新的方法来将重新缩放参数与输入特征图相关联,而不是仅仅从反向传播中确定参数2. ILM Norm可以方便地插入到现有的实例级规范化技术中,例如实例规范化[25],层规范化[2]和组规范化[27]。 我们表明,ILM规范改善现有的实例级正常化技术的各种任务。3. ILM Norm中的变量数量很少,不会增加太多的计算负担。对于ResNet-101,使用ILM Norm,变量总数仅增加0.086%。4. 实验结果表明,在不同批量下,ILM Norm均能稳定运行.5. 我们在几个数据集上进行了大量的实验,分析和比较ILM Norm与其他归一化技术的特性。2. 相关工作2.1. 深度神经网络中的归一化基于梯度的学习可能会遇到众所周知的梯度爆炸或梯度消失事实证明,标准化提供了缓解此类问题的有效途径。随着深度神经网络的发展,提出了几种流行的归一化技术是说协会解码器(平均+编码器方差解码器(方差)+标准化阶段重缩放阶段归一化特征图标准化特征图输入特征映射关键特征提取4867AlexNet [16]及其后续模型[21,22]采用局部响应归一化(LRN)[13,18]来计算跨多个相邻特征图的相同空间位置的均值和方差,以标准化到中间特征图。然而,这种归一化仅关注每个像素的小邻域中的统计。正如其名称所暗示的那样,批量归一化(BN)[11]提供了一种批次级归一化方法,该方法通过整个小批次的平均值和方差重新调整中心和尺度,然后重新调整结果。Decor- related Batch Normalization [8]通过在标准化阶段添加额外的白化过程来改进BatchNormalization。对于批级归一化机制,均值和方差的计算依赖于整个小批。当批量大小不足以支持统计计算时,规范化的有效性可能会降低。为了缓解退化问题,批量重正化[10]建议在BN中添加更多几种规范化技术[1,2,25,19,27]继承了批量规范化的概念,但主要集中在标准化阶段的操作上。层归一化(LN)[2]沿着通道维度操作,并通过小批量它可以与批量1一起使用实例归一化(IN)[25]针对每个样本对每个特征图进行归一化。组归一化(GN)[27]将每个小批次内的特征通道划分为几个组,然后对每个组执行标准化。GN进行归一化的另一种方法是调整过滤器权重,而不是修改特征图。例如,权重归一化[20]和正交权重归一化[7]提出了这种归一化策略来解决一些识别任务。我们观察到,现有的规范化方法仅仅专注于在标准化阶段操纵参数的学习。他们没有考虑标准化阶段和重新定标阶段之间的相关性。为重新缩放而学习的参数基于反向传播,并且可能与用于标准化的参数具有低相关性。我们的实验结果表明,考虑标准化和重新缩放之间的联系是有益的。2.2. 使用重新缩放参数的样式传输风格转换任务的目标是从一张图像中“提取”或“模仿”视觉风格,并将该风格应用于另一张同样,领域适应的目标是使从一个领域中学习到的功能能够在另一个域。这种任务的一个解决方案是操纵学习的重新缩放参数,因此我们快速回顾一些与学习重新缩放参数相关的风格转换方法。使用学习到的重新缩放参数来解决风格转换或域适应的任务的核心思想类似于归一化过程。一个域的原始分布被标准化,然后映射到目标域中的目标分布因此,从目标分布中学习的重新缩放参数可以用于恢复目标域中的原始分布。自适应实例归一化[9]通过实例归一化将另一个域生成的重新缩放参数应用于当前域的特征图。动态层规范化[14]通过层规范化生成不同扬声器和环境的重新调整参数,用于自适应神经声学建模3. 实例级Meta规范化本节描述了用于改进实例级规范化的两阶段学习机制我们的方法适用于执行实例级规范化的各种技术,因此我们称之为实例级金属规范化(ILM Norm)。图2显示了ILM Norm的概述。第一阶段是标准化,其正则化输入特征张量x的均值μ和方差γ,以标准化特征张量的分布。第二阶段是重新缩放,其重新缩放标准化特征图xs以恢复特征张量x的表示能力。此外,我们采用了自动编码器作为两个阶段之间的关联重新缩放级使用自动编码器来预测重新缩放参数,即,权重ω和偏置β,而不是简单地从反向传播生成重新缩放参数。3.1. 标准化阶段标准化阶段的目标是使输入特征图的分布规则化,这通常通过强制分布具有零均值和单位方差来完成。现有的规范化技术主要集中在为这个阶段设计不同的方案。作为一种Meta学习机制,ILM Norm可以采用不同实 例 级 规 范 化 技 术 的 不 同 标 准 化 过 程 . 以 GroupNormalization的标准化过程为例。组归一化(GN)将整个层沿其通道维度分成若干组。每个组计算自己的均值和方差进行标准化。可以考虑许多其他方法它可以自由地被其他人出于不同的目的所取代4868∈·∈··3.2. 重缩放阶段给定特征图组fn为重新缩放阶段的目标是恢复分布-.µ =1ΣΣHΣWfi,j,nH×W ×C/N<$f∈fn<$i=1<$j=1将输入特征图从其标准化配置中分离出来第三部分 以前的方法通常学习参数1高×宽×C/Nf∈fnHi=1Wj=1(fi,j−µn)2,(三)用于仅通过反向传播恢复统计相反,ILM Norm预测的参数在标准化阶段和重新缩放阶段之间具有额外的关联在下文中,我们详细描述了提取特征映射的输入张量x的关键特征的过程。用于预测重新缩放参数的自动编码器将在第3.3节中介绍。3.3. 两个阶段标准化阶段和重新缩放阶段之间的关联是通过耦合的自动编码器来实现的,这具有很小的计算成本。图2显示了组件的概述。ILM Norm包含一个自动编码器,用于预测与输入特征张量x的预计算均值μ和方差γ有关的重新缩放参数ω和β。与简单地通过反向传播学习参数ω和β的实验方法相比,我们的实验表明Meta其中C/N是组中的特征图的数量,f表示组fn的特征图。有关关键特征提取的进一步讨论,请参见第4.5.2节。3.3.2编码器ILM Norm中的编码器的目标是通过嵌入来概括输入张量的关键特征此外,我们期望后续的重新缩放参数可以从相同的嵌入信息中联合学习。在我们的实现中,编码器包括一个全连接层(W1)和一个激活函数。全连接层不仅可以对关键特征的单个元素进行建模,还可以对元素之间的相关性进行使用激活函数允许我们提取非线性信息。通过以下方式获得对分组输入特征图的均值和方差进行编码的嵌入向量:从ω和β中获取附加信息的参数学习机制更有效。.Eµ= ReLU(W1µ),(四)3.3.1关键特征提取ILM Norm使用自动编码器来预测权重ω和偏置β作为用于恢复特征图的张量x的分布的重新缩放参数。我们已经观察到,直接对整个输入特征张量x进行编码会降低预测精度,这可能是由于过拟合。我们建议使用x的均值μ和方差γ来表征其统计特性,而不是使用整个特征量x在这里,我们将关键特征定义为从特征张量x中提取的均值μ和方差γ。实验结果表明,ILM Norm使用了一个轻量级的自动编码器,可以有效地预测ω和β,从而恢复特征映射的输入张量x的分布。此外,为了更好的性能和更低的计算负担,我们从每组Eγ= ReLU(W1γ),其中Eμ和Eγ分别表示μ和γ的嵌入向量,ReLU()表示激活函数,编码矩阵W 1RM×N具有长度为M的嵌入向量和长度为N的关键特征向量。3.3.3解码器ILM Norm中的解码器旨在将嵌入向量Eμ和Eγ分别解码为Dμ和Dγ在某种意义上,Dμ和Dγ将相关性从原始特征映射传播到重新缩放参数ω和β。在我们的实现中,我们使用两个不同的完全连接层(W2和W3)和两个激活函数。用于解码的全连接层旨在总结用于预测重新缩放参数的信息丰富的嵌入向量。通过伴随解码的向量,与激活函数,ILM范数移动向量值到一个合适的范围。解码向量,其产生嵌入向量的均值和方差,被获得为输入特征图而不是单个特征图。 用于包括C通道作为特征张量的.Dµ= tanh(W2Eµ),(五)映射f1,f2,. . . ,fC,我们将这些特征图均匀地划分为N个 组f1,f2,. . . ,fN. 因此,整个层的均值 和 方差 表 示 为 长度为N的 向 量, 即 μ =[μ1 ,μ2,. . . ,μN]和γ =[γ1,γ2,. . . ,γN]。ILMNorm计算a的均值µn和方差γnDγ= S形(W3Eγ),其中sigmoid()和tanh()都表示激活函数,解码矩阵W2,W3RN×M。关于选择激活函数的进一步讨论可以在4.5.1节中找到。γn=4869×3.3.4对准注意,从自动解码器预测的Dμ和Dγ的每个解码向量需要与插入ILM范数的底层归一化模块的对应重新缩放参数对准,例如,实例归一化。我们得到最终的重新缩放参数ω和β如下:.前1位误差(%)方法BNGN在LN原始六、437 .第一次会议。027 .第一次会议。009 .第九条。98使用ILM-五、88六、507 .第一次会议。35与ILM相比,原始--1。14-0。50-2。63与ILM相比,BN--0。55+0。07+0。92表1.不同归一化方法的比较ω=Dγ↑+Bω,β=Dμ↑+Bβ,(六)CIFAR-10。其中,Bω和Bβ表示由ILM范数增强的底层归一化模块的重新缩放参数。Bω或Bβ的维数都是C,即频道的数量运算符↑意味着复制矢量分量,使得Dγ和Bω的维数可以匹配,Dμ和Bβ也是如此。4. 实验在实验中,我们使用不同的数据集在各种任务上评估ILM Norm。我们将ILM Norm应用于几种最先进的实例级规范化技术,包括层规范化(LN),实例规范化(IN)和组规范化(GN),我们表明ILM Norm增强版本稳定地优于原始版本。表2.比较CIFAR-100。CIFAR-10不同的标准化方法,4.1. 大批量图像分类4.1.1实现细节我们使用ResNet-50和ResNet-101 [6]作为评估分类任务实验的骨干对于CIFAR-10和CIFAR-100数据集,我们将第一个conv层更改为我们使用标准正态分布初始化所有参数,除了相应的底层归一化模块Bω和Bβ的重新缩放参数,它们分别被分配为1和0。除非另外说明,ILM规范将组大小设置为等于16(即,C/N=16),GN的组数N设置为32,并且所有归一化方法的批量大小为64。我们使用SGD作为动量优化器0的情况。9和重量衰减0。0005所有的实验都是在一个GPU上进行的。对于CIFAR-10和CIFAR-100数据集,每种归一化方法被训练350个时期。学习率初始化为0。1,下降0。1在第150和250纪元。对于ImageNet,每个归一化方法都训练了100个epoch。我们将学习率设置为0。025根据[4]的建议。学习率下降0。第30、60和90个历元时为1前1位误差(%)方法BNGN在LN原始二十六岁28二十六岁94二十六岁0841岁61+ ILM-23岁3123岁97二十五43+ILM与原始--3。63-2。11-16 18+ILM与BN--2。97-2。31-0。85前5名误差方法BNGN在LN4870我们比较了几种实例级归一化方法(GN,IN,LN)及其ILM Norm扩展,用于CIFAR-10数据集上的图像分类[15,23]。基础架构是ResNet-101。我们还将在相同配置下训练的批量归一化(BN)结果作为强基线。结果示于图3和表1中。图3显示了不同实例级规范化技术的比较。我们绘制了验证错误率与训练epoch数量的关系图。ILMNorm应用于IN,GN和LN,并且所有三种归一化方法都可以改进以实现更低的验证错误率。表1显示了350个训练时期的不同方法的错误率。请注意,在表1的最后两行中,我们比较了应用ILMNorm后的性能变化我们显示相对误差率w.r.t.原始归一化和w.r.t. BN.可以看出,所有实例级归一化方法在配备ILM Norm之后都可以实现较低的错误率。此外,ILM+GN的组合甚至可以优于BN。值得一提的是,据我们所知,当在CIFAR-10分类任务上使用大批量时,没有现有的最先进的实例级归一化方法优于BN。4871--图3.不同实例级规范化技术的比较。我们显示了验证错误率(%)与训练时期的数量。批量为64。应用ILM Norm后,原有的归一化技术的性能得到了改善。表3. ImageNet上不同归一化方法的比较。4.1.3CIFAR-100我们进行了另一个类似的实验,以比较CIFAR-100[15,23]图像分类任务上的不同归一化方法。所有模型都在50000张图像的训练集上训练,并在10000张图像的验证集上评估350个时期。结果示于表2中。可以观察到不同方法对CIFAR-100分类任务的类似改进。4.1.4ImageNet我 们 还 使 用 ImageNet 来 评 估 ILM Norm + GN(ILM+GN)的设置,底层网络架构是ResNet-50。Im-ageNet数据集包含超过100万张图像,具有1000个不同的类。所有模型都在Ima-geNet训练集上训练,并在验证集上进行评估。结果在表3中。表3显示了不同归一化方法在100个训练时期后的错误率 我们可以发现ILM+GN达到了0. 错误率比原始GN低49%此外,ILM+GN实现了0. 错误率低于28%批量规范化以及,而基本的实例级归一化方法在此任务上不能优于BN。总之,使用CIFAR-10、CIFAR-100和ImageNet进行分类任务的实验表明,如果配备ILM Norm,GN、IN和LN等实例级归一化方法可以得到改进。此外,ILM+GN能够实现比跨实例规范化(如Batch)ImageNet上大批量设置的归一化,据我们所知,这在以前从未报道过。因此,ILM Norm对于各种实例级归一化方法的优势是显而易见的,并且可以以可忽略的计算开销方便地实现改进。4.2. 不同批量的图像分类批量大小是应用规范化技术时需要考虑的一个问题。我们在CIFAR-10上进行了一项实验,以评估各种批量的ILM标准加GN。我们测试批量大小64,32,16,8,4,2每GPU,而不改变其他超参数。为了比较,我们还包括BN的结果。错误率如表4和图1所示。图1清楚地说明了GN和ILM+GN对批量大小不敏感。此外,ILM+GN得到更低的验证错误率比GN在各种批量大小。相比之下,BN显然需要更大的批量大小,并且当批量大小很小时,错误率相当大。表4显示ILM+GN在所有批量中具有最低的错误率。平均而言,ILM加GN的错误率比GN低0。58%,错误率也比BN低2。在评价的批量中为55%。讨论表4显示,在所有批量大小中,ILM+GN优于GN。由于ILM+GN的所有超参数被设置为与BN相同,因此可以合理地认为改进是由于连接标准化阶段和重新缩放阶段的ILM范数的关联机制。因此,在学习用于归一化的重新缩放参数ImageNet方法(错误率%)BNILM+GNGN在LNTop-123岁8523岁57二十四岁0628岁40二十五304872CIFAR-10:错误率(%)批量643216842方法GN7 .第一次会议。027 .第一次会议。147 .第一次会议。247 .第一次会议。227 .第一次会议。317 .第一次会议。29BN六、43六、487 .第一次会议。399 .第九条。7811个国家。15十三岁79ILM+GN五、88六、36六、64六、707 .第一次会议。057 .第一次会议。11改进ILM+GN与GN-1。14-0。78-0。60-0。52-0。26-0。18ILM+GN与BN-0。55-0。12-0。75-3。08-4。10-6。68表4.使用不同批量对CIFAR-10数据集进行评价批量箱头APbboxAPbbox50APbbox75AP掩模AP掩模50AP掩模752GN二十二岁40三十七6523岁5620块88三十五4321岁57ILM + GN二十二岁68三十八岁。2823岁6821岁19三十六0821岁9216GN39岁10六十岁。33四十二51三十四77五十六88三十六79ILM + GN39岁42六十岁。63四十二95三十五03五十七25三十六92表5.在MS-COCO数据集上评估不同批量大小的检测和分割任务度量方法(发生器/鉴别器)IN /INILM+IN /INILM+IN /ILM+INRMSE一百零八17一百零五82一百零五46LPIPS0的情况。4410的情况。4350的情况。428SSIM0的情况。3720的情况。3900的情况。372表6.在样式转换任务的Facades数据集上进行评估。请注意,通常,较高的SSIM分数意味着较高的相似性,而较低的RMSE或LPIPS值意味着更好的性能。4.3. 目标检测和分割目标检测和分割是计算机视觉中的重要任务。我们使用MS-COCO数据集[17]在Mask R-CNN [5]上评估ILM Norm。所有模型都在训练集上训练90,000,每个GPU的批量大小等于2,使用1个GPU和8个GPU。所有模型中使用的主干都是用GN预训练的我们在测试集上测试这些模型所有其他配置与Detectron中的R-50-FPN相同[3]。结果示于表5中。表5表明,仅改变盒头中的GN层就可以提高不同批量大小下的检测和分割性能。更具体地说,当批大小等于2时,我们将APbbox和APmask结果表明,ILM+GN比GN更有效地从骨干网中转移特征,与GN基线一致,但训练长度不同。4.4. 图像转印图像传输是计算机视觉中一个非常有趣的课题。我们使用CMP Facades [24]数据集在pix2pix [12]上评估ILMNorm,其中组的大小等于1. Facades数据集包含400个建筑标签到照片数据。我们用其中的200个训练模型并评估-4873对200个时期的其余200个数据进行评估。为了评估性能,我们使用SSIM [26],RMSE和LPIPS度量[28]作为相似性度量。通常,较高的SSIM分数意味着较高的相似性,而较低的RMSE或LPIPS值意味着较好的质量。结果示于表6中。表6清楚地表明,改变模型中的所有IN层或仅改变发生器中的IN都可以提高模型输出与目标之间的相似性。由于LPIPS不仅关注结构相似性,而且关注感知相似性,因此使用ILM+IN可以产生比原始IN具有更好的结构和感知质量的风格转移结果。4.5. 消融研究4.5.1Dμ和Dγ的不同激活函数由于重新缩放参数是模型中在前向传播期间修改的唯一部分,因此控制其变化的程度在重标度参数的过度变化导致模型的不稳定此外,μ和γ的范围不同,将Dμ和Dγ控制在不同的范围内是合理为了验证我们的假设,我们用几个不同的激活函数对Dμ和Dγ进行了计算。结果见表7。表7表明,如果没有对Dμ和Dγ的适当约束,模型无法收敛。应用相同的激活功能,例如sigmoid,对Dμ和Dγ都可能使模型收敛,但性能甚至比原始的组归一化更差,表明关联对归一化有负面影响。只有 通 过 部 署 不 同 的 激 活 函 数 , tanh 到 Dμ 和sigmoidDγ,我们才能在这些配置中实现积极的影响和最佳性能4874(Dμ,Dγ)的激活函数GN我们(乙状结肠,乙状结肠)(tanh,tanh)(†,)(,†)(,)错误率%5.888. 638. 04n/an/an/a7.02表7.CIFAR-10上(Dµ,Dγ)的不同激活函数的比较。 符号†表示激活函数是tanh或sigmoid,而符号表示激活函数可以是ReLU、Leaky ReLU、ReLU6或Identity。条目模型不能收敛。参数增量比模型ResNet-18ResNet-34ResNet-50ResNet-101ResNet-152组标准化0的情况。015%0的情况。015%0的情况。百分之八六0的情况。百分之八六0的情况。百分之八六实例规范化二、七九二二、462%20块696%20块313%20块百分之一百七十八表8.涉及不同关键特征提取策略的参数数量的增量 ILM Norm选择使用GN的方案进行关键特征提取,因为附加参数的数量增量小于0。对于大多数ResNet模型,为1%4.5.2关键特征提取的替代策略ILM Norm将输入通道分为多个组,用于计算每组的均值和方差。如2.1节所述,现有的归一化方法,如BN、LN、IN和GN,都有自己的方案从输入x中提取均值μ和方差γ。为了使我们的归一化机制对各种批量大小都具有鲁棒性,我们不考虑BN方案。此外,我们还排除了LN因此,我们的关键特征提取策略将实现视为IN和GN。图4显示了从GN和IN导出的关键特征提取策略的比较。表8提供了关于不同关键特征提取策略的参数数量的增量比率。图4显示了使用关键特征提取策略作为GN的性能通常优于使用IN的性能。从增长的角度来看图4.比较使用GN或IN的关键特征提取策略的性能。该评价基于CIFAR-10验证错误。表8提供了用于选择关键特征提取策略的进一步信息在表8中,由于使用作为GN的关键特征提取策略而导致的附加参数的数量相当小。GN对附加参数的较低要求是因为它将C个通道划分成N个组,其中N=C/K,并且组的大小固定为K,因此参数数量的增量取决于比率C/K而不是C。相比之下,使用IN方案的参数数量综上所述:实验表明,采用关键特征提取策略作为GN是最佳选择。它不仅实现了较低的错误率,而且还要求参数数量的增量较小5. 结论我们介绍了ILM Norm,一种用于各种实例级规范化技术的Meta学习机制。ILM Norm从输入十元中提取关键特征,并将标准化参数与重新缩放参数相关联,以进行深度网络标准化。因此,ILM范数提供了一种简单的方法来预测重新缩放参数,通过从反向传播的更新和与输入特征的关联。ILM与最先进的实例级规范化方法配合使用效果良好,同时在大多数情况下提高了性能实验表明,配备ILM范数的深度网络能够对不同的批量大小实现更好的性能,而参数的数量只需要稍微增加。鸣谢:这项工作部分得到了社会变革管理计划赠款108-2634-F-001-007和106-2221-E-007的支持。80- MY3.我们感谢谢廷毅、张益川、秦文琦和林益春进行了富有洞察力的讨论。我们也感谢国家高性能计算中心提供的计算资源和设备.4875引用[1] D. Arpit,Y.周湾联合Kota和V.戈文达拉朱归一化传播:一种用于消除深度网络中内部协变量偏移的参数技术。在ICML,第1168-1176页,2016年。3[2] L. J. 巴河Kiros和G.E. 辛顿层归一化。CoRR,abs/1607.06450,2016。二、三[3] R. 格尔希克岛 Rados avo vic,G. Gkioxari,P. Doll a'r和K. 他 外 探 测 器 https://github.com/ facebookresearch/detectron,2018. 7[4] P. 戈雅,P. Dol la'r, R. B. 女孩P. 诺德豪斯,L. Wesolowski,A. Kyrola,A. Tulloch,Y. Jia和K.他外精确的,大的minibatch SGD:在1小时内训练imagenetCoRR,abs/1706.02677,2017。5[5] K. 他,G. Gkioxari,P. Dol la'r和R. B. 娘娘腔。面罩R-CNN。在ICCV,第2980-2988页,2017年。7[6] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。一、五[7] L. Huang,X.刘湾,澳-地Lang、A. W. Yu,Y. Wang和B.李正交权重归一化:深度神经网络中多个相关Stiefel流形上的优化问题的求解。在AAAI,2018。3[8] L. Huang,黄氏拟谷盗D.扬湾,澳-地Lang和J.邓小平更解相关批处理归一化。在CVPR,2018年。3[9] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在ICCV,第1510-1519页,2017年。3[10] S. 约菲批量重正化:减少批量归一化模型中的小批量依赖。在NIPS,第1942-1950页,2017年。3[11] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页,2015中。第1、3条[12] P. Isola,J. Zhu,T. Zhou和A. A.埃夫罗斯使用条件对抗网 络 的 图 像 到 图 像 翻 译 。 CoRR, abs/1611.07004 ,2016。7[13] K. Jarrett,K. Kavukcuoglu,M. Ranzato和Y.乐存。对象识别的最佳多级体系结构是什么?在ICCV,第2146-2153页,2009年。3[14] T. 金岛,智-地Song和Y.本吉奥。语音识别中自适应神经声学建模的动态层InInterspeech,pages 2411-2415,2017. 3[15] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。多伦多大学计算机科学系硕士五、六[16] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS中,第1106-1114页,2012年。3[17] T.林,M。迈尔,S。贝隆吉湖D.布尔代夫河B. 格希克,J。海斯角Perona,D. 拉马南山口Dolla'r,C. L. 齐特尼克Microsoft COCO:上下文中的通用对象CoRR,abs/1405.0312,2014。7[18] S. Lyu和E.P. 西蒙切利使用分裂归一化的非线性图像CVPR,2008。3[19] M.伦河,巴西-地廖河,巴西-地Urtasun,F. H. Sinz和R.S.泽梅尔规范化器的规范化:比较和扩展网络规范化方案.在ICLR,2017。3[20] T. Salimans和D.金玛权重归一化:一个简单的重新参数化,以加快训练的深神经网络。在NIPS,第901页,2016年。3[21] P.Sermanet,D. Eigen,X. Zhang,M.马蒂厄河Fergus和Y.乐存。Overfeat:使用卷积网络集成识别、见ICLR,2014年。3[22] C. 塞格迪W. 刘先生,Y. 贾,P. Sermanet,S. E.里德D.安格洛夫,D。Erhan,V. Vanhoucke,和A.拉比诺维奇。更深的回旋。在CVPR,第13[23] A.托拉尔瓦河Fergus和W. T.弗里曼。 8000万张小图片:用于非参数对象和场景识别的大数据集。IEEE传输模式分析马赫内特尔,30(11):1958-1970,2008.五、六[24] R. Tylecek和R. 好的用于识别具有规则结构的对象的空间模式模板在模式识别-第35届德国会议,GCPR2013,德国萨尔布鲁克恩,2013年9月3日至6日。会议记录,第364-374页,2013. 7[25] D. Ulyanov,A. Vedaldi和V. S. Lempitsky实例规范化:快速样式化缺少的成分CoRR,abs/1607.08022,2016。二、三[26] Z. Wang,中国山核桃A. C. Bovik,H. R. Sheikh和E.西蒙切利图像质量评估:从错误可见性到结构相似性。IEEE Trans. Image Processing , 13 ( 4 ) : 600-612 ,2004。7[27] Y. Wu和K.他外组归一化。在ECCV,2018。一、二、三[28] R. Zhang,P.Isola,A.A. Efros、E.Shechtman和O.王. 深度 特 征 作 为 感 知 度 量 的 不 合 理 有 效 性 CoRR ,abs/1801.03924,2018。7
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功