卷积单元优化法的批量白化方法

29 浏览量更新于2023-09-25 收藏 734KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5321用卷积单元优化法Yooshin Cho Hanbyel Cho Youngsoo Kim Junmo Kim电气工程学院，韩国KAIST{choys95，tlrl4658，ysoo.kim，junmo.kim} @ kaist.ac.kr摘要批处理白化是一种通过将输入特征转换为具有零均值（居中）和单位方差（缩放）以及通过去除通道之间的线性相关性（Decor- relation）来加速和稳定训练的技术在常用的结构中，使用批量归一化进行经验优化，归一化层出现在卷积和激活函数之间。以下分批增白研究采用了相同的结构，而没有进一步分析;甚至分批增白也是在以下前提下分析的：(a) 原始(b) 我们(c) 移位(d) 我们的+Shift耳层变白。为了弥补这一不足，我们提出了一种新的符合理论的卷积单元，并且我们的方法总体上提高了批量白化的性能。此外，我们显示了无效的原始卷积单元通过调查排名和相关性的功能。由于我们的方法是可采用的现成的白化模块，我们使用迭代归一化（IterNorm），最先进的白化模块，并在五个图像分类数据集上获得显着改善的性能ImageNet。值得注意的是，我们验证了我们的方法在使用大学习率，组大小和迭代次数时提高了白化的稳定性和性能。代码可在https://github.com/YooshinCho/pytorch_ConvUnitOptimization获得。1. 介绍批量归一化（BN）[11]被认为是深度神经网络的关键组成部分。它通过将输入特征归一化为零均值（居中）和单位方差（缩放），然后进行线性变换，从而显著稳定和加速训练。在BN的成功之后，已经提出了许多后续研究，并且提出了批处理白化[8，20，10，9]研究，其不仅中心化和缩放，而且还去除输入通道之间的线性相关性（去相关）以图1：卷积单位的图示。(a)是原始卷积单位。(b)是我们修改的卷积单元，它白化卷积的输入。(c)是采用分组移位的原始卷积单元(d)是我们修改的卷积单元，它使用移位直接白化逐点卷积改进BN。尽管众所周知，去相关增加了网络容量，并且稳定和加速了训练，但由于其模糊性和复杂性，它在实践中没有使用。与居中和缩放不同，去相关不是一对一映射变换，并且获得协方差矩阵的逆平方根在计算上是复杂的。自然地，以前的白化研究集中在引入计算效率高的白化方法，并调查每个白化方法的不同性能的原因。具体地，提出了基于ZCA [2，13]、Cholesky分解[5]和牛顿迭代[ 3 ]的白化方法[8，20，10Iter-Norm的优越性在[9]中通过与其他白化模块进行比较进行了研究，但性能增益尚未得到充分探索。为了研究IterNorm的有效性，我们训练了ResNet [7]和Wide-Residual Network（WRN）[26]3x3转换规范ReLU规范3x3转换ReLU分组移位1x1转换规范ReLU分组移位规范1x1转换ReLU5322√f（x）=γ+β，iiiσ+εCIFAR-10，CIFAR-100 [15]和ImageNet [18]。我们通过用IterNorm替换ResNet和WRN的所有BN来应用IterNorm。从表1所示的结果中，我们可以观察到，IterNorm的性能在CIFAR-100上并不令人满意，尽管成功地去除了特征的相关性。为了确定结果不佳的原因，我们重新审视了分批增白的理论[16]。我们确定了理论与实践之间的差距，在块设计方面，并假设IterNorm的无效性可以归因于白化模块的使用方式批量白化的机制是在线性层的输入被白化的前提下分析的;然而，在常用的块设计中，归一化层之后是线性变换和卷积之前的激活函数，如图1a所示。在本文中，我们称这些特定的层的顺序为“卷积单元”。该卷积单元在没有任何分析的情况下用BN凭经验优化，但是随后的分批增白研究[8，20，10]采用了相同的卷积单元。因此，不管白化模块的功效如何，卷积的输入不被居中、缩放和去相关。此外，空间卷积和理论中考虑的线性层之间存在差异。空间卷积可分为移位操作[24，12，4]和逐点卷积;因此在空间卷积和逐点卷积的输入之间存在空间未对准。在本文中，我们称之为输入失调的差距。这意味着白化过程受到空间移位操作的影响，即使我们直接在空间卷积的输入处执行白化。在本文中，我们强调了导致理论与实践之间差距的三个结构性问题：线性变换、白化模块的位置和输入未对准。为了一步一步地弥合差距，我们修改了卷积单元，如图1b所示。然后，我们实证分析了原始和我们的卷积单元。我们采用IterNorm来经验性地确认当与我们的卷积单元一起使用时，白化模块的效率增加。一系列的消融研究表明，原始的卷积单元是很好的优化BN，但没有优化白化模块。正如我们所料使用我们的卷积单元。为了进一步的改进，我们关闭了由卷积的空间移位引起的间隙，输入不对准。为了直接在逐点卷积的输入处执行白化，我们将空间卷积分为分组移位[24]和逐点卷积，并在它们之间放置白化模块，如图1d所示。通过修改，我们在 CIFAR- 10 ， CIFAR-100 ，CUB-200-2011 [23]，Stanford Dogs [14]上获得了比BN和IterNorm更好的性能。据我们所知，这是第一篇显示白化模块在迁移学习中的适用性的论文，我们在CUB-200-2011和Stan- fordDogs上演示了这一点。此外，我们根据经验证实，我们的方法提高了白化模块的训练稳定性。当使用原始卷积单元的BN，IterNorm的性能降低时，我们的方法在较大的学习率此外，我们还比较了IterNorm与原始卷积单元和我们的卷积单元随着迭代次数增加的使用卷积单元的IterNorm在迭代次数大于7时表现出更稳定的行为和更好的性能。最后，我们另外采用DBN [8]，并证明我们的卷积单元通常提高了白化模块的功效。2. 相关作品2.1. 批次标准化批量标准化是一种仅将特征变换为具有零均值（居中）和单位变化（缩放）以提高计算效率的技术由于批量归一化（BN）[11]的成功，已经提出了许多研究[22，1，25]来通过标准化特征来提高学习速度。这些研究集中在提高微批训练的性能和修复训练和推理之间的差异它们仅在标准化的目标方面有所不同（例如，批处理、层、实例和通道组），并且它们都执行标准化的基本过程：居中、缩放和应用线性变换。因此，它们通常可以使用以下公式表示：IterNorm在与我们的卷积单元一起使用时表现出色，线性变换使训练不稳定和过拟合。为了支持我们的方法的优越性，我们还投资-xi−µi2我（一）门控特征的等级和相关性。我们的经验证实，相关性增加了约5倍，由于在实践中的线性变换和激活函数此外，我们验证了当使用原始卷积单元时，归一化层的输入特征不是它使解相关输出极不稳定，由于噪声信道，和性能退化。通过对比，我们观察到归一化层的输入特征是满秩的其中µ和σ分别为平均值和标准差。线性变换由缩放γ和移位β组成，如等式1所述。它直观地、实证地引入以防止丢失在归一化期间可能丢失的原始表示。此外，基于卷积的输出具有“更高斯”分布的直觉，在没有进一步分析的情况下，将归一化的位置确定为卷积之后的正确位置532321ΣKΣ·自然，BN有助于优化的真正原因仍然是一个活跃的研究领域，Santurkar等人。[19]认为BN通过平滑损失景观而不是通过内部协方差偏移来帮助训练2.2. 批量增白通常已知的是，对批次执行居中、缩放和移除通道特征之间的线性相关性有助于有效的梯度下降。它调节了权重的Hessian，并使一阶梯度下降更接近二阶梯度下降[16]。然而，去相关由于其模糊性和复杂性而未被BN采用因此，许多研究[8，20，10]已经提出了计算高效的白化方法，并研究了白化模块显示不同性能的原因[9]。具体地，分批增白通常可以表示如下，X=Σ−1·（X−µ·1），（2）其中，X是输入，Σ和µ分别是输入批次的协方差矩阵和均值。解相关批处理归一化（DBN）[8]提出了ZCA白化以获得Σ−2，并解决了统计轴交换问题。随机轴交换是由PCA白化[6]的旋转矩阵的模糊性引起的，但ZCA白化-白化模块的性能与其固有的随机性有关。与以前的白化方法不同，IterNorm的随机性可以由两个因素控制，迭代次数和组大小。IterNorm通过使用迭代过程来近似协方差的平方根倒数，并沿着轴逐步拉伸或挤压数据以使特征值为1。此外，Iter-Norm执行逐组白化以减少随机性。因此，当迭代次数和组大小较小时，IterNorm执行白化较差，但通过忽略沿具有相对较小特征值的轴的数据，随机性也降低。它使训练稳定，性能提高，但优化随机性和白化程度之间的权衡在这项研究中，我们表明，可以通过卷积单元优化来增强IterNorm的稳定性，而不会损失白化的能力3.2.移位操作移位操作最初被引入以通过替换空间卷积来减少参数和FLOP的数量[24，12，4]。它的灵感来自于这样一个事实，即空间卷积可以分为移位操作和逐点卷积。基本空间卷积可以用以下公式表示：ing通过最小化由白化引起的失真来修复它。Siarohin等人[20]采用了基于Cholesky分解[5]的白化，并引入了条件着色Y=W~×X~=WK：，：，k·X：（三）变换以提高 GAN 网络的性能。迭代归一化（IterNorm）[10]提出了基于牛顿=W：，：，k·Sk（X），K艺术表演与以前的方法不同，IterNorm ap-1其中W~∈RCout×kCinX~∈×BHW中的RkC为近似Σ−2，并显示最小的随机性y。虽然有很多关于批次美白的进展没有从结构的角度进行分析。因此，分批增白研究遵循用BN经验优化的相同卷积单元。本文分析了区组设计的影响，并通过对卷积单元的优化，使分批增白的效果最大化。3. 初步在本节中，我们简要介绍迭代规范化和移位运算。3.1. 迭代归一化迭代归一化（IterNorm）[10]是最先进的批处理白化模块，采用Netwon从公式2中，我们可以说X是一个随机变量，它显示了由批量抽样引起的随机性[21]，Huang等人。[9]建议加权矩阵和空间移位输入的级联矩阵，分别。k是核索引，B是批大小。Xk是对应于特定核索引k的权重的空间移位输入。Sk（）是核索引k的移位的移位运算。直接进行美白对于逐点卷积的输入，我们采用分组移位[24]。分组移位是以固定位移在空间上移位要素的操作。为了保持一致性，我们采用 [24] 中提出的 ShiftResNet 和ShiftNet-A作为第4.2节中的基线。为了有效地利用分组移位操作，中间特征的通道尺寸应该很大。类似于ResNet中使用的瓶颈在以下部分中，我们以膨胀率为6进行实验。4. 卷积单元优化在本节中，我们将讨论如何优化卷积单元，以匹配理论并5324∈Dataset /Arch.BNIterNormCIFAR-108.18± 0.158.17± 0.19CIFAR-10/WRN-28-10 3.76± 0.133.68±0.16CIFAR-100 /ResNet5627.06± 0.3927.53± 0.35CIFAR-100/WRN-28-1018.71±0.1319.01± 0.200.80.60.40.200 40 80120时代16032.251.50.7500 40 80120时代160(a)CIFAR-10、ResNet20（b）CIFAR-100、ResNet56表1：CIFAR-10、CIFAR- 100和ImageNet上ResNet和Wide-Residual Network（WRN）的除ImageNet外，结果以“mean±std”的格式对于ImageNet，IterNorm的第二行“Full在实践中显示出总体上改进性能。我们在4.1节中分析了线性变换的无效性和白化模块的位置，并在4.2节中解决了输入错误对齐和移位操作。为了凭经验验证我们的方法的功效，我们采用IterNorm [10]，最先进的美白模块。如[10]中所建议的，通过用迭代次数为5且具有完整组大小的 IterNorm 替换所有 BN [11] 来应用IterNorm对于我们的修改的卷积单元，我们在实验中不使用线性变换，除非另有说明。4.1. 线性变换与白化位置如表1所示，我们凭经验验证了IterNorm的无效性，并假设卷积单元的次优性使白化模块的性能退化。直观地引入了归一化后的线性变换，以防止可能的表示能力损失，并且基于卷积的输出比激活函数的输出更可能具有对称的非稀疏分布的直觉来决定归一化层的位置，而无需任何分析[11]。基于线性层的输入被白化的理论前提，我们假设白化图2：关于时期的序列（实线）、测试（虚线）损失的图示。我们在 CIFAR-10 / 100 上使用卷积单元和IterNorm训练ResNet 20和ResNet 56。它显示了通过改变线性变换的消融研究的结果。（a）和（b）都表明γ使学习变得不稳定和过拟合。使用BN，但未使用IterNorm进行优化。IterNorm的性能特别是，IterNorm没有任何线性变换的形式时，显示出最大的性能增益的卷积单元被改变。虽然，具有我们的卷积单元的IterNorm仍然显示出比具有原始卷积单元的BN更差的结果，但这可以归因于将在第4.2节中解决的输入未对准。此外，在表2中，我们可以看到，当使用我们的卷积单元时，γ降低了Iter-Norm的性能已经表明，去除输入的相关性导致更新权重时Hessian的更好条件，并且使训练更接近牛顿因此，当适当地利用白化模块时，缩放因子γ如图2所示，我们可以确认γ使学习不稳定，并且与通过批量白化调节Hessian的目标不太兼容。为了证明我们的卷积单元的好处，我们研究了卷积的输入特征的相关性和归一化层的输入特征的秩。我们计算相关性ρ的平均值和秩的平均值除以信道大小r，如下所示：L Cl Cl模块应该放在卷积之前，而不需要ρ=1 Σ2Σ Σ~l~l）、（四）线性变换因此，我们修改卷积单元，如图1b所示，并应用于ResNet。我们L−1l=1 Cl（Cl−1）i=0j=i+1（XXi、jLl应用我们的卷积单元通过安排的位置r=1Σ（rank（X）），（5）所有归一化层都在卷积之前。为了验证我们的假设，我们进行消融研究L−1Cll=1通过改变卷积单位和线性变换。我们将线性变换的缩放和移位操作分别表示为γ和β我们使用ResNet [7]在两个基准图像分类数据集CIFAR-10/100 [15]上进行实验表2示出了烧蚀研究的结果。从结果中，我们验证了原来的卷积单元与线性变换是很好的优化其中X~1，X1RCl×BHlW l是第l个连续的输入矩阵。卷积层，其分别由每个通道的l2范数和第lL和Cl分别是卷积层的数量和Xl的通道大小我们的经验表明严重的影响线性变换和激活函数对图3a中的去相关的影响。相关性几乎增加了五倍，因为没有、损失没有一、损失ImageNet /ResNet1829.3329.4828.865325±方法γ、βγ射线β值没有一BN /原始8.18± 0.158.41± 0.228.40± 0.218.88± 0.20BN /我们的8.43±0.198.55±0.198.68±0.148.71±0.29（+0.25）（+0.14）（+0.28）（-0.17）IterNorm/Orignial8.17±0.198.64± 0.22 8.26± 0.19 9.01± 0.19IterNorm /我们的8.17±0.178.38±0.208.16±0.178.29±0.20（-0.0）（-0.26）（-0.1）（-0.72）(a) CIFAR-10、ResNet20方法γ、βγ射线β值没有一BN /原始27.06± 0.4027.49± 0.3927.48± 0.3328.31± 0.24BN /我们的27.82±0.3027.82±0.2527.85±0.3127.48±0.23（+0.76）（+0.33）（+0.27）（-0.83）IterNorm/Orignial27.53±0.3528.33± 0.2427.48±0.3228.35± 0.37IterNorm /我们的27.1± 0.3027.64±0.3027.12±0.2527.3± 0.34（-0.43）（-0.69）（-0.36）（-1.05）(b) CIFAR-100、ResNet56表2：ResNet 20和ResNet 56与CIFAR-10/100的测试误差（%）的比较。所有结果都是在10个随机种子上计算的，并且以“平均标准”的格式示出。括号中的值表示原始和拟定单位之间的测试误差差异。Ours/ IterNormOriginal/IterNorm一个0.50电话：040 - 80 - 120 160时代(a)相关性，秩32.251.50.750电话：040 - 80 - 120 160时代(b)培训，测试损失当信道大小通过逐点卷积增加时的秩;因为逐点卷积不增加特征的秩，并且卷积层的输出直接连接到白化模块，如图1a所示。此外，逐点卷积通常用于在实践中增加通道大小（例如，卷积）。ResNet的瓶颈块[7]）。相比之下，在我们的卷积单元中，卷积的输出在白化模块之前传递激活函数，如图lb所示，并且如图lb所示。图3：我们在CIFAR-100上训练ResNet 56（a）中的实线是卷积输入特征的平均相关性，并且（a）中的虚线示出了IterNorm输入特征的秩除以通道大小的平均值（b）是两个卷积单元相对于时期的训练（实线）和测试（虚线）损失的图示线性变换和激活函数。结果表明，线性变换和活化函数对间歇增白的效果有很大影响特征的秩与白化模块的随机性有关，白化模块的随机性被认为是白化模块泛化能力的关键性质[9]。如果白化模块的输入特征矩阵不是满秩的，则输出将包含由沿着具有0的特征值的轴拉伸数据引起的噪声信道。在原卷积单元的情况下，白化模块的输入Xl是不满的有机会提升自己的地位。我们凭经验确认，白化模块的输入在我们的卷积单元中是满秩的，并且它不在原始卷积单元中，如图3a所示。如图3b所示，我们的方法在不控制迭代次数或组大小的情况下进一步增强了稳定性。这表明我们的卷积单元在不损失白化能力的情况下提高了IterNorm的稳定性。4.2. 换档操作和输入未对准虽然卷积单元修改通常改善IterNorm的性能，但是具有原始卷积单元的BN在实验中仍然显示出更好或相似的性能，并且β改善了性能，尽管影响去相关和中心化。我们假设结果是由输入失调引起的。空间卷积通常可以由等式3表示。空间卷积在传递到逐点卷积之前在空间上移动输入要素，并且它导致前提之间的间隙Ours / IterNormOriginal / IterNorm得双损失5326±··数据集BNIterNormγ、βγ射线β值没有一CIFAR-10CIFAR-1006.96±0.1228.37±0.387.03±0.1528.38±0.326.89±0.2627.75±0.127.01±0.1727.83±0.336.88±0.0627.33±0.176.66± 0.2827.20± 0.32表3：ShiftResNet 56与CIFAR-10/100的测试误差（%）的比较。所有结果都是在5个随机种子上计算的，并且以“平均标准”的格式示出。为了简单起见，我们通过线性变换的排序使用卷积块来表示IterNorm，并省略“Ours /IterNorm”。我们使用具有线性变换的原始卷积单元和美白的实践。我们可以通过以下公式表示输入未对准（X·X=I）（S（X）·S（X）=I），（6）其中S（）是逐通道移位操作，并且X是空间卷积的输入。（X X= I）是图1b中的白化模块所做的，并且（S（X）S（X）=I）是图1d中的白化模块所做的。变得白皙0.80.60.40.2004080 120 160时代32.251.50.750电话：040 - 80 - 120 160时代空间卷积的输入并不意味着对逐点卷积的输入进行白化。为了直接-(a) CIFAR-10(b) CIFAR-100在不修改白化模块的情况下在逐点卷积的输入处形成白化，我们将空间卷积分离成分组移位[24]和逐点卷积，并将IterNorm置于它们之间。随后，我们提出了采用分组移位的修改的卷积单元，如图1d所示。为了保持一致性，我们采用ShiftResNet作为基线，这在[24]中介绍，而不是简单地用移位操作和逐点卷积替换ResNet的空间卷积。我们使用ShiftResNet进行实验，以改变CIFAR-10和CIFAR-100上的卷积单元和归一化模块。从表3中所示的结果，我们验证了线性变换和原始卷积单元的无效性为了简单起见，我们不通过改变BN和IterNorm的线性变换与原始卷积单元来比较性能，因为我们凭经验验证了原始卷积块利用第4.1节中的线性变换得到了很好的优化。如我们所假设的，γ和β都使性能退化，并且使用我们的卷积单元的IterNorm显示出比使用原始卷积单元的BN和IterNorm都显著更好的性能通过比较表2中的性能改进，我们可以观察到白化模块的性能受到之前未考虑的输入未对准的从图4中的损失图中，我们证明了我们的卷积单元进一步提高了训练的稳定性和性能。5. 实验结果在本节中，我们描述了实验的细节。我们还采用DBN [8]来证明图4：列车（实线）、试验（虚线）线）损失。我们通过改变CIFAR-10/100上的卷积单元来两(a)和（b）表明我们的卷积单元没有线性变换，提高了训练的稳定性。我们的卷积单元对于我们的卷积单元，DBN以64的组大小应用，并且对于原始卷积单元，DBN以16的组大小应用，因为对于原始卷积单元，DBN在组大小大于16的情况下是高度不稳定的。为简单起见，我们调用BN，DBN和IterNorm使用原始卷积单元作为BN，DBN和IterNorm，分别。在以下实验中，我们不对我们的卷积单元使用线性变换，并且我们对原始卷积单元使用线性变换，除非另有说明。5.1. 图像分类为了研究有效性，我们通过改变卷积单元和归一化模块在 CIFAR-10 、 CIFAR-100 、 CUB-200-2011 、Stanford上进行狗和ImageNet [15，23，14，18]。我们证明了我们的方法也提高了大规模数据集和迁移学习的性能CIFAR-10/100。对于CIFAR数据集，我们用50k个训练图像训练网络，并在10k个测试图像上评估前1个错误。实验中采用随机水平翻转和4像素平移。我们使用批大小为128的SGD，并应用动量为0.9和权重衰减为0.0001。我们将初始学习率设置为0.1，然后在81和122个epoch时将其除以10，并在164个epoch时完成训练。Ours / IterNorm Original/IterNorm损失Ours / IterNormOriginal /IterNorm损失5327×个--ShiftResNet 20ShiftResNet 56数据集/方法BNDBNIterNormBNDBNIterNormCIFAR-10/原始CIFAR-10 /我们的8.48±-0.278.95±0.168.43± 0.278.62±0.108.45±0.176.96±-0.127.42±0.126.84±0.207.03±0.156.66± 0.28CIFAR-10 /原始（lr：1.0）CIFAR-10 / Ours（lr：1.0）8.58±-0.379.40±0.177.89±0.239.93±0.207.47± 0.337.81±-0.098.17±0.256.33±0.178.28±0.076.04± 0.07CIFAR-100/原装CIFAR-100 /我们的31.07±0.40-32.52±0.1530.42±0.2231.51±0.3830.27± 0.3628.37±0.38-29.87±0.3027.85±0.1228.38±0.3227.20± 0.32CIFAR-100 /原件（lr：1.0）CIFAR-100 / Ours（lr：1.0）31.99±0.49-34.12±0.4229.19±0.2434.40±0.2829.09± 0.2829.34±0.34-30.85±0.3225.71±0.2030.63±0.2325.51± 0.18表4：ShiftResNet 20/56与CIFAR-10/100上的测试误差（%）的比较。为了证明我们的方法的适用性，我们还采用DBN，并得到改善的性能。此外，为了证明我们的卷积单元的增强的稳定性，我们训练网络的初始学习率为1.0，并通过余弦退火调度最好用粗体，其次是下划线。所有结果在5个随机种子上计算，并以“平均值土标准值”的格式显示。从表4中所示的结果，具有我们的卷积单元的DBN和IterNorm的性能我们可以观察到，我们的卷积单元的性能改善使用卷积单位的IterNorm显示0。37%和1。与使用CIFAR-10/100的ShiftResNet 56上的IterNorm相比，性能提高了18%对于DBN，我们验证了性能提高甚至大于IterNorm。如[9，8]中所述，DBN遭受为了验证我们的方法在更大网络上的有效性，我们比较了1.5倍更宽和更深的ShiftNet-A的性能为了公平比较，我们使用 [ 10 ] 中提出的 “Full+DF” 应用IterNorm“Full+DF”意味着在最后一次全局平均池化之后应用额外的IterNorm。与CIFAR结果相似，我们获得了最佳性能。如表5所示，我们的方法获得1. 44%和0。与BN相比，ShiftNet-A和ShiftNet-A-1.5的性能分别提高了62%从其固有的随机性，和我们的方法有效通过增加输入矩阵的秩来稳定白化模块。BN /原件28.81（9.73）23.77（7.12）IterNorm /Original28.25（9.50）23.87（7.00）IterNorm /我们的27.37（8.97）23.15（6.86）表5：ShiftNet-A与ImageNet上的测试误差（%）的比较。为了展示更深更宽网络的性能所有结果均以“前1个错误（前5个错误）”的格式显示ImageNet. 我们用1.28M的训练图像训练网络，并在50k图像的验证集上评估前1和前5个错误。我们使用了标准的224像素裁剪增强。我们使用批大小为256的SGD，并应用0.9的动量和0.0001的权重衰减。我们将初始学习率设置为0.1，然后每30个epoch将其除以10，并在100个epoch完成训练。为了保持一致性，我们将我们的方法应用于ShiftNet-A，该方法在[24]中提出有效地训练ImageNet验证表6：ShiftNet-A（用ImageNet预训练）上的前1个测试误差（%）IterNorm与我们的块显示了两个数据集上的最佳性能。迁移学习。对于CUB-200-2011和Stanford Dogs，我们使用官方给出的5，994/12，000个训练图像进行训练我们使用随机水平翻转与448像素裁剪。我们使用批大小为 64 的 SGD ，并应用动量为 0.9 和重量衰减为0.0001。我们将初始学习率设置为0.01，然后每30个epoch将其除以10我们通过使用BN训练ShiftNet来优化配置，其中BN具有0.1，0.01，0.001的不同学习率。我们使用ShiftNet-A与ImageNet进行预训练。如表6所示，通过我们的方法实现了显著的性能改进，同时减少了计算量。数据集BNIterNorm我们幼崽17.6416.5314.10狗17.7518.6416.95方法ShiftNet-AShiftNet-A-1.5532832100 40 80时代一百二十一百六十6543210020406080 100120140160时代32100 40 80时代一百二十一百六十10864200 40 80时代一百二十一百六十(a) CIFAR-10，lr：1.0(b) CIFAR-100，lr：1.0(a) CIFAR-10，T：8(b) CIFAR-100，T：8图5：关于时期的序列（实线）和测试（虚线）损失的图示。我们在CIFAR-10/100上训练我们可以确认使用原始卷积单元的IterNorm显示出极不稳定的相比之下，迭代范数与我们的卷积单位显示出最好的性能和稳定性等。消除线性变换。我们得到3。54%和0。与CUB-200-2011和斯坦福犬的BN相比，准确度分别提高8%据我们所知，这是第一篇表明白化模块在迁移学习中的适用性的论文我们的研究结果可能会导致未来的白化工作在迁移学习。5.2. 稳定性接下来，我们domonstrate的优越性，我们的方法显示增强的稳定性。我们以10倍的学习率训练网络，以改变卷积单元和归一化层。我们应用余弦退火[17]进行公平比较，而不考虑调度调整。如我们在表4中所报告的，具有我们的卷积单元的IterNorm和DBN值得注意的是，无论使用哪个白化模块，我们观察到，与原始卷积单元不同，具有我们的卷积单元的白化模块的性能以更大的学习速率增加。与基本配置下的性能相比，IterNorm的性能达到0. 98%和0。CIFAR-10分别在ShiftRes-Net 20 和 ShiftResNet 56 上提高了 62% 的在CIFAR-100上，IterNorm使用我们的方法实现了1。18% 和 1 。 69% 的准确性提高 ShiftResNet20 和ShiftResNet56，分别。我们还表明，我们的方法提高了稳定性的白化模块与大的群体大小和迭代数。小的组大小或迭代次数降低了随机性，但也降低了白化能力。IterNorm通常在任何组大小下都显示出良好的性能;然而，如果迭代次数太大，则学习变得非常不稳定并显示出较差的结果。这是由小特征值引起的噪声信道的显著随机性引起的，并且研究了输入特征的低秩图6：关于时期的序列（实线）、测试（虚线）损失的图示。我们使用 IterNorm 在 CIFAR-10/100 上训练ShiftResNet 20，迭代次数为8。我们可以观察到，使用我们的卷积单元的IterNorm在迭代数较大时显著提高了稳定性。第4.1节。与以前的研究不同，我们的卷积单元通过使输入特征满秩来从根本上稳定IterNorm，如我们在图3a中所确认的。我们通过比较迭代次数为8的IterNorm的损失图来验证这一点。如图6所示，使用原始卷积单元的IterNorm显示了极不稳定的测试损失。相比之下，使用卷积单元的IterNorm显示出稳定的测试损失，并且性能也类似于使用标准迭代次数5获得的性能。此外，如[8]中所述，具有原始卷积单元的DBN，其组大小大于16，表现出极不稳定的行为，但具有我们的卷积单元的DBN可以在完整的组大小下学习。6. 结论在本文中，我们研究了白化模块，特别是IterNorm，可以使用的方式我们通过区组设计弥合间歇增白的实践与理论之间的差距来优化增白的功效对原卷积单元的无效性进行了实证研究，结果与理论一致。我们证明了改进的性能，稳定性和可转移性，我们修改的卷积单元，并investigate的相关性和排名的功能，以支持我们的结果。我们的卷积单元通过增加特征的秩来显着稳定白化模块，并通过适当选择白化和去除线性变换的目标来提高功效值得注意的是，我们识别和解决的问题，我们表示为输入错位。在不修改白化模块的情况下，我们通过使用Grouped Shift来避免这个问题，并在CIFAR-10/100，CUB-200-2011，Stanford Dogs和ImageNet上获得了显着的性能改善此外，我们证明了显着增强的稳定性，我们的卷积单元在大的学习率，迭代次数和组大小。我们的/ IterNormOriginal/IterNormOriginal /BN我们的/IterNorm原始/IterNorm原件/BN我们的/IterNorm原始/IterNormOurs / IterNormOriginal /IterNorm损失损失损失损失5329引用[1] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿图层正常化，2016年。二个[2] Anthony J Bell和Terrence J Sejnowski。自然场景的“独立组件”是边缘过滤器。Vision research，37（23）：3327-3338，1997. 一个[3] Dario A Bini，Nicholas J Higham，and Beatrice Meini.矩阵p次根的算法。数值算法，39（4）：349-378，2005.第1、3条[4] Weijie Chen，Di Xie，Yuan Zhang，and Shiliang Pu.你所需要的只是几个班次：设计用于图像分类的高效卷积神经网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第7241-7250页，2019年。二、三[5] Dariusz Dereniowski 和 Marek Kubale 。矩阵的并行Cholesky因子化与图的排序。在并行处理和应用数学国际会议上，第985-992页。施普林格，2003年。第1、3条[6] Guillaume Desjardins、Karen Simonyan、Razvan Pascanu和 Koray Kavukcuoglu 。自然神经网络 arXiv 预印本arXiv：1507.00210，2015。三个[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。一、四、五[8] 黄磊、杨大伟、勃郎、邓佳。Decorrelated批处理归一化。在IEEE计算机视觉和模式识别会议论文集，第791-800页一二三六七八[9] 雷煌、雷昭、易州、范铸、李流、凌少。批式增白的随机性研究在IEEE/CVF计算机视觉和模式识别会议论文集，第6439-6448页，2020年。一、三、五、七[10] 雷煌、易州、范铸、李六、凌少。迭代归一化：超越标准化，走向高效美白。在IEEE/CVF计算机视觉和模式识别会议论文集，第4874-4883页一二三四七[11] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上，第448-456页。PMLR，2015. 一、二、四[12] 全允浩和金俊模。用卷积解构法构造快速网络。arXiv预印本arXiv：1806.07370，2018。二、三[13] Agnan Kessy、Alex Lewin和Korbinian Strimmer。光学白化和去相关。美国统计学家，72（4）：309-314，2018。一个[14] Aditya Khosla、Nityananda Jayadevaprakash、BangpengYao和Li Fei-Fei。一种新的用于细粒度图像分类的数据集。在 FirstWorkshoponFine-GrainedVisualCategorization ， IEEE Conference on Computer Visionand Pattern Recognition，Colorado Springs，CO，2011年6月。二、六[15] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 二、四、六[16] YannALeCun ， L e'onBottou ， Gen evive eBOr

下载后可阅读完整内容，剩余1页未读，立即下载