小样本迁移学习中可学习批量范数的影响

10 浏览量更新于2023-10-25 收藏 664KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9109重新审视小样本迁移学习中批量范数的可学习仿射穆斯林Yazdanpanah *1、5 Aamer Abdul Rahman *2，5 Muawiz Chaudhary4，5 Christian Desrosiers2Mohammad Havaei 3Eugene Belilovsky <$4，5Samira Ebrahimi Kahou <$2，51库尔德斯坦大学;2高等技术学校;3 Imagia; 4 Concordia University; 5 Mila摘要批量标准化是计算机视觉模型的主要内容卷积神经网络中的批量归一化层由归一化步骤组成，随后是经由每通道可训练仿射参数γ和β应用的这些归一化特征的移位和缩放。引入这些仿射参数是为了保持模型在归一化后的表达能力。虽然这一假设适用于同一领域内的分类，但这项工作表明，这些参数对常见的少数镜头传输任务的下游性能是不利的。这种效果是用多种方法在知名的基准测试中研究的，例如miniImageNet上的少拍分类，跨域少拍学习（CD-FSL）和META-DATASET。实验表明，具有仿射无伴随批量归一化层的CNN的性能得到了一致的改善;特别是在大畴移少激发转移设置中。与在适应阶段固定仿射参数的少数迁移学习中的常见做法相反，我们表明微调它们可以提高性能。1. 介绍在过去的十年中，不断增长的数据可用性使深度神经网络在各种视觉识别任务上取得了显着的成绩[10，12，13]。然而，数据集的大小和可变性会对这些模型的有效性产生巨大影响在来自特定分布的数据集上训练的深度神经网络通常无法将其性能推广到新的领域，从而迫切需要大规模数据集[33]。去-个人贡献。†同等资深作者贡献。这项研究部分由NSERC发现补助金资助[E.B.，S.E. K [2019 - 05 - 15][2019 - 05 - 15][2019 - 05 - 05][2019 -05 - 05][2019 - 05][2019 - 05 - 05][M.C. ]由IVADO PRF赠款资助。我们感谢加拿大计算机和Calcul Quebéc提供的计算资源。通信地址：穆斯林.gmail.com，aamer.abdul-rahman.ens.etsmtl.net图 1.来自 ResNet10 模型的归一化层的聚合分布，在miniImageNet上进行预训练，并提供来自EuroSat的样本。虽然输入分布不同，但FN模型似乎适应了仿射参数的作用，导致归一化层（左）的输入更集中，输出分布相对相似（右）。少数镜头学习（FSL）的实现使深度神经网络能够从目标类中提取数据表示，只需几个标记样本[7，29，35]。在整个文献中，批量归一化（BN）[14]层在FSL技术中无处不在。它们加速了模型收敛，并被认为增加了正则化[22]。将BN层添加到深度学习模型中，通过调整其均值和方差来稳定层输入特征的分布[14]。这导致了更平滑的优化环境和各种计算机视觉问题的性能提高[28]。尽管取得了这些成就，但对BN层的有效性来源的理解仍然很差此外，最近的研究表明，这些收益可能不是最初认为的减轻内部协变量变化的结果[28]。BN层通常由两个步骤组成。首先，通过均值和标准差对输入要素进行归一化9110在小批量中的每个通道的空间维度上。然后，这些归一化的特征通过可训练系数γ和偏置β（仿射参数）进行缩放和在本文中，我们将初始步骤称为“特征归一化”（FN）。在第二步中作用的仿射参数用于在特征归一化之后保持神经网络的表达能力。为了弥合源数据集和目标数据集之间的分布差距，已经在领域适应方面做出了显著的努力。Li等人。[21]指出，标签信息通常存储在网络的权重矩阵中，而BN层的统计数据表示与领域相关的知识。这种解释导致了一个合理的问题最近的工作已经触及这些仿射参数对权重层的辅助益处[8]。然而，当面对遥远目标域的新标签时，这种对训练标签的偏见适应的负面影响还有待探索。在这项工作中，我们研究了用FN层取代BN对卷积神经网络（CNN）在少数迁移学习中的泛化能力的影响。我们在 miniImageNet [35] ，跨域少拍学习（CDFSL）[11]和META-DATASET [34]等多个少拍传输基准上的实验证实，在源上学习时使用批量归一化主要会损害目标域上的少拍泛化。我们表明，特征归一化在类似的设置中取得了显着我们假设使用BN的模型性能下降可能与BN的稀疏化效应以及ReLU有关进行烧蚀研究以确定γ和β对少数发射转移任务的孤立影响。为了从源域中学习更多可概括的特征并更好地适应目标域，我们开发了一种新的方法来进行少量转移，其中我们在源域的表示学习期间应用特征归一化（我们将此学习阶段称为“基础训练”），并在适应目标域时进行通过这种方法，我们从两个世界中获得最好的东西，并取得了更好的整体结果。本文其余部分的结构如下。在第2节中回顾了基于少镜头传输和归一化的方法。第3节给出了特征归一化和精细仿射的正式定义，第4节描述了基准测试和实验设置以及评估结果。最后，我们在第5节中得出结论。2. 相关工作2.1. 少数学习近年来，大量的努力已经指向少数镜头学习（FSL）的发展[3]， 7、9、18、25、30、35]。FSL的目标是使学习者适应新的类，只使用有限数量的标记样本。FSL的研究通常被预测为在源和新类之间具有有限域转移的设置。元学习技术基于其连贯性和简单性的特点在FSL中获得了显著的关注。当前的元学习方法可以大致分为基于度量和基于优化的方法。基于度量的方法[15，26，29，31，35]利用支持样本和查询样本的嵌入之间的距离来对新的查询图像进行分类，其中只有分类器适用于下游任务。优化方法[7，25]将整个网络纳入适应阶段。此外，一些作品提出了一种迁移学习[3，17，32，37]方法，该方法遵循基础类和新类共享区分特征的假设。其他方法则采用模型初始化技术来加速收敛并改进分类器，这是基于这样的假设：在源域上工作良好的初始化将在新的目标域上有效[18，30]。最近，FSL的研究集中在源数据和目标数据之间存在显著域差距的环境中[11，34]。尽管元学习的流行，郭等人。[11]证明了标准迁移学习和微调方法在面对大的分布变化时优于当前最先进的元学习方法。此外，有几种方法在评估阶段利用来自目标域的未标记数据，以减少分布偏移[19，26，27，38]。自我训练[39]和自我监督学习[6]方法的进步为CDFSL问题带来了有希望的解决方案。STARTUP [24]是远程任务中一种值得注意的最先进方法，它结合了CDFSL的自我监督和自我训练组件。2.2. 批次归一化批量归一化层的引入[14]加快了模型收敛，并使更深层次的网络训练成为可能。最初的假设指出，BN缓解了内部协变量移位的问题，因为特征的标准化减少了卷积层输入的剧烈移位[14]。从那时起，这种解释在[28]中受到质疑，其中在BN层中诱导内部协变量偏移，以发现对BN有效性的影响可以忽略不计。另一项研究表明，BN [16]使权重大小和方向的优化解耦。实证实验表明，9111.ΣΣ2我±√-是的σ+σxi∈X和ysBN层平滑了优化景观[28];同时提供了轻微的正则化效果[22]并有助于hc的一阶矩和二阶矩分别定义为：避免爆炸性激活问题[1]。我们的工作研究BN及其仿射参数的作用µ为1cNHWn，h，whnchw（二）当面临极端的领域转变时，尤其是在少数国家，拍摄设置。Li等人。[20]在他们的AdaBN方法中使用BN层进行域适应。该方法假设σ=1cNHWn，h，w（hnchw-µc），（3）来自不同域的数据将在标准化之后被转换成具有相似分布的AdaBN的作者通过在CNN上进行的图像分类任务的实证实验来MetaNorm [5]是一种基于BN的域自适应技术，该技术利用元学习方法来预测特定于域的BN统计数据，以进行域独立批量归一化。Frankle等人[8]强调BN仿射参数的表达能力。他们进行的实验表明，BN仿射参数在提高模型性能方面发挥了然而，他们的工作没有考虑到训练数据和目标数据之间存在分布差距的设置在本文中，我们探讨了仿射参数的作用，对几杆学习器的推广，在存在的极端分布之间的源和目标数据的转变。我们在最先进的方法上进行实验，如STARTUP。此外，我们适应AdaBN的FSL环境，研究仿射参数的影响，基于BN的域自适应技术的跨域少拍传输。3. 方法3.1. 定义这里的注释来自调查文件[36]。域D由特征空间X和边缘概率分布P（X）组成，其中X ={x1，.， xn}∈ X.3.2. 特征归一化设S是一批标号样本{（xs，ys）}N，其中H和W是hc的空间维度。3.3. 微调仿射（Fine-Affine）在大多数少数学习文献[3，24]中，只有线性分类器在微调阶段进行调整，使主干冻结。通常，这样做是为了允许快速适应，但也是因为微调骨干并不能提高性能，因为模型变得过度参数化。在另一项工作[23]中，仿射参数被用来提供特定于任务的条件反射。仿射表示少量的参数，并且可以允许模型在不过度拟合的情况下适应于在少量微调阶段中呈现的少量样本。因此，考虑适配线性层和仿射参数两者是自然的在本文中，我们将线性分类器和仿射参数的联合微调称为Fine-Affine。BN FN BNFN双头5-路，1-镜头EuroSAT 65.17± 0.4667.04±0.4466.32± 0.4668.69±0.45作物病害72.98± 0.4776.97±0.4474.01± 0.4677.52±0.43ISIC 29.33± 0.2930.89±0.3131.08± 0.3231.40±0.31胸部X 22.37± 0.2222.67±0.2322.28± 0.2222.71±0.225路，5杆EuroSAT 84.32± 0.3186.43±0.2884.07± 0.3486.75±0.29作物病害91.86± 0.2593.59±0.2391.92± 0.2594.02±0.22ISIC 42.11± 0.3245.12±0.3347.50±0.36 46.39 ± 0.33胸部X 25.38± 0.2326.22±0.2425.21± 0.2326.39±0.245路，20发EuroSAT 91.32± 0.2092.49±0.1992.43± 0.1993.02±0.19作物病害96.80± 0.1597.65±0.1397.48± 0.1598.01±0.12大小从源域Ds，其中si i i=1s∈ISIC 54.53± 0.3356.92±0.3362.00±0.35 60.04 ± 0.33胸部X 29.55± 0.2430.73±0.2430.20± 0.2631.77±0.26Ys和Θ是深度卷积神经网络，5路，50发L层的权重矩阵θl，其中l表示层索引如果h表示的中间特征EuroSAT 93.55作物病害98.090.1794.34±0.15 95.18± 0.1595.15±0.14对于层1，针对每个通道计算层1处的特征归一化层，并且可以将其定义为1：±0.1098.62±0.0998.86± 0.0798.88±0.07±0.3163.16±0.3169.05±0.32 68.25 ± 0.32胸部X32.33 ±0.2533.64±0.2534.36± 0.2835.85±0.27FN（hc）=hc−µc2C（一）表1.微调线性分类器与仿射+线性分类器（标记为“0”的方法：代表精细仿射）。所有方法都使用在ImageNet上预先训练的ResNet18，在这里，下标c表示信道索引，Σ是为防止被零除而添加的小数字，µc和σc是1为了简单起见，我们使用禁用仿射参数的标准Batch Norm模块来实现特征规范化层。评估了2000多集。BN：BN配置，线性分级器微调; BN分类器：BN配置，线性分类器+仿射微调;FN：FN配置，线性分类器微调; FN分类器：FN配置，线性分类器+仿射微调。ISIC 60.78N9112EuroSAT作物病害ISIC ChestX适应时基-列车时间5路，单镜头基线BN 61.54± 0.89 68.87± 0.84 31.96± 0.6022.43±0.401.00 1.00FN62.61±0.87 70.91±0.85 32.80±0.6122.20± 0.40 1.00基线时平均血脑浓度61.49± 0.91 68.94± 0.85 31.77± 0.5822.54±0.401.00 1.00FN61.81±0.87 71.11±0.86 32.58±0.6022.33± 0.40 1.00AdaBNBN 59.44± 0.84 68.07± 0.8533.82±0.62 22.41±0.407.25 1.00FN63.27±0.86 71.50±0.8533.67± 0.63 22.11± 0.39 7.25 1.00AdaBN平均值60.40± 0.87 68.04± 0.85 33.31± 0.6122.32±0.40 7.25 1.00FN63.29±0.88 71.32±0.86 33.43±0.6322.14± 0.40 7.25 1.00启动BN 63.88± 0.8475.93±0.8032.70± 0.6023.09±0.431251 1.00FN64.00±0.8874.56± 0.8535.12±0.6422.93± 0.43 1251 1.005路，5杆MAML*BN71.70± 0.7278.05± 0.6840.13± 0.5823.48± 0.960.704.83ProtoNet*BN73.29± 0.7179.72± 0.6739.57± 0.5724.05± 1.010.354.18基线BN 79.90± 0.69 89.93± 0.52 43.47± 0.6026.17±0.431.00 1.00FN80.51±0.67 91.14±0.49 45.03±0.6225.90± 0.43 1.00 1.00基线时的平均血脑浓度79.81± 0.71 90.15± 0.51 43.11± 0.5826.39±0.431.00 1.00FN80.03±0.70 91.11±0.49 45.34±0.6025.78± 0.42 1.00 1.00AdaBNBN 80.47± 0.63 90.11± 0.5247.97±0.64 26.00±0.427.25 1.00FN82.34±0.62 91.29±0.4947.92± 0.64 25.87± 0.43 7.25 1.00AdaBN10.39± 0.65 89.95± 0.5146.74±0.61 25.93±0.437.25 1.00FN82.00±0.64 90.99±0.5047.20± 0.62 25.86± 0.43 7.25 1.00启动BN 82.29± 0.6093.02±0.4547.20± 0.61 26.94± 0.44 1251 1.00FN82.51±0.6292.86± 0.4348.54±0.63 27.17±0.441251 1.005路，20发基线基线AdaBNAdaBN启动ProtoNet*基线基线AdaBNAdaBN启动FN92.59±0.33 98.53±0.16 65.90±0.56 37.67±0.471251 1.00表2.极端分布偏移下的少射传输结果。所有方法都使用了ResNet10主干，评估了600多集。（BN）：BN配置，线性分类器微调;（FN）：FN配置，线性分类器微调;标有“”的方法：代表Fine-Affine，线性分类器+仿射微调。在微调阶段之前恢复（FN Fine-Affine）的仿射。* 结果[11]。MAML*BN81.95± 0.5589.75± 0.4252.36± 0.5727.53± 0.430.704.83ProtoNet*BN82.27± 0.5788.15± 0.5149.50± 0.5528.21± 1.150.354.18BN 87.59± 0.45 95.83± 0.29 54.67± 0.5832.24±0.461.001.00FN88.31±0.46 96.50±0.27 56.71±0.5932.11± 0.46 1.001.00BN 88.31± 0.48 96.06± 0.28 56.62± 0.5732.58±0.461.001.00FN88.94±0.46 96.62±0.26 58.92±0.5731.88± 0.46 1.001.00BN 88.90± 0.45 96.03± 0.28 59.04± 0.60 31.33± 0.46 7.251.00FN89.95±0.42 96.68±0.27 59.65±0.60 31.57± 0.451.00BN 88.87± 0.46 95.99± 0.28 58.23± 0.58 31.58± 0.46 7.251.00FN89.91±0.43 96.55±0.27 59.24±0.59 31.68±0.477.251.00BN 89.26± 0.4397.51±0.2158.60± 0.58 33.19± 0.46 12511.00FN89.63±0.4397.43± 0.2359.98±0.59 33.54±0.4612511.005路，50发BN80.48± 0.5790.81± 0.4351.99± 0.5229.32± 1.120.354.18BNFN90.43± 0.4197.58± 0.2160.84± 0.5635.71± 0.471.001.001.001.0091.10± 0.39 98.03± 0.19 63.17± 0.56 35.80± 0.47BN 91.64± 0.39 97.85± 0.19 64.29± 0.5736.25±0.481.001.00FN92.34±0.36 98.27±0.17 65.90±0.5834.81± 0.49 1.001.00BN 91.75± 0.37 97.77± 0.20 63.69± 0.58 34.36± 0.47 7.251.00FN92.73±0.34 98.13±0.19 64.56±0.58 35.09±0.477.251.00BN 92.04± 0.37 97.73± 0.20 64.15± 0.56 35.08± 0.47 7.251.00FN92.86±0.34 98.11±0.18 65.28±0.56 35.18±0.487.251.00BN 91.99± 0.36 98.45± 0.17 64.20± 0.58 36.91± 0.50 12511.009113∈BN（γ，β）BN（γ）BN（β）FN（我们的）5-WAY，1-SHOTEuroSAT 65.17± 0.4666.67± 0.8066.69± 0.8067.04±0.44作物病害72.98± 0.4775.32± 0.8875.68± 0.8476.97±0.44ISIC 29.33± 0.2930.11± 0.5429.41± 0.5530.89±0.31胸部X 22.37± 0.2222.62± 0.3922.47± 0.4122.67±0.235路，5杆EuroSAT 84.32± 0.3185.56± 0.5286.18± 0.5286.43±0.28作物病害91.86± 0.2592.91± 0.4793.09± 0.4393.59±0.23ISIC 42.11± 0.3244.48± 0.5843.26± 0.5945.12±0.33胸部X 25.38± 0.2326.09± 0.4326.01± 0.4426.22±0.245路，20发EuroSAT 91.32± 0.2091.73± 0.3592.11± 0.3492.49±0.19作物病害96.80± 0.1597.26± 0.2697.51± 0.2397.65±0.13ISIC 54.53± 0.3356.41± 0.5956.25± 0.6056.92±0.33胸部X 29.55± 0.2430.26± 0.4330.15± 0.4430.73±0.245路，50发EuroSAT 93.55± 0.1793.59± 0.2994.11± 0.2794.34±0.15作物病害98.09± 0.1098.31± 0.1998.57± 0.1698.62±0.09ISIC 60.78± 0.3162.46± 0.5863.25±0.5763.16± 0.31胸部X 32.33± 0.2533.03± 0.4532.60± 0.4633.64±0.25表3.BN层仿射参数的烧蚀研究所有方法都使用ResNet 18主干，该主干在Ima-geNet数据集上进行了预训练，并评估了2000多集。BN（γ，β）：标准BN构型; FN：FN配置; BN（γ）：β失效的BN; BN（β）：γ失效的BN。4. 实验我们研究了应用于最先进的少镜头学习框架（如STARTUP [24]）的特征规范化（FN）的效果，并在少镜头转移集中评估FN我们采用AdaBN [20]（一种基于BN的域自适应技术）进行FSL设置，并研究用FN替换BN对BN仿射参数γ和β进行烧蚀研究，以评估它们对跨域少射转移性能的单独计算所有方法相对于基线的自适应时间开销，以强调更复杂方法的计算成本，同时实现与FN相似的我们比较了在不同数据集上用BN和FN训练的特征表示的稀疏性。最后，我们研究了Fine-Affine（即，反应仿射参数，同时在目标域上微调）。4.1. 基准具有挑战性的CDFSL基准[11]被用作我们实验的基础MiniImageNet [35]由基于对象识别任务的图像组成，用作基础训练数据集（源）。实验也在更广泛的ImageNet [4]数据集上进行。基准测试的目标数据由四个部分组成数据集，每个数据集相对于miniImageNet和ImageNet的源图像来自非常不同的域。这些数据集包括EuroSAT（用于确定土地使用的卫星图像），CropDiseases（用于识别植物疾病的植物图像），ChestX（用于检测病理的胸部X射线）和ISIC 2018（用于检测黑色素瘤的皮肤病变图像）。在[24]之后，对于具有无监督组件（即STARTUP和AdaBN）的方法，我们从目标数据集中的新类别中随机其余的例子用于推理。与[11]类似，我们在FSL分类设置中进行实验，其中支持集由5个类组成，每个类具有k个样本（5路k-shot），其中k {1，5，20，50}。对在源miniImageNet上预训练的模型进行了超过600个目标事件的评估，并报告了平均准确度和95%置信区间。在源ImageNet上预训练的模型以类似的方式进行评估，除了超过2000个目标集。META-DATASET在META-DATASET上进行了进一步的实验[34]。在这里，ImageNet被用作基本表示学习数据集。目标数据集包括Omniglot、Aircraft、Birds、VGG Flower 、 Quickdraw 、 Fungi 、 Textures 、FunciSigns和MSCOCO。除了源数据集和目标数据集之间的域转换之外，Meta还存在额外的挑战，因为任务生成不遵循标准的K-way N-Shot任务。这些任务是用随机的方式、支持和查询镜头生成的关于META-DATASET的任务生成过程的更多细节可以在[34]中找到。4.2. 实施和评估详细信息表2中的少量传输实验是在公开可用的CDFSL基准[11] 上进行的。 Baseline 是标准的迁移学习，在miniImageNet上训练了400个STARTUP剩余的80%的目标数据集用于微调，如第2节所述4.1. 表2中的所有方法都使用ResNet10架构[12]。表4中的META-DATASET实验是在ResNet 18模型上进行的[12]，基于[2]中的实现。本文中的实验使用Tesla V100 SXM2 16 GB GPU进行。对于minImageNet源案例，例如1次拍摄，我们观察到不同种子的结果差异很大。例如，在5个不同的种子上，[24]中训练的微调基线在EuroSAT上产生了以下5路1次分类的平均精度9114DD{63.11%; 63.01%; 61.50%; 62.68%; 61.91%}，每种各发作的95%置信区间约为0.9。我们还注意到，一些报告的改进通常在平均值的2-3%范围内[24]，因此我们可以看到由于训练过程导致的方差可能高于通常假设的方差。为了考虑到这种在其他研究中未考虑的高4.3. BatchNorm相关方法我们的工作重点是批量归一化，因此我们考虑与AdaBN进行比较，AdaBN是一种在少数文献中不常用的方法，以便于进行更严格的比较。AdaBN基于将BN统计调整为目标域的统计。在下面的段落中，我们将描述AdaBN如何适应FSL范式。BN FNOmniglot 60.73± 1.3565.86±1.34飞机51.96± 1.0354.74±1.04鸟类63.51±1.0362.93± 1.02纹理73.86± 0.7774.52±0.75快速绘图58.02± 1.0663.96±0.99真菌34.77± 1.0336.67±1.04VGG花82.97± 0.8185.44±0.78交通标志54.80± 1.1358.18±1.09MSCOCO40.66 ± 1.1341.88±1.14表4.在META-DATASET上评价FN和BN。这两种方法都使用了在源ImageNet上预先训练的ResNet18骨干，并对目标任务进行了微调我们观察到基于FN的ResNet18的显著收益。开销计算值得注意的是，不同的方法具有不同的计算需求和复杂性。为了公平地比较相对于性能增益的计算成本，我们计算了基本训练和适应时间，作为阐述评估方法之间成本差异的一种手段。每种方法相对于基线的基本训练时间见表2。开销为1表示等价0.75表示该方法只需要基线训练时间的75%。使用相同的方法，适应时间比被计算为相对于基线所花费的时间量，针对每个情节适应目标域t的单个样本（无论是有监督的还是无监督的）所需的时间。评估设置任何依赖于特征表示并以BN为骨干构建的推理技术都可以与FN一起使用。为了公平和简单，在这项工作中，我们遵循与 CDFSL 基准测试 [11] 和STARTUP [24]实验对于元数据集，我们遵循[2]中使用的评估设置。这里，特征提取器的权重在源数据集上进行基础训练后被冻结然后在下游任务的支持集上训练线性分类器。最后，该模型的任务查询集上进行评估。AdaBN少数镜头设置AdaBN，在[20]中介绍，是一种轻量级的基于BN的域自适应技术，已被证明可以提高迁移学习方法对图像分类任务的性能。该方法是一种无监督的技术，它利用来自目标域的未标记数据，并采用BN统计来弥合源分布和目标分布之间的域间隙。尽管这种方法在迁移学习中很有效，但在少数文献中却被忽视了。在这项研究中，我们评估AdaBN在几杆设置在近域和当面临一个显着的域转移时，BN和FN配置。AdaBN利用在源数据集上预训练的标准基线模型，并适应于在未标记样本t上的额外几个向前传递时期。在这里，模型的归一化层的统计数据4.4. 少量学习结果在本节中，我们首先进行一项研究，以了解仿射参数如何影响域偏移下的特征分布。然后，我们提出了我们的结果在多个少数镜头转移任务。激活后分布我们假设在域移位下BN仿射参数的问题与ReLU的稀疏化特性有关。由于ReLU的阈值特性，神经元的激活前输出分布中的潜在小偏移此外，过多的阈值可能导致信息丢失。为了获得进一步的见解，我们研究了分布偏移下imagenet训练的ResNet 18和min-imagenet ResNet 10模型的倒数第二层特征表示中的非零条目（稀疏度）的平均数量对于每个模型，我们在源数据（ImageNet或miniImageNet）上计算其稀疏性，然后将其与CDFSL基准测试中其他数据集的稀疏性进行此外，从表6中可以看出，分布偏移（从imagenet到CDFSL数据）往往会导致相对于分布内数据的基本上更稀疏的表示。我们9115假设这种过度稀疏性导致性能下降和较不一般的特征。另一方面，FN训练模型产生的中心分布对于源数据和目标数据集都没有那么高的稀疏性，这激发了它们通过仿射参数和分布偏移来缓解这个问题的潜力1发5发20发基线（BN）54.56± 0.8476.18± 0.6984.53± 0.52基线（FN）55.16± 0.83 76.03± 0.67 84.23± 0.53AdaBN（BN）54.21± 0.85 76.10± 0.68 84.43± 0.53AdaBN（FN）55.10± 0.84 76.06± 0.67 84.16± 0.54表5.Baseline和AdaBN上的近域少炮评估模型在miniImageNet上进行了预训练，并在ImageNet的新类别上进行了超过600集的评估。ImageNet 欧洲卫星组织ISIC 胸部X射线作物病害ResNet18（BN）53.537.247.358.454.2ResNet18（FN）60.953.758.964.562.1ResNet10（BN）30.016.916.220.730.4ResNet10（FN）50.726.327.637.347.7表6.特征映射中非零条目的百分比在每个预训练模型中的最终ReLU激活后计算。连续分布中的小变化导致离散分布中的大变化。从域内转移到跨域转移，我们发现稀疏性随着跨域转移而增加。ResNet10和ResNet18分别在miniImageNet和ImageNet上进行了预训练特征分布分析我们评估BN（浅绿色）和FN（深绿色）层之前和之后的跨域特征分布，如图1所示。在这两种情况下，模型都是在miniImagenet上预先训练的，而记录的分布是来自EuroSat的样本为了简单起见，每样本通道方式的空间平均值被聚合到每层一个分布，以便消除通道分布的视觉偏差。左列和右列分别表示归一化层跨域少量传输表2报告了我们在CDFSL基准上的实验结果。在所有数据集和1、5、20和50次射击设置（与CDFSL基准一致）中，配置FN的模型的平均性能超过BN模型。值得注意的是，当基线在5个种子上配备FN简单地使用FN配置基线模型，可以获得与更复杂和计算量更大的模型相媲美的结果（在误差条内）昂贵的STARTUP，它使用大量未标记的数据来弥合域差距。当配备FN时，可以在所有三种方法（基线、AdaBN和STARTUP）中观察到相对性能增益。最好的总体结果是由启动 FN 产生的表 4 所示的 META-DATASET上的实验结果表明，FN对该基准测试带来了显著的改进FN模型产生的优越结果表明，BN仿射参数γ和β在面对显著的域偏移时对下游少数发射转移任务具有通常负面的影响。近域少次迁移对少次迁移任务进行了进一步的分析，以确定FN在这个实验中，我们使用miniImageNet作为源数据集，使用ImageNet中的新的不可见类作为目标数据。尽管这些源图像和目标图像基本上来自同一数据集，但目标的不可见类呈现了一个与源图像有一些域偏移的任务。在检查表5中给出的结果时，可以观察到FN没有改善BN的性能。此外，在ImageNet上训练时，BN在域内验证数据上产生了比FN更好的结果，如图2所示。这些结果支持了当面对显著的领域转移时，FN更有利于少镜头转移任务的假设。Fine-Affine（微调γ和β）仿射微调实验示于表1中。采用Fine-Affine配置对配备BN和FN的基线模型进行在基础训练阶段禁用FN Fine-Affine0为γ和β。ImageNet数据集被选为BN和FN模型预训练的源域。从结果中可以观察到，由于BN和FN模型上的精细仿射设置，存在很强的性能增益，但是FN模型仍然优于BN模型。所有四个数据集的1，5，20和50次射击分类都有改进，BNFine-Affine和FN Fine-Affine模型分别对ISIC的20次射击分类和ChestX的50次射击分类分别获得了7.57%和2.21%的显著收益这些结果表明，仿射参数是有用的任务特定的自适应在少数镜头转移设置，而不会导致模型过拟合少数镜头环境中的少量样本。如表2所示，当使用miniImageNet作为源数据集时，Fine-Affine自适应不那么有效。然而，在ImageNet和miniImageNet基础数据集上，FN在Fine-Affine方法上提供了比BN显著的改进9116计算开销每个评估方法的计算开销如表1所示。从实践的角度来看，即使STARTUP产生了总体上最好的结果，其适应时间比是基线方法的1251倍。这是由于昂贵的无监督学习步骤。这使得这种计算复杂的方法在紧张的情况下不适用。另一方面，尽管 MAML 和ProtoNet的基础训练节奏较慢（与基线的时间比为4.83和 4.18 re-time ），但它们的适应时间相对较快，MAML的比率较低（0.70），相对于ProtoNet的基线时间（0.35）的比例相当小AdaBN是一种计算量大的方法，其开销适应时间大于 MAML ， ProtoNet 和Baseline。在实践中，适应时间与基地训练的适应时间并不相同;适配发生在来自目标域的少量注释样本上。因此，与受益于大型监督样本集的基础训练相比，它可以最后，所提出的FN修改，导致改善所有方法，而不施加额外的开销成本。值得注意的是，由于FN减少了参数数量，它甚至略微降低了基本训练时间开销。AdaBN是一种基于批量规范化的领域自适应技术，本文将其应用于少量学习。AdaBN对跨域少数发射转移的评估可以在表2中查看。结果表明，AdaBN，与BN和FN配置，产生了相当大的改善ISIC少杆基准，与基线上的5杆分类有显着的4.86%的增益。然而，在其余的目标数据集上，AdaBN相对于基线产生了更多的边际收益。就具有BN和FN配置的AdaBN而言，FN在大多数实验中始终优于BN。对来自ImageNet的具有看不见的新类别的近休眠目标数据进行了进一步分析。表5所示的结果表明，AdaBN没有产生超过标准基线的任何益处。此外，在近畴实验中，具有FN的AdaBN并没有比BN版本有所这表明，用FN代替BN可以在面对大的域偏移时为基于BN的域自适应技术产生实质性的增益，但对小的域偏移任务无效4.5. 消融研究如第1节所述，批归一化层由两个可学习的仿射参数组成，而特征归一化层在没有这些仿射的情况下执行归一化。在本节中，我们对这些参数进行烧蚀实验，以确定它们对少数发射传输性能的单独影响。的结果图2.在Ima-geNet数据集上训练超过90个epoch时的前1名验证精度。ResNet18（BN）：BN构型; ResNet18（FN）：FN构型; ResNet 18（γ）：β失效的BN; ResNet 18（β）：γ失效的BN。尽管源性能较低，但如表3在CDFSL基准上的烧蚀实验示于表3中。可以观察到，BN（γ）和BN（β）在所有四个数据集上跨1、5、20和50次射击产生比BN更准确的分类。相对于BN（γ），BN（β）的改善幅度更高。其中γ和β都被去除的特征归一化是远域少激发转移的最佳性能配置。5. 结论特征规范化层利用较少数量的模型参数，提高了移位域上的少量泛化性能通过稳定卷积层的输出分布，特征归一化提高了对分布变化的鲁棒性它捕获并规范化数据特征的统计分布，同时防止仿射过度拟合训练源标签。特征归一化与广泛使用的批量归一化实现一致，并且可以轻松集成到现有的CNN架构中。据观察，所提出的归一化技术仅有助于在少数拍摄传输和效果是

下载后可阅读完整内容，剩余1页未读，立即下载