BoosterNet：提高深度学习模型泛化能力的附加网络

166 浏览量更新于2023-10-26 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

538一BoosterNet：使用罪责排序特征Nourhan Bayasi不列颠哥伦比亚nourhanb@ece.ubc.ca加桑·哈马内西蒙·弗雷泽大学hamarneh@sfu.ca不列颠哥伦比亚rafeef@ece.ubc.ca摘要经过训练以最小化单个领域经验风险的深度学习（DL）模型在应用于其他领域时往往无法推广。由于可通用性差而导致的模型故障在实践中非常常见，并且在关键任务应用中可能证明是非常危险的，例如，诊断成像，其中真实世界的数据通常表现出明显的可变性。这些限制导致了对领域泛化（DG）方法的兴趣增加，这些方法可以提高从单个或多个源领域学习的模型泛化到分布外（OOD）测试领域的能力在这项工作中，我们提出了BoosterNet，一个精益的附加网络，可以简单地附加到任何任意的核心网络，以提高其泛化能力，而不需要在其架构或训练过程中的任何变化。具体而言，使用一种新的特征罪责度测量方法，BoosterNet根据从核心网络中的关键单元中提取的最重要和最不重要的数据特征进行周期性训练，这些特征对特定于类别的预测误差的贡献，这已经证明可以提高泛化能力。在推理时，从最接近的类特定单元中提取相应的测试图像特征，通过Siamese网络由智能门控确定，并将其我们评估了BoosterNet在两个非常不同的分类问题，数字和皮肤病变的性能，并证明了一个显着的改进模型泛化到OOD测试域相比，SOTA。1. 介绍深度学习（DL）模型的显著进步使得深度神经网络（DNN）在各个领域无处不在，特别是在计算机视觉中，包括安全关键型应用，如医学图像分析[21，32，60]。尽管在某些应用程序中应用于新数据时取得了相对成功，但基于DNN的解决方案的实际部署仍然存在很大风险，主要问题是易受域转换的影响，这会导致对分布外（OOD）数据的概括性较差。这些限制不仅会损害模型性能，而且当测试数据来自与训练数据不同的分布时，可能会导致严重的不可接受的故障[16，43，58]。这种对现实生活数据的不可预测的性能下降继续阻碍可靠的实际部署，例如在医疗保健领域。认识到这个严重的问题，许多研究最近集中在提高模型的泛化能力。在无监督域自适应（UDA）中，目的是将标签丰富的训练域的知识转移到与训练数据具有相同类别的未标记测试域[31，36，49，63，66]。然而，UDA方法由于需要访问一些可能无法提前获得的测试数据而具有在领域泛化（DG）方法中，目标是利用单个或多个源领域的信息来更好地泛化到OOD领域，DG领域非常丰富，技术范围从域对齐[28，46]到数据增强[51，57，65]，元学习[7，34]和集成学习[45，55]。然而，尽管显著的性能改进，大多数DG方法仍然遭受共同的缺点。首先，它们通常需要来自多个领域的训练数据，这可能相当麻烦、昂贵甚至不可行，例如，由于医疗数据应用中的隐私问题。其次，它们通常需要重新构建或改变网络架构或学习策略，以实现所需的性能[8，9，19，30]。对于不是经验丰富的数据科学家的最终用户，例如，皮肤科医生试图用最少的或没有DL训练来分类皮肤病变，这样的修正是不切实际的。在这项工作中，我们提出了一个单源DG框架，通过从错误中学习来提高任意现成DNN（核心网络）的泛化能力。我们认为BoosterNet改善了快捷学习和特征抑制，这是一个最近才得到更多关注的问题[12，18，44]，在存在多个预测输入特征的情况下，模型往往只使用一个539一一一一子集而忽略其他特征，这通常会导致“捷径”决策规则，这些规则可能在训练数据上表现良好，但会损害泛化能力，并导致对数据变化的鲁棒性为了对抗捷径学习和改进泛化能力，BoosterNet包括一个精益附加网络，该网络被鼓励通过情景训练从核心网络中与错误预测最相关的最有问题的特征（以下称为混淆特征）中学习。为了平衡学习过程，BoosterNet也被训练为保持对数据中最具预测性的“琐碎”特征的关注我们的DG框架的高级概述如图1所示（训练和推理细节如图2所示）。使用我们提出的罪责分数，从网络中的类特定单元（过滤器/神经元）中提取混淆和判别特征，这些单元分别与特定类中错误预测的最高和最低罪责相在推理时，Booster-Net通过提取与基于Siamese网络的智能门控机制确定的最接近的类单元相对应的混淆和区分特征来处理测试图像。我们广泛的实验表明，我们的方法优于国家的最先进的（SOTA）在单域泛化分类基准数据集，包括数字和医学皮肤图像。2. 相关工作领域泛化（Domain Generalization，DG）是近年来的研究热点.早期的DG方法主要关注数据准备和增强，通过创建新的多样化训练数据样本来鼓励模型学习可能更好地支持泛化的一般表示[25，42，52，59，64]。虽然这些方法只增加了源容量，但在[41，61]中提出了一个例外，其中输入和标签空间都得到了增强。不同的是，[57]开发了随机卷积作为数据增强技术，以刺激无限数量的具有相似全局形状但随机局部纹理的新域，以提高模型的泛化能力。在DG方法专注于表示学习的背景Muandet等人。[13]提出了一种基于核的方法来获得主不变特征。[37，58]提出了一种跨域对比语义对齐（CCSA）损失，该损失在所有域中引起类内相似性和类间差异。其他方法通过最小化最大平均差异（MMD）[54]、二阶相关性[40]或矩匹配[39]来明确最小化跨域的特征分布差异。学习领域不变的特征也已经通过图1. BoosterNet的概述。(Top)培训：BoosterNet是根据从网络中具有最高和最低cul- pability分数的类特定单元中提取的“混淆”和“判别”特征进行训练的。（下）推理：使用Siamese网络作为智能门，基于最短欧氏距离识别测试图像的最近类，并从网络中提取相应的测试图像特征，并将其馈送到BoosterNet进行预测。域对抗学习[28，33，46]以及通过修改核心网络架构[9，30，38，45]。最近，随着模型不可知Meta学习（MAML）[10]的兴起，元学习方法已经变得流行[14，20，26，35，47]。我们的想法是通过采用情景训练范式来模拟虚拟元任务，即，在每次迭代时将可用的训练域分成元训练和元测试，以模拟域移位。Li et al. [27]设计了一种情景训练程序，将深度网络分解为特征提取器和分类器组件，然后通过模拟与当前域调优不良的伙伴交互来训练每个组件。以这种方式，特征提取器和分类器组件都变得鲁棒和可推广。Dou等人。[6]引入了两个互补的元损失，它们通过模型不可知的情景学习过程显式地正则化特征空间的语义结构。[24]提出了一种新的情景学习框架，其中元测试数据是通过内插所有源域来生成的，以增强元任务模拟的多样性在对解决泛化问题做出积极贡献的同时，所有上述方法都依赖于多个训练域的可用性以避免过拟合。最近，傅立叶变换已成为域泛化研究的热门领域[56，62]。主要假设是傅立叶相位信息通常包含不易受域移位影响的高级语义。因此，通过从相位信息中学习，该模型可以更好地从不同的图像数据中提取语义概念，并且可以证明对领域具有鲁棒性运动一样的BoosterNet. 现有的DG方法需要改变540一一S{T不· ··}一S一WW我在网络架构或优化中，这在某些应用中或对于某些用户来说可能是具有挑战性的。我们提出的BoosterNet可以很容易地与任何核心网络耦合，而不需要任何更改。BoosterNet可以被视为数据准备和基于情景训练的DG方法的和谐组合，因为我们利用训练数据来提取基于过失的特征，并使用情景训练来模拟域转移和改进泛化。总而言之，我们做出了以下贡献：• 我们建议使用特征罪责的概念，以提高从一个单一的源域域的域泛化。我们的罪责分数衡量每个网络单元对错误类预测的贡献。• 我们提出了BoosterNet，这是一个简单的网络，可以作为现有DNN网络的附加组件，通过利用来自最少和最多的可指责特征的信息来学习更可概括的预测特征，从而提高泛化能力。• 我们在两个多域数据集上进行了广泛的实验，包括数字和皮肤病变分类，分别为4和5个域，以验证我们的框架的有效性，并证明在提高领域泛化方面优于SOTA。3. 方法我们首先描述我们的问题设置和整体框架设计.BoosterNet是一个精简的附加网络，可以与任意DNN（网络）耦合，以提高泛化能力，而无需更改其架构或优化。给定一个单源训练域，网络通过标准的监督学习进行训练。ing. BoosterNet从网络中提取的罪责排名特征（即混淆和判别特征）中学习，以提高OOD目标领域的泛化能力1，2，p（）. BoosterNet训练和推理总结见图2。3.1. 罪责评分我们的罪责评分[C]m，n 量化贡献图2. BoosterNet训练阶段（步骤1至7）和推理阶段（步骤8至11）的细节添加到传统网络A上。在网络中，对于训练数据集中的每个类m[2]。为了计算分数，预先训练的现成分类网络具有参数θ和n个单元（滤波器/神经元），通过标准监督学习预测给定输入图像x的类输出y，例如，交叉熵损失（图2（步骤1））。在训练之后，我们将验证数据{x，y}分组为每个类m的两个组：Rm是具有地面真值类m和预测类m的（x，y）对的集合（即，莱特利在这个例子中，我们的应用案例研究是皮肤病变分类，其中使用的训练数据集是HAM [50]，RGB输入图像被分类为七个皮肤病变类。分类图像）;m是具有地面真值类m但预测类不是m的（x，y）对的集合（即，粗略分类的图像）。为了计算每个单元n的罪责分数，我们分析了541RW我Σ一|C一C宽×高×宽 ×高一一输入数据样本i跨m和m，如等式1中给出的，其中h、w是特征图的维度。7））。形式上，训练范例在每次迭代中由三个部分组成，以更新θb：[C]1m，n=n（w，h）1. 分类损失L任务在元训练|i ∈W m w，h|i∈Wm w,h（一）特征Ztr和BoosterNet的模型参数，θ，通过几步梯度下降更新，- -一种1Σn（w，h）B学习率为η;|i ∈R m w，h|i∈Rm w,h由于在卷积层中，激活图是从单个单元计算的，因此我们在空间维度上聚合激活图，因此在（1）中对w，h求和。最终的[C]m，n是由所有激活值的总和归一化的[C]m，n[C]m，n=[C]m，n/[C]m，n（2）m，n对于每个类别，低分数标识在该特定类别中产生错误的责任较小的单元，即，生成判别特征的单元。另一方面，得分高的单位更有责任，即，产生混淆特征的单元。我们假设这样的罪魁祸首单元是特定于类的，即，每个类别可以具有其自己的过失向量，该过失向量标识在该类别的错误/正确分类中最多/最少牵连的单元3.2. BoosterNet培训BoosterNet级联传统的ConvNet架构f和模型参数θb，并进行训练，以提高网络独立处理的OOD数据的性能。BoosterNet将类特征的张量Z作为输入，其中和分别是特征映射的重新调整大小的宽度和高度，是特征通道的数量，并将类输出y预测为y=f（Z θb）。=+，其中和分别是判别和混淆特征的所需数量，也可以指定为网络.类特定特征Z是基于等式2中给出的每个单元n的罪责分数从网络中的某些单元提取的。具体来说，我们选择了10%的具有最低罪责分数的单元和10%的具有最高罪责分数的单元，以分别识别其相应的判别和混淆特征（图2（步骤3使用训练集提供的地面实况信息，BoosterNet被训练为从这些孤立的预测数据特征中学习。BoosterNet使用情景训练[42]来基于虚拟测试域上的性能进行优化。具体而言，在每次学习迭代中，我们将训练特征Z分为元训练Ztr和元测试Zte，其中Ztr和Zte分别从类混淆和判别特征中进行周期性采样（图2（步骤θb<$θb−η <$θbL任务（θb;Zt r）。（三）2. 在元测试特征Zte上评估分类损失Lt任务;即，L 任务（θb;Zte）。3. BoosterNet参数θb由从元训练和元测试的组合损失计算θb<$θb−η<$θb<$L任务（θb;Zt r）+L任务。θb;Zte（四）3.3. BoosterNet推理在推理阶段，从网络中提取测试图像的鉴别特征和混淆特征，并将其输入BoosterNet。由于每个类可能有不同的可弯曲性向量，因此我们设计了一个使用暹罗网络的智能门[3]，它只激活与测试图像最相关的类特定单元我们使用Siamese网络将训练数据中的每个类编码为唯一的输出向量（通过平均该类中的所有图像向量），并计算每个向量与测试图像向量之间的欧氏距离然后，将与最小距离相关联的类分配为测试图像的最可能类，并且因此激活该类的对应单元以提取测试图像判别和混淆特征，如图2所示（步骤（8值得一提的是，Siamese网络仅用作触发门，以提供测试图像的初始类别分配，从而促进BoosterNet的分类过程。我们在第5节消融研究3中表明，即使没有暹罗网络门，BoosterNet也能够实现良好的性能，但门控可以提高性能。4. 量化Domain Shift分析域转移何时可能显著影响模型的性能是很重要的。为了更好地理解和评估这一点，我们计算了[48]中提出的表示偏移R，以量化第5节BoosterNet评估中数据集之间的统计差异。该指标R测量模型层激活分布的我我542.Σ.Σ一lnln.Σ一××一B一个D一lnnclnlnclnn在来自两个域的数据集之间，捕获两个数据集之间的模型感知相似性。We表示为pTc从训练输入数据XT=xT1，. -是的-是的，xTz其中，c_l_n是层l中的每个卷积滤波器n_i的激活图的平均值，并且z是X_T中的图像的数量。测试数据集，使用不同设备在不同临床站点收集的真实患者皮肤病变图像六个数据集中的每一个都包含七个类的子集。我们将每个数据集划分为50%的训练集，20%的验证集和30%的测试集，并丢弃超过7个公共类的数据我们使用HAM的训练集来训练网络A，并在所有其他测试集域上评估模型。. 表示移位R为然后定义为层l中所有滤波器n上的分布之间的平均差异D;R. pT，pS= 1D。pT，pS（5）i=1对于网络，我们实验了多个核心网络，这些核心网络是文献标准，包括ResNet- 18（RN 18）、ResNet-50（ RN 50 ）、 ResNet-152 （ RN 152 ）和 ResNet-154（RN 154）。VGG-16 我们使用交叉熵损失对于100个epochs，1 e-5的恒定学习率和一个批次其中D是pTc和pSc之间的任意差异/距离度量，当两个数据集的分布相似时，该度量趋于零也就是说，如果训练数据集和测试数据集（XT和XS）在统计上相似或者被核心模型映射到相似的表示，则特征响应应该相似并且R pT，pS小。其基本思想是，数据集可能是相似的（即，小距离），如果模型确实学习了域不变特征。如果不是这种情况，则第一数据集的表示取决于第二数据集中不存在的特征，这可能是由域移位引起的。我们将在第5节中演示即使是训练数据集和测试数据集之间很小的统计偏移也会显著降低网络的性能。5. 实验和结果我们在两个非常不同的基准数据集上展示了BoosterNet的DG性能。我们还进行了详细的消融研究，以量化BoosterNet不同组件的影响。5.1. 数据集我们在两个应用程序中评估性能。我们的第一个评估应用是数字识别，我们使用Digits-DG基准数据，包括四个数据集：MNIST [23]，MNIST-M [11]，SYN[11]和USPS [5]，每个类别代表来自不同领域的10个类别。这四个数据集主要在字体风格、背景和图像质量方面有所不同。我们在所有实验中使用每个数据集中的原始训练验证分裂。我们使用MNIST的训练集来训练网络，并在所有其他测试域上评估模型。我们的第二个评估应用是皮肤病变分类，我们使用由五个公开可用的皮肤病变图像数据集组成的医学基准数据： HAM 10000 （ HAM ） [50] 、 Dermofit（DMF）[1]、Derm7pt(D7P)[22][23][24] [25][26][27][28][29][2大小32至于BoosterNet，其架构是常规的ConvNet与conv-pool-conv-pool-fc-fc-softmax层。我们选择这种架构是为了简单和与SOTA更公平的兼容。BoosterNet使用交叉熵损失进行了50个epochs的训练，恒定学习率为1 e- 5，批量大小为8。最后，暹罗门每个分支中的 conv-pool-conv-pool-conv-pool- fc-softmax的ConvNet架构它是使用100个时期的监督对比损失，1 e-5的恒定学习率和32的批量大小进行训练的。对于皮肤病变基准，我们平衡了每个数据集中的类，因为它们遭受了极端的类不平衡。为了模拟真实的训练方法，我们通过将所有图像合并到650 650，随机缩放和裁剪224 224，以及随机翻转和旋转来增强数据[90度，180度，270度]。将确认和测试图像的大小调整为650×650。5.3. 数字评价域转移对网络性能的影响。在实验表1中，我们评估了网络对分布中目标数据的性能（即，MNIST测试集）以及OOD目标数据（即，其他域测试集）。我们观察到，在分销测试数据上进行测试时，所有四个核心模型均表现良好，在Exp（最佳情况）中实现了99.34%然而，在其他域测试数据上的性能要差得多，在某些情况下由于域偏移而下降到10%以下。为了量化不同域测试集之间的移位，我们使用Wasserstein距离作为差异度量来测量从最后一个卷积层计算的表示移位得分R我们在表1中报告了支架中的值。相同域的训练集和测试集之间的R值（例如，MNIST/MNIST）小于不同域。我们观察到，在一般情况下，R和分类精度之间的明显负相关，正如预期的那样。这证实了与不会被如此小的统计域偏移绊倒的人类分类器相反，所有测试的SOTA网络架构都具有XS=x S1，. -是的-是的，xSq其中q是图像的数量，5.2.实现细节类似地生成pSc543A S一一一个D我E HIK∼FJ一FF表1. 数字评价：实验的测试集分类结果-. （-）表示未使用BoosterNet。将“0”和“0”分别设置为15%和35%。ET和CT分别是情景训练和常规训练的缩写。所有实验中的训练集都是MNIST训练集。实验装置测试数据集中的分类准确度%（R偏移值）平均分类±标准差（%）Exp网络ABoosterNet培训MNISTMNIST-MSYNUSPS基线一RN18–98.81（0.0201）16.95（0.425）8.13（0.911）18.42（0.295）35.57±42.39BRN50–99.34（0.0165）18.3（0.415）11.24（0.836）19.73（0.351）37.15±41.62CRN152–98.01（0.0216）15.85（0.533）7.62（0.981）17.45（0.472）34.73±2.40DVGG16–85.95（0.0381）13.22（0.797）6.89（1.186）13.88（0.502）29.98±37.44BoosterNet（拟议）ERN18ET99.01（0.0182）76.21（0.189）51.06（0.304）83.62（0.088）77.47±20.01FRN50ET99.72（0.017）77.89（0.097）54.39（0.299）84.31（0.081）79.07± 8.83GRN152ET98.64（0.022）74.22（0.214）49.71（0.318）82.78（0.091）76.33±20.43HVGG16ET97.33（0.030）69.53（0.295）47.26（0.346）79.63（0.199）73.43±20.89BoosterNet无事件训练我RN50CT98.1565.9849.3177.5372.74±20.52BoosterNet无罪责排序JRN50ET94.2949.3737.8173.0563.63±25.15BoosterNet无类特定罪责特征选择KRN50ET97.6575.1148.6381.8475.80±20.43训练端到端修改后的网络ALmod-RN50CT95.361.2835.7474.6866.75±24.96与SOTA的M[第61话]–97.3554.041.276.667.28±24.81NM-ADA [42]–99.2967.4948.9578.5373.56±21.04OJiGen [4]–99.1457.4843.2677.3569.31±24.31PUgMG [41]–98.9267.3757.0677.2575.15±17.86Q[53]第–99.3158.1444.6776.1769.57±23.65R自我超能力[17]–98.9858.1541.9277.169.03±24.59SCCSA [37]–98.9449.2937.3183.7267.31±28.83无法处理域转换，无法进行一般化。BoosterNet的性能。在Exp -中，我们将BoosterNet附加到Exp -中的每个核心网络。通过情景训练，我们使用从具有最低过失分数的单位中的10%=15%和具有最高过失分数的单位中的10%=35%提取的相应类特定判别和混淆根据经验选择了100和100。BoosterNet在测试集上的分类结果如表 1 所示。我们观察到使用BoosterNet的所有数据集的性能都有显著改善，证明了我们的框架通过学习网络的有罪特征来提高泛化能力的有效性。此外，我们注意到，使用BoosterNet，跨域的R值更小，这有助于保持更高的准确性。对于所有剩余的实验，我们使用RN50作为网络的核心架构，因为它具有最佳的平均性能。消融研究。Boost-erNet中的三个主要组件是：1）情景训练，2）基于罪责的排序，以及3）类特定的特征选择。在 Exp - 中，我们研究了每个组件对BoosterNet性能的影响1. 情景训练方案的验证：在Exp表1中，我们评估了BoosterNet在不包含情景训练方案的情况下的性能，也就是说，通过常规训练。通过与Exp进行比较，我们观察到，在没有情景训练的情况下，准确率平均下降了6.3%，这表明情景训练有效地提高了BoosterNet对OOD数据的泛化能力。然而，即使使用常规训练，与实验B中的基线相比，Boost-erNet也具有更好的泛化性能。2. 验证基于罪责的分类特征：在Exp中，我们通过在一组随机特征上训练BoosterNet来验证判别和混淆特征的有效性，即，而不考虑罪责具体来说，我们在网络中随机选取单元，提取相应的随机特征，保持与Exp .对于情节训练，从训练数据特征中随机抽取元训练集和元测试集。我们在表1中给出了测试集的分类结果。与Exp中的结果相比，我们观察到性能急剧下降，15%，证实并非所有特征都对模型的泛化能力有积极3. 基于类别特定罪责的特征选择的验证：在实验K中，我们测量了544一BLBFSF∼QROPMN一E一JK我M NOA DE H训练BoosterNet的类特定功能。具体来说，我们确定了网络中的单元对所有类的整体正确或不正确预测做出贡献，然后我们提取相应的特征并将其提供给BoosterNet。事实上，我们发现所有的集合中有18%的单位是相同的，而所有的集合中有23%的单位是共同的。在推理时，我们放弃了我们的暹罗门，并部署了这些公共单元来提取测试图像特征。测试集的分类结果如表1所示。虽然性能比Exp（基线）更好，但丢弃类特异性特征选择导致与Exp相比的平均下降3%，突出了我们的类特异性特征选择的有用性。虽然丢弃类特定的选择是简单的，因为不需要门控机制，单位总是固定的，我们认为它降低了可靠性，因为性能将强烈依赖于训练数据集中不同类之间的相关性。与端到端修改后的基线进行比较。在Exp中，我们没有将BoosterNet与核心网络级联，而是修改了核心网络架构（RN 50），删除了最后一层，并在其上添加了Booster-Net（参见mod-RN50）。我们在MNIST上以端到端的方式训练mod-RN 50，使用100个epoch的交叉熵损失，1 e-5的恒定学习率和32的批量大小。我们在Exp中观察到mod-RN 50与RN 50基线相比性能有所改善，但性能落后于使用BoosterNet作为单独网络的性能（Exp，表1）。与SOTA DG方法的比较。我们将我们提出的方法与来自不同类别的现有DG方法进行了比较：1）数据增强： Mixup [61] （ Exp）、 M-ADA [42]（Exp），JiGen [4](Exp）和UgMG [41]（Exp），2）对抗训练：PAR [53]（Exp）和Self-super [17]（Exp），3）特征对齐：CCSA [37]（Exp）。我们在表1中报告了结果。显然，BoosterNet优于所有方法，除了SYN上的UgMG更好，3%，但平均所有测试域的性能都低于BoosterNet.最差的性能属于Mixup和CCSA，因为前者中训练对的生成仅以凸方式进行，而后者中的对比度损失应用于单个训练域，但通常需要多个训练域以避免过度拟合。5.4. 皮肤病变重复同样的实验。我们对我们的第二个基准数据（皮肤病变）重复了所有实验，并在表2中报告了结果。我们注意到一个类似的趋势（即，负相关）。然而，与基线相比，Booster-Net遭受的损失更少，泛化能力也有显著提高（Exp - vs Exp-）.在剩下的基于皮肤的实验中，我们使用RN18作为网络的核心架构，因为它具有最好的平均性能。从表2中，我们观察到，如果不包括BoosterNet的三个组件中的任何一个，即，在情景训练（Exp）、基于过失的特征排序（Exp）和类特定选择（Exp）中，与Exp相比，性能分别下降了6.2%、25.2%和9.7%。为了进一步评估性能，我们将BoosterNet与三种DG方法进行了比较，这三种DG方法先前被证明能够在医学成像数据上跨OOD域进行推广：修改后的CCSA [58]（Exp），MixUP [61]（Exp）和LDDG [29]（Exp）。BoosterNet在所有OOD领域的表现都优于SOTA变化的影响，我们研究了改变我们使用的两个经验设定参数的影响：具有最低和最高罪责分数的罪犯单位的百分比年龄（参见分别为10%和10%图3中的左侧和中间图报告了Boost-erNet在分布内（HAM）和OOD验证集上的分类性能，这些验证集使用不同的权重百分比值进行训练（对于OOD测试集，我们将四个OOD域的结果进行平均）。&将结果与Exp中的基线进行比较，我们观察到两个有趣的结果：1）仅使用判别特征训练BoosterNet（参见第1行）在HAM上的结果比在平均OOD集上的结果更好，但在这两种情况下，改进都是最小的，以及2）仅使用混淆特征进行训练（参见第1列）降低了BoosterNet在HAM上的性能，但显著提高了它在OOD上的性能。从这些结果中，我们得出结论，从混淆特征中学习对于在OOD域上实现更高的泛化性能更为关键，但仍然需要区分特征来平衡学习并避免忘记属于分布数据的一些预测特征。从验证结果来看，我们最终通过皮肤病变基准的所有实验，分别将Risk和Risk设置为20%和30%，并且这些值被证明是在所有域测试集上评估BoosterNet时的最佳值（平均分布和OOD），如图3中的右图所示。注：在数字实验中选择10%和10%时，进行了类似的分析。与级联BoosterNet的比较。在最后的实验中，我们试图回答这个问题：我们能增强BoosterNet吗？为此，我们研究了级联多个BoosterNet的效果，这样每个模块的目标都是提高前一个模块的性能。我们为所有分支选择了一个统一的架构（常规ConvNet），并遵循相同的过程从先前的545A OFE∼表2.皮肤病变评价：实验的测试集分类结果 -.（-）表示未使用BoosterNet。将“0”和“0”分别设置为20%和30%。ET和CT分别是情景训练和常规训练的缩写。所有实验中的训练集都是HAM训练集。实验装置测试数据集中的分类准确度%（R偏移值）平均分类±标准差（%）Exp网络ABoosterNet培训火腿DMFD7PMSKUDA基线一RN18–83.75（0.0136）30.86（0.9895）39.68（0.892）48.91（0.626）59.32（0.617）52.50±18.26BRN50–82.12（0.0351）31.45（0.332）37.81（0.204）45.71（0.146）58.07（0.136）51.03±17.90CRN152–81.92（0.0413）28.46（1.32）38.36（1.09）43.9（0.979）57.25（0.758）49.98±18.48DVGG16–79.15（0.092）24.94（1.43）33.82（1.17）50.21（0.901）63.57（0.882）50.33±19.61BoosterNet（拟议）ERN18ET85.54（0.081）72.64（0.197）62.51（0.341）68.39（0.281）79.58（0.151）73.71± 8.11FRN50ET84.14（0.093）71.94（0.201）62.01（0.362）67.81（0.310）76.9（0.177）72.56±7.57GRN152ET81.64（0.099）67.38（0.295）61.89（0.400）66.26（0.351）77.34（0.163）70.91±7.37HVGG16ET80.2（0.146）68.17（0.313）60.35（0.454）63.69（0.392）76.24（0.196）69.73±7.46BoosterNet无事件训练我RN18CT.76.3468.2857.9562.0872.8367.49±6.74BoosterNet无罪责排序JRN18ET69.8435.2638.6733.765.1848.53±15.64BoosterNet无类特定罪责特征选择KRN18ET80.6153.2551.9563.2771.0564.02±10.83训练端到端修改后的网络ALmod-RN18CT79.6342.5744.856.3270.5158.76±14.39与SOTA的M修改CCSA [58]–76.9431.4252.8345.5949.6751.29±14.76N[61]–78.1334.4140.9231.7243.1345.66±16.75OLDDG [29]–75.2429.3452.4748.8757.0152.58±14.74图3. BoosterNet在分布验证集（左）、平均OOD验证集（中）和平均测试集（右）上对不同的%%进行&图4.级联BoosterNets在分发和OOD验证集上的性能。实验A中的RN18用作参考。网络，其中，k=20%，k=30%是固定的。在HAM和平均OOD测试集上实现的分类准确度如图4所示。虽然我们观察到使用级联BoosterNet的分发和OOD集的性能有所改善，但改进并不像第一个BoosterNet之后那样显著，最终导致单独表演暹罗门。我们进一步量化了Siamese网络门在通信中的性能，以正确的地面真值类和类预处理。由BoosterNet提供。门的分类准确率为65.8%和56.7%，分别比BoosterNet在Exp on MNIST Exp on皮肤病变中的结果差13%和17%&我们认为，虽然暹罗网可以学习可分离的类表示，这些都不是generalizable足以OOD数据。尽管如此，作为一种门控机制，暹罗网络仍然是有用的，因为它捕获了超出类间共同特征的类特异性模式，如消融研究3中所观察到的。6. 结论我们提出了BoosterNet，这是一种简单而有效的附加网络，能够通过学习从核心网络中提取的区分和混淆特征来提高任意核心 DNN 的泛化能力，该BoosterNet不需要改变核心网络架构或学习方案，这使得它非常适合实际应用中的非专业DNN用户。通过一组全面的实验，我们在两个应用领域的基准测试数据上验证了BoosterNet，并显示出与基线和SOTA一致的OOD域的改进泛化我们工作中的一个限制是训练应该包含所有可能的类;否则BoosterNet将无法将测试图像分类为新的不可见类。未来的工作包括改进性能，如果测试图像属于网络以前没有见过的类，BoosterNet可以放弃并将其分配给未知类。546引用[1] Lucia Ballerini ， Robert B Fisher ， Ben Aldridge ， andJonathan Rees.基于颜色和纹理的分层K-NN方法对非黑色素瘤皮肤病变进行分类。彩色医学图像分析，第63-86页。Springer，2013. 5[2] Nourhan Bayasi，Ghassan Hamarneh，and Rafeef Garbi.罪犯修剪网：高效连续顺序多域学习，应用于皮肤病变分类。医学图像计算和计算机辅助干预国际会议，第165斯普林格，2021年。3[3] Jane Bromley、Isabelle Guyon、Yann LeCun、Eduard S ¨ckinge r和RoopakShah。基于“连体”时延神经网络的签名验证神经信息处理系统进展，第737-737页，1994年。4[4] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的领域泛化。在IEEE/CVF计算机视觉和模式识别会议论文集，第2229-2238页，2019年。六、七[5] John S Denker，WR Gardner，Hans Peter Graf，DonnieHenderson，Richard E Howard，W Hubbard，LawrenceD Jackel，Henry S Baird，and Isabelle Guyon.手写邮政编码数字的神经网络识别器神经信息处理系统的进展，第323-331页。Citeseer，1989年。5[6] Qi Dou ， Daniel Coelho de Castro ， KonstantinosKamnitsas，and Ben Glocker.通过语义特征的模型不可知学习的领域泛化神经信息处理系统的进展，32：6450-6461，2019。2[7] Yingjun Du，Xiantong Zhen，Ling Shao，and Cees GMSnoek.元数据：学习跨域规范化少数批次。在2020年国际学习代表会议上。1[8] AbhimanyuDubey ， VigneshRamanathan ， AlexPentland，and Dhruv Mahajan.真实世界域泛化的自适应方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第14340-14349页1[9] Xinjie Fan ， Qifei Wang ， Junjie Ke ， Feng Yang ，Boqing Gong，and Mingyuan Zhou.单域推广的逆向自适应规范化。在IEEE/CVF计算机视觉和模式识别会议论文集，第8208-8217页，2021年。一、二[10] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。国际机器学习会议，第1126-1135页。PMLR，2017年。2[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议，第1180-1189页。PMLR，2015. 5[12] RobertGeirhos，J？rn-HenrikJacobsen，ClaudioMichaelis ， Richard Zemel ， Wieland Brendel ，Matthias Bethg

下载后可阅读完整内容，剩余1页未读，立即下载