深度学习模型中的域转移问题及梯度手术的研究

118 浏览量更新于2023-10-15 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6630通过梯度手术的Lucas Mansilla Rodrigo Echeveste Diego H.米隆·恩佐·费兰特信号、系统与计算智能研究所（Research Institute for Signals，Systems and ComputationalIntelligence，sinc（i））天气-圣达菲，阿根廷{lmansilla，recheveste，dmilone，eferrante} @ sinc.unl.edu.ar摘要在现实生活中的应用中，机器学习模型的10面的情况下，有一个变化的数据分布之间的训练和测试域。当目标是对不同于训练时看到的分布进行预测时，我们会遇到域泛化问题。解决此问题的方法使用来自多个源域的数据学习模型我们的假设是，当使用多个域进行训练时，每个小批量内的冲突梯度包含特定于与其他域（包括测试域）无关的各个域的信息如果不加以处理，这种分歧可能会降低泛化性能.在这项工作中，我们charterized域转移的情况下出现的冲突梯度，并设计新的梯度协议的基础上梯度手术，以减轻其影响的战略。我们使用三个多域数据集在图像分类任务中验证了我们的方法，显示了所提出的一致性策略在增强域转移场景中深度学习模型的泛化能力方面的价值。1. 介绍深度学习模型在不同的应用领域表现出了显著的效果，例如图像理解[13，28]，语音识别[10，19]和自然语言处理[24，26]。这样的模型通常在标准监督学习范式下训练，假设训练和测试数据来自相同的分布。然而，在现实生活中，训练和测试条件可能因若干因素而不同，例如数据采集设备或目标群体的变化。这使得模型在应用于分布与训练数据不同的测试数据时表现不佳，因此限制了它们在这种真实场景中的实现。然后，目标是开发在域转移条件下在训练分布之外泛化的深度学习模型。PACs艺术卡通照片素描VLCSCaltech101 LabelMe SUN09 VOC2007办公室-家庭艺术剪贴画产品现实世界图1.从三个多域数据集提取的示例图像：PACS [15]、VLCS[6]和Office-Home [29]。领域泛化的目标是训练一个模型，该模型在从与训练期间所见不同的领域采样的数据上表现良好。使用来自不同领域的数据学习模型，然后将其应用于训练期间未看到的新领域，这需要域泛化（DG）问题[8]。在DG文献中，训练域通常被称为源域，而测试域被称为目标。问题本身是非常具有挑战性的，因为在训练期间甚至无法访问来自目标域的未标记数据。因此，必须在没有关于目标域的信息的情况下训练模型。在图像分类的特定情况下，例如，不同的域可以在它们的视觉特性方面不同，例如，在视觉特性方面不同。摄影图像或更抽象的表现形式，如绘画和素描（见图1的视觉示例）。在这种情况下，主要的挑战是如何指导学习过程，以便6631捕获与任务相关并且不受域变化影响的信息。为了应对DG固有的挑战，随着时间的推移，已经制定了不同的战略。拟议工程主要集中于：i）训练和融合多个领域特定模型[33，18]，ii）从多个源领域学习和提取公共知识，例如领域不变表示[20，7，16]或领域不可知模型[11，15，14]，以及iii）通过数据增强增加数据空间[25，2，30]。最近，在存在域转移[8]的情况下，关于模型选择已经做出了重要贡献，这在大多数以前的工作中被忽略。尽管机器学习和计算机视觉社区做出了巨大的努力，但通过当前领域泛化技术获得的性能增益仍然是适度的[2，5]。因此，进一步的研究仍然是必要的，以更好地了解这一现象背后的原因与以前的方法相比，在这项工作中，我们特别感兴趣的是了解多域梯度干扰域泛化的影响。最近的工作[35]在多任务学习（MTL）[3]的背景下分析了这个问题。作者发现，MTL中的主要优化问题之一来自于不同任务的梯度相互冲突，这种方式不利于取得进展。我们的工作的主要假设是，多个域也让位于相互冲突的梯度，这是与不同的域，而不是任务。我们的特点，冲突的梯度出现在域转移的情况下，并设计新的梯度协议策略的基础上梯度手术，以减轻其影响。梯度手术框架在[35]中引入，以解决多任务学习，并且植根于一个简单而直观的想法。通常，使用梯度下降来训练深度神经网络，其中梯度通过损失景观来引导该景观由损失函数和训练数据定义。在MTL中，针对每个任务采用不同的损失函数。这可能导致冲突的梯度，即当与不同的任务相关联时可以指向相反方向的梯度。处理冲突梯度的常用方法是将它们平均。然而，[35，17]的工作最近表明，简单地平均它们可能导致显着降低的性能。与MTL不同，在域一般化中，任务保持固定，但我们必须处理不同的域。在这里，我们假设在使用多个域进行训练时会出现类似的冲突在这种情况下，每个小批量内的冲突梯度包含特定于各个训练域的信息，该信息与测试域无关，并且如果保持不变，将降低泛化性能。因此，我们的目标是通过更新的神经权重在di-鼓励源域之间的梯度一致的反应。在三个多域数据集的图像分类任务中进行的广泛评估证明了我们的一致性策略在增强域转移条件下深度学习模型的泛化能力方面2. 相关工作领域泛化。由于DG旨在改善源域和目标域之间存在统计差异的场景中的模型性能，因此它与域适应（DA）[31]密切相关，其中也解决了域转移。然而，虽然DA假设我们可以访问来自目标域的（标记或未标记的）数据样本，但DG假设这些数据样本在训练期间不可用。因此，DG方法必须寻求解决方案以更好地利用在训练期间可访问的来自多个源域的信息希望是，提取所有源域共有的知识将导致更鲁棒的特征，在看不见的目标域中可能有用。迄今为止提出的DG方法可以根据它们用于实现泛化的策略来划分。一组方法是基于为每个源域训练特定分类器的想法，然后通过测量源域和测试样本之间的相似性来最佳地组合它们[33，18]。其他研究提出使用数据增强算法来减少跨域的差距[25，2，30]。另一种方法假设所有领域都有一个共同的知识，可以从多个来源获得并转移到新的领域。一些研究通过寻求通过基于内核的模型[20]、多任务自动编码器来[7]和生成对抗网络[16]。代替域不变特征表示，其他方法提出提取域不可知参数，以通过最大边缘线性模型[11]，低秩参数化CNN [15]和元学习[16，5]来解决泛化问题。MTL背景下的梯度手术。MTL目标通过利用来自一组相关任务的领域特定信息来提高泛化性能[3]。为了实现这一点，MTL技术通常通过假设存在可以学习的跨任务的共享结构来为所有任务联合在实践中，训练可以解决多个任务的模型是困难的，因为需要定义用于平衡和控制多个任务的适当策略。梯度手术指的是已经引入的许多技术，其通过在优化期间直接对个体任务特定梯度进行6632ND {}·L··N我JJj=1JJK否则，K其中sgn（·）是符号函数，并且表示第k个Chen等人[4]引入梯度归一化算法（GradNorm），该算法通过缩放任务特定梯度动态的幅度来cally，允许不同的任务以相似的速率进行训练。Yu等人[35]讨论冲突梯度问题，通过最小化以下目标来训练模型：θ=arg min1ΣL（θ）+λR（θ），（1）θ角i=1当不同任务的梯度指向由负余弦相似性给出的相反方向时，产生梯度冲突，并提出PCGrad，一种减轻梯度冲突的方法。PCGrad通过将一个任务的梯度投影到另一个任务的梯度的正常分量上来消除引起干扰的分量，从而减轻负余弦相似性问题。最近，Wang etal.[32]通过提出自适应梯度相似性方法（GradVac）来概括该思想，该方法允许为每个任务对设置单独的梯度相似性目标，以更好地利用任务间的相关性。捐款. 在这项研究中，我们提出了一个梯度手术策略来解决域泛化问题。受以前多任务学习工作的启发，我们描述了在具有多个域的单任务场景中出现的冲突梯度正如预期的那样，我们表明，域内梯度往往表现出更高的相似性比他们的域间对应，并提出新的梯度协议的变种，以鼓励学习那些歧视性的功能，是共同的所有领域。我们的研究结果表明，通过协调域间梯度，在共同一致的方向上更新神经权重有助于创建更强大的图像分类器。与标准梯度下降和现有的PCGrad技术相比，我们的协议策略往往会产生在看不见的图像域中具有更好的泛化性能的模型3. 方法3.1. 领域概括在DG设置中，我们可以访问由N个源域=D1，D2 ， … 其中第 i 个域由数据集 Di={ （ x（ i ）， y（i））}Mi表征包含Mi个标记的数据点，其中R（）是被包括以防止过度拟合的正则化项，而参数λ控制其重要性。后当在源域上进行训练时，在目标域上评估具有学习参数的最终模型，其中样本可以来自不同的分布。3.2. 通过梯度手术的用于训练具有多个源域的分类模型的典型策略是通过以相等概率从所有源随机采样来简单地创建小批量。在这种情况下，然后使用标准的小批量梯度下降来优化在等式2中定义的目标函数。1.一、根据关于域泛化的文献[5，2]，我们将这种方法称为Deep-All。在这里，我们建议通过在更新神经权重之前并入梯度手术步骤来修改标准的小批量梯度下降，同时优化等式中定义的目标函数。1.一、我们的方法的目标是通过修改梯度更新来调整模型参数θ，使得它们指向改善所有域之间的一致性的方向。这种协调步骤将根据与每个域相关联的梯度向量的相应分量的符号来定义直观地说，给定一组梯度向量（每个域一个），我们将通过保留指向相同方向的那些分量（即，具有相同符号的那些）和修改冲突的组件。在这里，我们定义了两种不同的策略来处理冲突的组件：我们要么将它们设置为零（我们将此策略称为Agr-Sum），要么为它们分配随机值（我们将其称为Agr-Rand）。在下文中，我们将详细讨论所提出的方法Agr-Sum共识战略。给定一组训练源域，我们首先从每个源域中抽取一个小批源头接下来，我们会向前传球穿过球网并且所有域具有相同数量的类。的目标是学习分类函数f（x（i）;θ），其预先工作，并计算域损失Li和相应的Jdicts对应于输入x（i）的类标签y（i），在所有源域中具有竞争性性能，但也可以推广到看不见的目标域。这里，θ表示要学习的模型参数对于多个源域，我们将训练成本函数定义为平均值响应梯度g（i）=θi（θ）。为了测量域梯度之间的一致性，我们定义以下函数：.1，sgn（g（1））=…=sgn（g（N ））所有源域的年龄损失L（θ）=1ΣNL（θ），0，Ni=1我（二）Mij=1JJ其中Li（θ）=1ΣMi。f（x（i）;θ），y（i）Σ表示（一）与第i个域相关的丢失。函数（，）是分类损失，例如交叉熵，它测量预测的标签y和真实标签y之间的误差。We与第i个源do相关联的梯度的分量。main.梯度一致函数Φ逐元素检查梯度分量的符号是否匹配。当Φ（g⑴，… g（N））k=6633| |p⟨⟩.ΣK.Σ× × → {}Σ∈A |p|̸对于给定的k，所有分量具有相同的符号，它返回1;如果存在任何差异，则返回 0 。换句话说， Φ ：Rn. . . ...这是什么？Rn0，1n取一组N个梯度向量作为输入，并返回一个相同大小n的新二进制向量。注意，梯度向量的总大小将由神经参数的数量给出，即n=θ。Φ充当逐组分指示函数，其中1指示一致，0指示冲突。在计算复杂度方面，可以得出Φ被应用于N个域梯度，因此它随着训练域的数量而缩放。域的数量预计不会很大（在我们的情况下N=3），因此避免了针对大N值的计算要求的潜在问题。下一步是定义共识梯度g* 的每个分量的值，它将用于更新模型参数θ。为此，我们采用两个则σ2=（1g*）2。通过这种方式，我们可以分配位置iv e或n g a t|iAve|从受控样本中抽取的随机值范围3.3. 基线模型我们将所提出的方法与遵循标准方法（Deep-All）的基线Deep-All使用标准的小批量梯度下降，其中小批量是通过从所有源域随机采样图像来构建的。PCGrad [35]获取任务i并计算梯度g（i）和不同任务j的梯度g（j）之间的余弦相似性;如果值为负，则通过将其投影到g（j）的法平面上来替换g（i），即：不同的规则取决于Φk返回的值。g*的k分量的值定义如下：Kg（i）=g（i）−g（i），g（j）2g¨g（j） ¨（j）.（五）gk*=Ni=1g（i），如果Φk=1（三）该过程在所有其他任务j=i采样中重复随机排列。最后，所有的投影任务梯度0，如果Φk= 0。注意，Φk=1指示梯度分量k沿着所有域一致，因此我们继续求和相应的值。相比之下，当不存在一致性（Φk= 0）时，我们通过将其设置为零来解决冲突。通过这种方式，我们避免了在没有共识的情况下更新神经权重，减少了域之间有害的梯度干扰。Agr-Rand共识战略。我们还提出了一种替代策略，该策略使用与Arg-Sum相同的方法通过一致性函数Φ来检测冲突的梯度分量，但在如何解决冲突方面有所不同。因此，当完全一致时（即当Φk=1时），我们对梯度分量求和。然而，Agr-Rand不是在冲突分量不一致时（即，当Φk=0时）将其设置为0，而是通过从正态分布中采样来为一致性梯度分配随机值，如下所示：g（i）求和以获得最终梯度。地调动广大知识通过考虑域梯度而不是任务梯度，将该想法应用于DG上下文我们还在比较中包括四种 DG 最新技术水平（SOTA）方法：不变风险最小化（IRM）[1]、元学习域泛化（MLDG）[14]、域间混合（Mixup）[34]和组分布鲁棒优化（DRO）[23]。对于这些方法，我们将[8]中的可用实现改编为我们的框架。4. 实验和结果4.1. 数据集详细信息我们在三个众所周知的多域图像分类数据集上评估了我们的方法：PACS [15]、VLCS[6]和办公室-家庭[29]。PACS包括4个领域的9，991张图像：美术（A）、漫画（C）、照片（P）和素描（S）;和7个类。VLCS包含4个域的10，729张照片图像：Caltech101（C），LabelMe（L），SUN09（S）gk*=Ni=1 g（i），如果Φk=1（四）和VOC 2007（V）;分为5个班级。办公室-家庭包含15，588张日常物品的图像，分为4个部分gk*N（0，σ2），若Φk=0.这种方法背后的基本原理是，将冲突的组件归零因此，通过分配以0为中心的随机值，我们可以避免这种影响。注意，高斯分布具有零均值，其方差由σ2给出。我们根据g*中一致的分量的平均绝对值定义σ2，从而换句话说，如果我们用A表示指数p的集合使得Φp=1，领域：艺术（A）、剪贴画（C）、产品（P）和现实世界（R）; 65个班级图1显示了这些数据集的一些示例。PACS和Office-Home比VLCS更具挑战性，因为它们提供非摄影视觉领域（例如绘画和草图），导致更明显的领域变化。由于PACS中的所有图像均为227x227，而VLCS和Office-Home中的图像大小不同，因此我们将VLCS和Office-Home中的所有图像大小调整为227 x227，以便图像大小在所有数据集中保持6634为了衡量我们的方法的泛化性能，我们采用了leave-one-domain-out策略，即保持一个域用于测试并且使用剩余的域用于训练。对于所有数据集，我们将每个域随机分为训练（70%），验证（10%）和测试（20%）子集。请注意，用于构建训练集和验证集的图像将来自多个源域，与用于测试的图像不同。为了测试，我们选择了在验证集上实现最高准确度的模型，并在保持域的测试子集上对其进行评估4.2. 实现细节网络架构：按照以往作品[15，5，2]，我们选择了一个著名的CNN架构进行图像分类，然后在源域上对网络进行微调。对于所有方法，我们使用了在ImageNet [22]上预训练的AlexNet [13]，并重塑了最后一个全连接（FC）层，使其输出数量与相应数据集中的类数量相同（7个PACS，5个VLCS和65个Office-Home）。注意这里我们选择了这是一个相对简单的架构，因为它训练起来更快，并用作概念验证来分析梯度手术方法对域泛化的影响。因此，我们关注梯度手术相对于基线Deep-All模型的相对改善。然而，由于我们的方法对模型架构是不可知的，因此可以使用产生更高基线结果的更复杂的网络（如ResNet [9]或Inception [27]）。实施情况：所有实验都在PyTorch [21]中实现，并在具有CPU Intel Core i7- 8700，32 GB RAM和NVidia TitanXp GPU的机器上运行。我们在1000次迭代或收敛期间使用交叉熵损失函数训练所有模型，每20步验证在每次训练迭代中，我们从每个源域中随机抽样一批大小为128的样本。对于优化，我们使用Adam优化器[12]，并且作为正则化技术，我们采用了权重衰减。使用验证集通过网格搜索调整学习率和正则化参数λ，并且对于所有方法和数据集，所得值分别为1 e-5和5e-5。14.3. 多区域的梯度表征我们的工作假设是，当用多个域进行训练时，每个小批量内的冲突梯度包含特定于各个域的信息，这些信息与其他域（包括测试域）为了阐明这一问题，我们设计了一项研究，以表征在多个领域进行训练时出现的梯度。我们测量内部梯度的相似程度1我们的源代码可在https://github.com/lucasmansilla/DGvGS上公开获取。并且在域之间使用余弦相似性。为了避免由不同类给出的可能干扰，我们决定在每次训练迭代中使用来自同一类的数据在训练过程中，我们从每个源域中采样一个小批量，注意在每次迭代中我们只从给定的类中选择样本。对于小批量的每个样本，单独计算损失函数的梯度。然后通过余弦相似性来测量梯度之间的对齐，考虑来自相同域和来自不同域的梯度对。图2显示了PACS、VLCS和家庭办公室数据集域内和域间的平均余弦相似性。注意，在所有情况下，梯度倾向于在域内比在域之间表现出更高的相似性。这证实了成对的域间梯度比域内梯度携带更多的冲突信息。在下一个实验中，我们将证明通过鼓励梯度一致性来减少这种干扰往往会改善未知领域的生成。4.4. 评估梯度手术对领域泛化在本实验中，我们评估了所提出的梯度手术策略对改善域生成的影响。为了说明由于网络初始化而可能产生的差异，我们对数据集、方法和保留域的每种组合进行了20次独立运行。对于他们中的每一个，我们报告的平均精度上的测试子集的举行了域。结果示于图3和表1中。我们评价了Deep-All（基线）和其他方法报告的平均准确度之间的统计学差异：替代梯度手术方法（Agr-Sum、Agr-Rand和PCGrad）和SOTA方法（IRM、MLDG、Mixup和DRO）。我们使用配对Wilcoxon检验来确定平均差异的统计学显著性（显著性水平为0.05）。图3显示了不同方法在PACS、VLCS和Office-Home数据集上的准确性。在PACS中，我们可以观察到Agr-Sum和Agr-Rand在4个目标领域中的3个（艺术绘画、卡通和素描）中显著优于Deep-All基线。类似地，在办公室-家庭中，上述方法提高了4个目标领域中的3个目标领域（艺术、剪贴画和真实世界）中的泛化性能。在VLCS中没有观察到有利于使用特定方法而不是不同方法的性能改进。这可能是由于VLCS的总体准确性已经高于PACS和Office-Home。这一事实可能比其他情况下留下更小的改进空间此外，在VLCS中，所有域都对应于照片，而在PACS和Office-Home中，我们还可以找到艺术绘画、卡通、剪贴画和草图（见图6635*----***--- -*****----图2.标准训练程序的PACS、VLCS和家庭办公室数据集的域内和域间的平均梯度余弦相似性。每个图表示用于训练的源域的不同组合我们观察到，为相同域（域内，红色）的图像计算的梯度比来自不同域（域间，蓝色）的图像表现出更高的余弦相似性这个实验支持我们的假设冲突的梯度出现在多领域的情况下。图3. PACS、VLCS和Office-Home数据集上留一域评估的准确性。目标域（在训练期间不可见）在每组箱形图下方指定每个箱形图代表20次独立运行;框显示从下四分位数到上四分位数的值方法箱形图上方的星号（*）表示根据配对Wilcoxon检验，该方法和Deep-All的平均值之间的差异在0.05水平下具有显著性1用于视觉示例）。建议的梯度协议策略似乎是更有用的，在这样的多模态sce- narios。这与先前工作[15]中的观察结果一致，该工作报告了PACS的域间特征的Kullback-Leibler发散大于VLCS ，并且PACS 相对于Deep-All基线的改进大于VLCS表1中报告了每种方法在所有领域的平均准确度和标准差。从这些结果可以看出，Agr-Sum、Agr-Rand和PCGrad在12个评价中的8个中，其表现优于Deep-All和SOTA方法（6个Agr-Sum、1个Agr-Rand和1个PC-Grad）。此外，在每个数据集内，Agr-Sum和Agr-Rand在PACS和Office-Home中的平均性能优于Deep-All和SOTA方法，并且它们在VLCS中具有竞争力总体而言，我们观察到，显着的改进有利于使用Agr-Sum协议策略，特别是在具有明显的域转移的情况下。此外，梯度手术相对于基线Deep-All模型实现的相对改善实际上与6636在以前的作品[15，5，2]。当在领域泛化的背景下将所提出的梯度手术策略（Agr-Sum和Agr-Rand）与PCGrad进行比较时，我们观察到PCGrad在大多数情况下倾向于复制Deep-All的结果。换句话说，在这种情况下，梯度手术未能显著提高性能。然而，当用于MTL设置时，PCGrad已被证明是有效的，如[35]所述。为什么PC- Grad在我们的研究中没有帮助，这还有待阐明。一个可能的原因是，与多任务情况相比，在多域场景中出现了梯度冲突方面的更微妙的差异。Agr-Sum和Agr-Rand所遵循的战略即归零或将随机值分配给冲突分量似乎比投射到其他任务的正常分量上更积极。因此，PCGrad可能足以协调梯度并在MTL的上下文中产生然而，验证这一假设将需要实施一个实验设置，允许在类似条件下的多域和多任务学习之间的比较。需要进一步的研究来确认这一假设，这将作为未来的工作。我们还进行了对照实验，以分析通过我们的梯度手术获得的改善是由于域间梯度一致性，还是仅仅是来自梯度手术本身的简单正则化效应。为此，我们评估了在多个批次上训练具有梯度手术的模型的效果，其中每个批次从不同的域（多域）采样，与在从在每次训练迭代中随机选择的单个域（单域）采样的多个批次上训练相比。注意，在这两种情况下，我们使用3个域进行训练，不同之处在于，在单个梯度下降迭代期间，梯度g（i）在多域中，它们来自不同的域，而在单域中，它们来自同一个域。图4显示了使用多域和单域批次在PACS上对Agr-Sum、Agr-Rand和PCGrad进行20次独立运行的平均准确度。从这些结果中，我们可以注意到，当使用多域批次进行训练时，在4个目标域中的3个目标域中存在有利于Agr-Sum和Agr-Rand的准确性差异这表明梯度一致性通过促进分批中的域间梯度一致性而有助于有效地提高泛化性能5. 结论在这项工作中，我们研究了多域梯度干扰在域泛化中的影响我们对域内和域间梯度的表征证实了最初的假设图4.PACS上的对照实验，比较使用多域批次（白色）与单域批次（灰色阴影）的梯度成对的域间梯度比域内梯度携带更多的冲突信息。在三个多域数据集上的实验表明，梯度一致性策略在减少域间干扰方面是有用的，并且倾向于提高未知领域的泛化能力我们与Deep-All基线、PC-Grad协议策略和SOTA方法的比较研究表明，所提出的Agr-Sum方法在大多数情况下优于其他这种改进在域转移导致基线模型性能差的情况下更明显。PACS中的目标域A、C和S或Office-Home中的目标域A和C就是这种情况，它们呈现出低基线性能，当使用Agr-Sum时，该性能得到显著改善。提出的梯度手术方法是不可知的以建模架构并且不增加超参数的数量。在未来，我们计划在训练更复杂的深度神经架构时探索它们的影响，这应该会带来更高的性能。致谢我们感谢悉达多·钱德拉的有益评论和讨论。作者感谢NVIDIA公司捐赠用于本研究的GPU，以及UNL（ CAID-0620190100145 LI 、 CAID-50220140100084LI）和ANPCyT（PICT）。这项工作得到了阿根廷国家科学技术研究委员会（CONICET）的支持引用[1] 马丁 · 阿吉奥 vsky， Le'onBottou ， IshaanGulrajani 和 DavidLopez Paz。不变风险最小化。arXiv预印本arXiv：1907.02893，2019。四个[2] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。领域泛化6637方法培训计划基线梯度手术SOTA数据集源目标Deep-AllAg-Sum农业-兰德PCGradIRMMLDGMixupDROC、P、S一55.98（1.75）58.13（1.65）56.51（1.48）55.70（2.02）54.59（1.98）*55.88（1.92）55.88（1.65）54.96（1.55）A、P、SC57.80（2.21）61.52（1.21）60.99（1.55）*57.47（1.79）57.72（2.37）57.99（2.14）58.08（1.95）58.36（2.32）PACsA、C、SP86.87（1.22）86.18（1.09）86.41（1.25）86.47（1.25）86.30（1.23）86.63（1.14）84.55（1.76）*86.63（1.03）A、C、PS54.90（3.28）57.35（3.29）57.27（2.97）55.46（2.91）53.86（4.22）55.18（4.24）50.81（4.08）53.21（3.70）Avg.63.8965.8065.3063.7763.1263.9262.3363.29L、S、VC92.40（1.81）93.00（0.94）93.14（1.28）93.23（1.50）93.29（1.61）93.18（1.45）92.54（1.96）92.44（1.23）C、S、VL58.78（1.07）59.30（1.07）59.02（1.12）58.56（1.17）59.22（1.49）58.55（1.11）59.02（1.12）58.40（1.04）VLCSC、L、VS63.96（1.63）62.98（1.85）*62.50（1.68）*63.89（1.25）64.16（1.87）64.11（1.70）64.98（1.40）64.11（1.17）C、L、SV67.49（1.49）67.15（1.10）67.15（1.58）68.14（0.97）67.57（1.41）67.10（1.07）67.68（1.38）67.08（1.53）Avg.70.6670.6170.4570.9671.0670.7471.0670.51C、P、R一33.84（1.14）35.32（1.02）*35.75（0.86）*33.82（1.12）33.07（1.28）33.73（1.55）35.69（1.51）*33.25（1.55）A、P、RC34.99（1.37）（0.88）*36.12（0.88）*34.94（1.18）34.34（1.07）35.10（1.08）35.74（0.87）35.27（0.95）办公室-家庭A、C、RP54.06（0.95）54.22（1.06）54.22（1.06）54.49（1.30）52.16（1.26）54.85（1.03）55.20（1.02）*54.28（0.97）A、C、PR55.95（0.89）（0.78）*57.95（0.70）*55.71（0.84）（0.89）*56.27（0.98）（0.86）*55.84（0.88）Avg.44.7146.0946.0144.7443.5944.9945.9944.66表1. PACS、VLCS和Office-Home数据集上的留一域评估的平均准确度和标准差。对于每个数据集，我们还报告了不同方法在所有目标域上的平均准确度。在给定目标域上实现最高准确度的方法在每行中以粗体指示。星号（*）表示相对于Deep-All的差异具有统计学显著性。通过解决拼图游戏。在IEEE计算机视觉和模式识别会议集，第2229-2238页二三五七[3] 瑞奇 · 卡鲁阿纳多任务学习。Machine learning ， 28（1）：41-75，1997. 二个[4] Zhao Chen，Vijay Badrinarayanan，Chen-Yu Lee，andAn-drew Rabinovich. Gradnorm：梯度归一化，用于深度多任务网络中的自适应损失平衡国际机器学习会议，第794PMLR，2018。三个[5] Qi Dou ， Daniel Coelho de Castro ， KonstantinosKamnitsas，and Ben Glocker.通过语义特征的模型不可知学习的领域泛化神经信息处理系统，第6450-6461页，2019年二三五七[6] 陈芳，叶旭，丹尼尔·N·洛克莫尔。无偏见的metric学习：利用多个数据集和网络图像软化偏见。在Proceedings of the IEEE International Conference onComputer Vision，第16571、4[7] Muhammad Ghifary ， W Bastiaan Kleijn ， MengjieZhang，and David Balduzzi.用多任务自动编码器进行对象识别的域泛化在IEEE计算机视觉国际会议论文集，第2551-2559页，2015年。二个[8] Ishaan Gulrajani和David Lopez-Paz。寻找失落的领域。arXiv预印本arXiv：2007.01434，2020。一、二、四[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五个[10] Geoffrey Hinton，Li Deng，Dong Yu，George E Dahl，Abdel- rahman Mohamed ， Navdeep Jaitly ， AndrewSenior，Vincent6638Vanhoucke，Patrick Nguyen，Tara N Sainath，等.用于语音识别中声学建模的深度神经网络：四个研究小组的共同观点。 IEEE Signal processing magazine ， 29（6）：82-97，2012. 一个[11] Aditya Khosla，Tinghui Zhou，Tomasz Malisiewicz，Alexei A Efros，and Antonio Torralba.消除数据集偏差的损害。欧洲计算机视觉会议，第 158-171 页。Springer，2012. 二个[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。五个[13] Alex Krizhevsky ， Ilya Sutskever ， and Geoffrey EHinton.使用深度卷积神经网络的图像网分类。NIPS，2012年。一、五[14] Da Li ， Yongxin Yang ， Yi-Zhe Song ， and TimothyHospedales.学习概括：元学习的主要推广。在AAAI人工智能会议上，2018年。二、四[15] DalLi，Yongxin Yang，Yi-Zhe Song，and Timothy MHospedales.更深、更广、更艺术的领域概括。在IEEE计算机视觉国际会议论文集，第5542-5550页一、二、四、五、六、七[16] Haoliang Li，Sinno Jialin Pan，Shiqi Wang，and Alex CKot.领域泛化与对抗性特征学习。在IEEE计算机视觉和模式识别会议论文集，第5400-5409页，2018年。二个[17] David Lopez-Paz和Marc'Aurelio Ranzato。持续学习的梯度情景记忆神经信息处理系统进展，第6467-6476页，2017年2[18] Massimiliano Mancini ， Samuel Rota Bulo ， BarbaraCaputo，and Elisa Ricci.最佳来源：通过特定源网络的域概括。2018年6639图像处理国际会议（ICIP），第1353-1357页。IEEE，2018年。二个[19] 汤姆·马尔斯·米克·洛夫、阿努普·德奥拉斯、丹尼尔·波维、卢克·马尔斯·布尔盖特和扬·切尔诺克。训练大规模神经网络语言模型的策略2011年自动语音识别理解，第196-201页。IEEE，2011年。一个[20] Krikamol Muandet，David Balduzzi，and Bernhard Schoülk opf.通过变量特征表示的域泛化国际机器学习会议，第10-18页，2013年二个[21] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga ， et al. Pytorch ： An imperative style ， high-performance deep learning library.arXiv 预印本 arXiv ：1912.01703，2019。五个[22] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. 图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015. 五个[23] ShioriSagawa ， PangWeiKoh ， TatsunoriBHashimoto，and Percy Liang.用于群移位的分布式鲁棒神经网络：论正则化对最坏情况推广的重要性。arXiv预印本arXiv：1911.08731，2019。4[24] Ruhi Sarikaya，Geoffrey E Hinton，and Anoop Deoras.深度信念网络在自然语言理解中的应用 IEEE/ACMTransactionsonAudio ， Speech ， andLanguageProcessing，22（4）：778-784，2014. 一个[25] Shiv Shankar、Vihari Piratla、Soumen Chakrabarti、Sid-dhartha Chaudhuri、Preethi Jyothi和Sunita Sarawagi。通过交叉梯度训练进行跨领域泛化。arXiv预印本arXiv：1804.10745，201

下载后可阅读完整内容，剩余1页未读，立即下载