没有合适的资源?快使用搜索试试~ 我知道了~
1446领域泛化的情景训练李达1、2、张建枢3、杨永新2CongLiu4,Yi-Zhe Song2 and Timothy M.医院1、2、51三星人工智能中心,剑桥2SketchX,CVSSP,萨里3中国科学技术大学4科大讯飞研究院5爱丁堡大学{d.li,yongxin.yang,y.song}@ surrey.ac.uk,xysszjs@mail.ustc.edu.cncongliu2@iflytek.com,t. ed.ac.uk摘要领域泛化(DG)是学习模型的挑战性和热门问题,其泛化到具有不同于一组已知训练域的统计数据的新测试域。 聚合来自所有源域的数据并在所有数据上端到端训练单个深度神经网络的简单方法提供了一个令人惊讶的强大基线,超越了许多先前发布的方法。 在本文中,我们通过设计一个情景训练过程来建立这个强大的基线,该过程以一种方式训练单个深度网络,使其在运行时暴露于表征新领域的域转移。具体来说,我们将深度网络分解为特征提取器和分类器组件,然后通过模拟每个组件与一个针对当前域调整得很差的合作伙伴进行交互来训练每个组件 这使得这两个组件更加强大,最终导致我们的网络在三个DG基准上产生最先进的性能。此外,我们考虑使用ImageNet训练的CNN作为下游识别任务的固定特征提取器使用Visual Decathlon基准测试,我们证明了我们的episodic-DG训练通过显式训练一个特征来提高对新问题的鲁棒性,从而提高了这种通用特征提取器的性能这表明DG训练可以有益于计算机视觉的标准实践1. 介绍如果机器学习方法应用于统计数据与用于训练它们的数据非常不同的领域,则它们的性能通常会迅速下降 这是域转移的问题,域适应(DA)旨在解决来自目标域的一些标记或未标记数据可用于适应的情况[2,36,22,10,23,4];域生成(DG)旨在解决由于缺乏而无法适应目标问题的情况[27,12,18,33]。的数据或计算。DG是一个特别具有挑战性的问题设置,因为不允许对目标进行明确的训练;然而,由于其缺乏假设,它特别有价值。例如,具有一个领域通用的视觉特征提取器将是有价值的,该提取器作为任何新问题的表示,即使没有微调也表现良好。DG挑战的重要性导致了文献中的这些跨越了鲁棒的特征空间学习[27,12],专门设计用于使域偏移具有鲁棒性的模型架构[16,39,17]以及专门设计的用于优化标准架构的学习算法[33,18],旨在使其适合更鲁棒的最小值。在所有这些努力中,事实证明,将所有训练域的数据聚合在一起并端到端训练单个深度网络的天真方法[17]与最先进的方法相比非常具有竞争力,并且比许多已发表的方法更好-同时比更高速率的替代方案更简单,更快。在本文中,我们的目标是建立在这种简单的数据聚合策略的强度和简单性的基础上,但改进了通过设计一个情景式的训练计划来改善DG。情景训练的范式最近在少数镜头学习领域得到普及[9,28,34]。在这个问题中,目标是使用大量的背景源数据,训练一个模型,该模型在适应新的目标问题时能够进行少量然而,尽管有数据可用性,但对所有源数据的训练将不能反映目标少量学习条件。因此,为了以反映其将如何被测试的方式训练模型,在所有源数据集中设置多个少镜头学习训练集[9,28,34]。如何为领域概括设计一种情景式训练方法? 我们的见解是,从神经网络中任何一层l的角度来看,在测试时暴露于一个新的域是作为该层的邻居来体验的l-1或l+1对于手头的问题被调得很差也就是说,相邻图层向当前图层提供输入(或接受输出从它)与当前层的期望不同的统计1447因此,要为DG设计情节,我们应该将层暴露给未针对当前域训练的邻居如果一个层可以被训练成在这种邻居调谐不好的情况下表现良好,那么它对域偏移的鲁棒性就会增加。为了实现我们的情景训练思想,我们将网络分解为特征提取器和分类器模块,并使用我们的情景框架进行训练。这导致更强大的模块,共同获得国家的最先进的结果在几个DG基准。我们的方法受益于端到端学习,同时是模型不可知的(架构独立),并且训练简单快速;与依赖于非标准架构[17],辅助模型[33]或非标准优化器[18]的大多数现有DG技术相反最后,我们提供了一个实际的演示明确DG培训的价值,超越了孤立的基准,在文献中是常见的。具体来说,我们考虑DG是否可以受益于使用ImageNet [31]预训练CNN作为新任务和数据集的特征提取器的普通从业者工作流程。标准(同质)DG问题设置假设共享标签空间之间的源和目标域,从而高度限制其适用性。为了使更广泛的计算机视觉工作流程受益,我们超越了这一点,以异构DG(表5)。 也就是说,专门训练特征提取器以在不进行微调的情况下提高其在表示新的下游任务时的鲁棒性。使用VisualDecathlon基准测试[29],我们表明,与标准ImageNet预训练CNN相比,Episodic训练为新的下游任务2. 相关工作多领域学习(MDL)MDL旨在使用单个模型同时学习多个领域[3,29,30,40]。根据问题,每个域有多少数据可用,以及域的相似程度,多域学习可以改善[40]–MDL与DG相关,因为DG的典型设置是假设提供多个源域的类似设置但是现在的目标是学习如何从所有这些源域中提取域不可知或域鲁棒的模型MDL最严格的基准是Visual Decathlon(VD)[29]。我们通过在VD域的一个子集上训练CNN,然后在其中一个看不见的不相交子集上评估其作为特征提取器的性能,来重新设计DG的基准。我们是第一个证明DG在这个规模,并在VD所需的异构标签设置尽管细节不同,以前的DG方法可以分为几个类别的动机- ING直觉。域不变特征:这些旨在学习域不变特征表示,通常通过最小化所有源域之间的差异,并假设所得的源域不变特征将很好地目标也是。 为此[27]采用了最大平均差异(MMD),而[12]提出了一种多域重构自动编码器来学习这种域不变特征。最近,[20]通过对抗训练在自动编码器的表示学习中应用MMD约束。分层模型:这些模型学习一组分层的模型参数,因此每个域的模型由域不可知和域特定参数的组合参数化[16,17]。在源域上学习这种分层模型结构之后,可以提取域不可知参数作为具有最少域特定偏差的模型,这最有可能对目标问题起作用 这种直觉在浅层[16]和深层[17]环境中都得到了利用。 数据增强:一些研究提出了数据增强策略来合成额外的训练数据,以提高模型对新领域的鲁棒性。 这些包括贝叶斯网络[33],其基于来自辅助域分类器的域分类信号来扰动输入数据。与此同时,[37]提出了一种对抗性数据增强方法来合成训练模型的“硬”数据,以增强其泛化能力。优化算法:最后一类方法是修改传统的学习算法,试图在训练期间找到更鲁棒的最小值,例如通过元学习[18]。我们的方法与所有这些方法都不同,因为它训练了一个标准的深度模型,没有特殊的数据增强和传统的优化器。关键的想法只需要一个简单的修改的训练过程中引入适当的构造的情节。最后,与之前考虑的小数据集相比,我们展示了DG模型训练在大规模VD基准测试中的影响。最近,学习到学习和元学习方法重新兴起,特别是在少拍识别[9,34,25]和学习到优化中。[28]任务。尽管在动机和方法形式上存在显著的其他差异,但这些方法的一个共同特征是情景培训策略。在少量学习中,直觉是,虽然可能有很多源任务和数据可用,但这些任务和数据应该以接近模拟测试条件的方式用于训练因此,在每次学习迭代中,对源任务和实例的随机子集进行采样,以生成由具有类似数据量和基数的随机少量学习任务定义的训练片段,因为预期在运行时对模型进行测试因此,模型最终 在本文中,我们的目标是开发一个情景训练策略,以提高域的鲁棒性,而不是学习学习。 虽然情节策略的高级思想是相同的,但DG问题和相关的情节构建细节是完全不同的。1448(Ð1… Ð我…阿克斯壮举. 分机(#)分类器($)损聚合源域1美元x&壮举. 分机1C分类器1y1损…图1:用于多领域学习的普通领域聚合的图示。单个模型ψ(θ(·))对来自所有域的数据进行3. 方法在本节中,我们将首先介绍基本的数据集聚合方法(AGG),它为DG性能提供了一个强大的基线,然后提出了三个情景训练策略,以更稳健地训练它问题设置在DG设置中,我们假设给定n个源域D=[D 1,.,其中Di是第i个源域包含数据标签对(xj,yj)1.的$*x+壮举. 分机*C分类器*y*损图2:特定于域的分支的图示。每个域训练一个分类器和特征提取器。由特征提取器θi和分类器ψi组成。每一个领域-我我目标是使用这些来学习模型f:x→y,该模型很好地推广到具有不同统计数据的新测试域D培训领域,而不假设任何知识的特定模块仅暴露于相应域数据为了训练特定领域的模型,我们优化:Σ Σ ΣΣ在模型学习期间测试域。对于齐次DG,我们假设所有的源域argmin[θ 1,…θn],[θ1,.,ψn]EDi<$DE(xi,yi)<$Di<$(yi,<$i(θi(xi))(二)并且目标域共享相同的标签空间Yi=Yj=Yj,n,j∈[1,n]. 对于更具挑战性的混合对象环境,域可以具有不同的、可能完全不相交的我们的目标是训练一个领域不可知的模型,根据等式中聚合方法中的ψ和θ1.一、我们会设计一个情节方案,利用这个领域-标签空格Yi=Yj= Y*。我们将首先介绍根据Eq.2.帮助领域不可知论者同质的情况下,讨论异质的情况后。我们将神经网络分类器f:x→y分解为一个序列模块。在实践中,我们使用两个:一个特征提取rθ( ·) 和 一 个 分 类 r θ( ·),使 得f (x) =θ(θ(x))。模型实现所需的鲁棒性。具体来说,我们将生成片段,其中每个域不可知模块ψ和θ与与当前输入数据不匹配的域特定伙伴配对。所以模块和数据组合3.1. 概述对于m(θ i,θi,xi′)和d(θi,θ,xi′),其中ei=i′。DG问题的一种简单方法是简单地将所有源域的数据聚合在一起,并完全忽略域标签信息来训练单个CNN端到端[ 17 ]。 这种方法简单、快速,与更复杂的最先进的替代方案相比具有竞争力。就神经网络模块而言,这意味着分类器Φ和特征提取器Θ两者跨所有域2共享。3.2. 特征提取器的情景训练为了训练鲁棒的特征提取器θ,我们要求它学习足够鲁棒的特征,使得来自域i的数据可以由之前从未经历过域i的分类器处理,如图2所示3 .第三章。为了根据这个标准生成剧集,我们优化了argminE如示于图1、导致目标函数:i,j[1,n],i=θjE(xi,yi)<$Di<$(yi,<$j(θ(xi))(三)argminE其中,i=j,并且表示j对于DiDExi,yii(y,ψ(θ(x))()Di iθ,ψ(一)J这种损失的产生,即,它不接收反向传播的梯度这种梯度阻塞很重要,因为如果没有在这里你可以穿过马路。域特定模型我们的目标是通过将单个模块暴露给邻居来提高鲁棒性,这些邻居对给定域的校准很差。 为了获得这些“校准不良”的组件,我们还训练了特定领域的模型。如图所示2,这意味着每个域i都有自己的模型i指示域索引,j指示域内的实例编号为了简单起见,我们将在下文中省略j2至少在同质情况如果来自域i的数据xi将“污染”分类器我们希望保留它作为对j以外的域的幼稚。因此,在该优化中,每当分类器ψj做出错误预测时,仅特征提取器θ被惩罚。 这意味着,为了使这种损失最小化,共享特征提取器θ必须将数据xi映射到“朴素”分类器θj可以正确分类的格式。特征提取器必须学会帮助分类器识别来自该分类器新领域的数据点$(x)壮举. 分机(C分类器(y(损…1449y一块… $我… $()壮举. 分C分类器()损失聚合源域yRa n dCl f. (二)损失随机分类器的情景训练AGG分类器的情景训练AGG专长的情景训练。 分机图3:特征和分类器正则化的情景训练。共享特征提取器馈送域特定分类器。共享分类器读取特定于域的特征提取器。3.3. 分类器的情景训练与上述类似,我们也可以将DG解释为分类器应该足够鲁棒以分类数据的要求,即使它是由过去从未见过这种类型数据的特征提取器编码的,如图所示3 .第三章。因此,为了训练鲁棒分类器ψ,我们要求它对域i进行通过域j-特定特征提取器馈送的实例xiθj。为了根据该标准生成情节,我们执行以下操作:Σ Σ ΣΣ图4:随机分类器正则化的架构。算法1领域泛化的情景训练1:输入:D=[D 1,D 2,...,Dn]2:初始化超参数:λ1、λ2、λ3、α3:初始化模型参数:域特定模块θ1,…θ n和θ1,...,ψ n; AGG模θ,ψ;随机分类器ψ r4:趁没做培训的时候做5:对于(θ i,θ i)∈[(θ1,θ1),.,(θn,θn)]do6:更新eθi:=θi−α<$θi(Lds)7:Updateψi:=ψi−αψi(Lds)8:结束9:更新θ:=θ−αθ(Lagg+λ1Lepif+λ3Lepir)第10章:更新 λ:=λ−αλ(Lagg+λ2Lepic)11:结束whileargminEi,j[1,n],i=ψjE(xi,yi)Di(yi,ψ(θj(xi))(四)12:输出:θ,ψ其中ei=janddθj表示sθj对于r被认为是常数这是损失的产生。 类似于特征提取器模块的训练,该操作对于保留特征ee_extractorθj 的 域 特 定y 是 重 要 的。结果是,只有分类器错误被惩罚,为了最小化这一点,丢失校验必须足够鲁棒以接受已经由原始特征提取R0j编码的数据xi。3.4. 随机分类器的情景训练上面的情节特征训练策略仅限于同质DG设置,因为它需要所有域共享标签空间以创建情节。 但在异构场景中,共享标签空间的假设是不满足的。接下来,我们介绍一种新的特征训练策略,适用于同质和异构标签空间。在第3.2节中,我们介绍了正则化深度特征提取器的概念,要求它支持对当前域的数据没有经验的分类器。将其推向极端,我们考虑要求特征提取器支持具有随机权重的分类器的预测,如图所示。4.第一章为此,我们的目标函数是:特征提取器训练(它不仅没有看到来自域xi,但它根本没有看到任何数据)。此外,其具有不需要标签空间跨所有训练域共享的益处,这与等式(1)中的先前方法3 .第三章。具体而言,在Eq。3,路由xi→θ→ψj要求ψj具有标签空间匹配(xi,yj)。对于EQ。5、每个域都可以配备自己的随机分类器,匹配其正常标签空间的基数这个属性使Eq。5适用于异构域。3.5. 算法流程我们的完整算法将作为我们训练目标的领域不可知模块和帮助训练它们的支持领域特定模块结合在一起(第3. 1节)。 我们根据上面介绍的三种策略生成剧集。在Eq.1、2、3、4、5作为Lagg、Lds、Lepif、Lepic、Lepir,则总体上我们优化:L全=Lagg+Lds+λ1Lepif+λ 2Lepic+λ 3Lepir(6)Σ ΣΣΣ对于参数θ,φ,{θi,ψi}n. 的完整伪代码argminED DE(x,y)D(yi,ψr(θ(xi))i=1我我我θ(五)在算法1中给出了租金m。值得注意的是,在实践中,当训练时我们首先对特定领域的分支进行热身其中,Φr是随机初始化的分类器,并且Φr意味着它是在优化中未更新的常数。这可以被看作是我们早期的情域特定分支伊&我壮举. 分机(#$)C分类器(美元)…损失yi伊&我壮举. 分机yiC分类器()损失…AGG分支机1450节式跨域的一个极端版本在联合训练域特定和域不可知模块之前进行几次迭代。在培训之后,将只部署(AGG的)域不可知模块进行测试。14514. 实验4.1. 数据集和设置数据集我们评估我们的算法在三个不同的同质DG基准,并介绍了一种新的和更大规模的异构DG基准。数据集是:IXMAS:[38]是跨视图动作识别任务。两个对象识别基准包括:VLCS[8],其中包括来自四个著名数据集 PASCAL VOC2007 ( V ) [7] , LabelMe ( L ) [32],Caltech(C)[19]和SUN09(S)[6]的图像,以及最近的PACS,其具有比VLCS更大的跨域间隙[17]。 它包含四个领域,涵盖照片(P),艺术绘画(A),汽车卡通(C)和素描(S)图像。VD:对于最终的基准测试,我们重新使用VisualDecathlon[29]基准测试来评估DG。我们评估以下竞争对手:AGG香草聚集方法,在方程中引入。1,为所有源域训练单个模型DICA [27]一种基于核的方法,用于学习域不变特征表示。LRE-SVM[39]一种基于SVM的方法,为每个源域训练不同的SVM模型。对于测试域,它使用来自最相似的源域的SVM模型。D-MTAE[12]是一种去噪多任务自动编码器方法,它通过跨域重建来学习域不变特征。DSN[4] DomainSeparation Networks将源域分解为共享和私有空间,并使用重建信号学习它们。TF-CNN [17]通过从一组特定于领域的模型中分解出公共组件来学习领域不可知模型,以及张量分解来压缩模型参数。CCSA[26]使用语义对齐来正则化学习的特征亚空间DANN[11] Domain Adversarial Neural Networks在源域之间训练具有域对抗损失的特征提取器假设源域不变特征提取器更好地推广到新的目标域。MAML[9]用于快速适应的模型不可知元学习方法,重新用于DG。MLDG[18]最近的一种基于元学习的优化方法。它通过将源域拆分为元训练和元测试来模仿DG设置,并修改优化以提高元测试性能。融合[24]一种融合来自目标域的源域分类器的预测的方法。MMD-AAE[20]最近的一种方法,通过对抗训练学习域不变特征自动编码,并确保域通过MMD约束对齐。CrossGrad[33]最近的一种方法,使用贝叶斯网络来扰动DG的输入流形MetaReg[1]一种最近的DG方法,它元学习了分类器正则化器。 我们注意到,DANN(域自适应)不是为DG设计的。然而,DANN学习域不变特征,这对于DG来说是很自然的。我们发现它对这个问题很有效。因此,我们将其重新用作基线。我们把这种方法称为Episodic。 我们使用Epi-FCR诸如Epi-F的消融变体表示单独的特征正则化等。Episodic使用PyTorch3实现。4.2. IXMAS数据集评价设置IXMAS包含11个不同的人类动作。所有动作均由具有不同视角的5台摄像机(称为0,...,4). 目标是在一组源视图(域)上训练动作识别模型,并从新的目标视图(域)中识别动作。我们遵循[20]保留前5个动作,并使用相同的密集轨迹特征作为输入。 对于我们的方法,我们遵循[20]使用具有2000个隐藏神经元的一个隐藏层网络作为我们的骨干,并报告20次运行的平均结果。优化器是M-SGD,学习率为1 e-4,动量为0.9,权重衰减5e-5。我们使用λ1=2.0,λ2=2.0和λ3=0.5。结果从表1中的结果,我们可以看出:(i)香草聚集方法,AGG是一个强有力的竞争对手的几个先前公布的方法,因为是DANN,这是我们新确定的一个有效的DG算法。(ii)总体而言,我们的Epi-FCR表现最好,对AGG提高2.4%,对现有技术的MMD-AAE提高1.1%。(iii)特别是在视图12中,我们的方法实现了新的最先进的性能。4.3. VLCS数据集评价设置VLCS域共享5个类别:鸟、车、椅子、狗和人。我们使用预提取的DeCAF6特征,并按照[26]将每个域随机分为训练(70%)和测试(30%),并进行留一法评估。我们使用2个完全连接的层架构,输出大小为1024和128,ReLU激活,根据[26],并报告了20次试验的平均性能。优化器是M-SGD学习率为1 e-3,动量为0.9,权重衰减为5e-5。我们使用λ1=7.0、λ2=5.0和λ3=0.5。结果从表2中的结果,我们可以看到:(i)简单的AGG基线再次与许多已公布的替代方案竞争,DANN也是如此。(ii)我们的Epi-FCR方法实现了最佳性能,在AGG上提高了1.7%,并且与现有技术的MMD-AAE和MLDG相比,其性能提高了0.6%。4.4. PACS数据集评价设置PACS是一个具有不同对象类型的最新数据集,并且比VLCS更具挑战性的域转移,如[17]所示该数据集在不同领域共享7个对象类别,包括狗、大象、长颈鹿、吉他、房子、马和人。我们遵循[17]中的协议,包括推荐的训练和验证分割以进行公平比较。我们首先遵循[17]使用ImageNet预训练的AlexNet(表3),随后也使用现代ImageNet预训练的ResNet-18(表4)作为基础CNN架构。我们用(f)特征正则化表示我们的完整方法,(c)分类器正则化和(R)随机分类器正则化。3 https://github.com/HAHA-DL/Episodic-DG1452源目标DICA [27]LRE-SVM[39]D-MTAE[12]CCSA [26]MMD-AAE[20]DANN[11]MLDG [18]CrossGrad [33]MetaReg[1]AGGEpi-FCR0,1,2,3461.575.878.075.879.175.070.771.674.273.176.90,1,2,4372.586.992.392.394.594.193.693.894.094.294.80,1,3,4274.784.591.294.595.697.397.595.796.995.799.00,2,3,4167.083.490.191.293.495.495.494.297.095.798.01,2,3,4071.492.393.496.796.795.793.694.094.794.496.3Ave.69.484.687.090.191.991.590.289.991.490.693.0表1:交叉视图动作识别结果(准确性. %)。最佳结果为粗体。源目标DICA [27]LRE-SVM[39]D-MTAE[12]CCSA [26]MMD-AAE[20]DANN[11]MLDG [18]CrossGrad [33]MetaReg[1]AGGEpi-FCRL、C、SV63.760.663.967.167.766.467.765.565.065.467.1V、C、SL58.259.760.162.162.664.061.360.060.260.664.3V、L、SC79.788.189.192.394.492.694.492.092.393.194.1V、L、CS61.054.961.359.164.463.665.964.764.265.865.9Ave.65.765.868.670.272.371.772.370.570.471.272.9表2:跨数据集对象识别结果(准确度)%)。最好用粗体。当使用AlexNet时,使用M-SGD优化器(批量大小/每个域=32,lr= 1 e-3,动量=0.9,权重衰减=5e-5)训练我们的网络45 k次迭代,并使用ResNet-18的相同优化器(权重衰减= 1 e-4)训练我们的网络我们两种设置均使用λ1=2.0、λ2=0.05和λ3=0.1我们使用官方PACS协议并拆分[17]并重新运行MetaReg [1]因为MetaReg没有发布他们的协议。1.00.90.80.70.60.50.4w发作w/o发作A->SA->CC->AC->SS->C S->AFeat. 分机1.00.90.80.70.60.50.4w发作w/o发作A->SA->CC->AC->SS->C S->AAGG分级机结果从表3中的AlexNet结果中,我们可以看到图5:PACS(AlexNet)上的跨域测试准确性(i)我们的情节方法在保持域C和S上获得了最好(ii)它也实现了最佳性能Featureextractororrclassifier. A→C特定模块。例如,左:xA→C是指,将A数据θ→ ψ C,右:x A → θ C → ψ。总体而言,与vanilla AGG相比提高了3.3%,与现有技术的方法MLDG [18]、Fusion [24]和MetaReg [1]相比提高了至少1.7%同时,在表4中,我们看到,使用现代ResNet-18架构,基本结果如预期的那样得到了全面改善。 然而,我们的全情节方法保持了最好的整体性能,与AGG的2.4%的改善。我们在这里注意到,当使用像[35,13]这样的现代架构进行DG任务时,我们需要小心批量归一化[14]。Batchnorm在训练过程中累积训练数据的统计数据,用于测试。在动态生成中,源域和目标域之间存在域移位,因此不同的批范数使用方式会产生不同的结果。我们尝试了两种处理批量范数的方法,一种是直接使用冻结的预训练ImageNet统计数据。 另一种方法是解冻和累积来自源域的统计信息。我们观察到,当在PACS上训练ResNet-18时,从源域中累积统计数据时,它产生的准确性 比 冻 结 ImageNet 统 计 数 据 更差( 75 。 7% 对 79 。1%)。4.5. 进一步分析和见解消融研究为了了解我们模型中每个组成部分的贡献,我们使用PACS-AlexNet进行了消融研究,如图所示。6a.特征提取器的情景训练比普通AGG提高了1.6%包括分类器的情景训练,进一步提高了0.5%。最后,结合所有的情景培训组件,比香草AGG提高3.3%这证实了我们模型的每个组件都有助于最终性能。跨域测试分析为了理解我们的Epi-FCR方法如何获得对域偏移的改进的鲁棒性,我们研究了它对跨域测试的影响。回想一下,当我们激活不可知特征提取器和分类器的情景训练时,我们通过跨域j分支路由域i数据而受益于域特定分支。例如,在一个示例中,我们馈送:xi→θ→ψj→yi以训练等式(1)。3和xi→θj→ψ→yi以训练等式4.第一章因此,在训练模型之后评估跨域测试是很自然的。如示于图5、可以看出,情景训练策略确实提高了跨领域测试的性能。例如,当我们将域A数据提供给域C分类器xA→θ→θC→yA,Episodic训练的不可知提取器θ提高了域C的性能分类器谁从来没有经历过域A数据(图。 5,左);并且对于Episodic训练的不可知分类器类似。在上述实验中,我们证实了我们的情景模型在各种基准测试中优于强AGG基线,并且我们框架的每个组件都有贡献。 在分析情景训练提高对域转移的鲁棒性的机制方面,一种可能的途径是通过引导模型找到更高质量的最小值。最近有几项研究分析了学习算法变体的最小值的质量,它们导致模型[15,5]。测试精度测试精度1453源目标DICA [27]D-MTAE[12]DSN [4][17]第十七话[24]第二十四话DANN[11]MLDG [18]CrossGrad [33]MetaReg[1]AGGEpi-FCRC、P、S一64.660.361.162.964.163.266.261.063.563.464.7A、P、SC64.558.766.567.066.867.566.967.269.566.172.3A、C、SP91.891.183.389.590.288.188.087.687.488.586.1A、C、PS51.147.958.657.560.157.059.055.959.156.665.0Ave.68.064.567.469.270.369.070.067.969.968.772.0表3:跨域对象识别结果(准确性.%)的不同方法的PACS使用预训练的AlexNet。最好用粗体。源目标AGGDANN [11]MAML [9]MLDG[18]CrossGrad[33]MetaReg[1]Epi-FCRC、P、S一77.681.378.379.578.779.582.1A、P、SC73.973.876.577.373.375.477.0A、C、SP94.494.095.194.394.094.393.9A、C、PS70.374.372.671.565.172.273.0Ave.79.180.880.680.777.880.481.5表4:跨域对象识别结果(准确性. %)的不同方法在PACS上使用ResNet-18。最好用粗体。0.90.80.70.614121086420A、C、P、SAve.(一)(b)第(1)款一种直觉是,收敛到因此,在[15,41]之后,我们通过向收敛模型的权重添加噪声来比较AGG和我们的Epi-FCR找到的解决方案并观察测试精度随着噪声的大小而下降的速度从图7我们可以看到,这两个模型这表明Epi-FCR发现的最小值比AGG发现的最小值更稳健,这可以解释Epi-FCR与AGG相比改善的跨域稳健性计算成本我们的情节模型在总体成本上与许多同时代的模型相当。 我们的Epi-C变体确实需要为源域训练多个特征提取器(如[16,39,17,24]所做的那样)。然而,用户更实际地对测试性能感兴趣,其中我们的模型与AGG一样小,快速和简单(不像,例如,[39,24])。 在训练要求方面,我们注意到只有Epi-C变体需要多个特征提取器训练,因此如果这是一个问题,Epi-FR仍然可以安全地使用。 此外,如果存在大量的源域,我们可以在每个批次中对其中的一个子集进行采样。具体地,我们比较了图中不同方法的训练时间。6b.所有方法都在PACS(ResNet-18)上运行,用CPU进行3k迭代:Intel i7-7820(@3.60GHz x 16)和GPU:1080Ti。 正如预期的那样,vanilla AGG是训练最快的(9.8分钟),因此我们将其视为基本单位。第二层是Epi-F和Epi-R。正如预期的那样,没有Epi-C,我们的Epi-F和Epi-R变体运行速度很快。下一层是MetaReg、Epi-FCR和MLDG。最贵的是CrossGrad。 虽然这里使用“Epi-C”需要特定于域的特征提取器,但我们的Epi-FCR仍然是高效的。 这是因为我们的情景训练不会在梯度更新中生成多步图展开或元优化。因此,我们的时间成本与MetaReg [1]相当,并且比MLDG [18]和CrossGrad [33]更快图6:(a)PACS上的消融研究(↑)。(b)PACS的计算成本比较(↓)。4.6. VD-DG数据集评价异构问题设置Visual Decathlon包含十个数据集,最初被提出作为多领域学习基准[29]。 我们重新调整了迪卡侬的用途,以应对领域概括的更大挑战。 如前所述,我们的动机是找出DG学习是否可以改进事实上的标准“ImageNet训练的CNN特征提取器”,以用作新目标问题的固定现成表示。 在这种情况下,在源域上训练特征提取器,并将其用于提取目标域数据的特征。 然后训练一个目标领域特定的分类器(我们使用SVM)在目标领域进行分类。 如表5(左)中所解释的,这与标准DG设置相当不同,因为使用目标域标签(用于浅分类器训练),但是这里的重点是当概括为表示新的域和任务而没有进一步微调时学习特征的鲁棒性。如果DG训练与普通ImageNet CNN相比可以改善特征泛化,那么鉴于视觉从业者广泛使用这种工作流程,除了评估一个潜在的更普遍有用的问题,lem设置相比,标准均匀的DG,我们的VD实验也是一个更大规模的评估相比,现有的DG研究。如表5(右)所示,VD-DG的领域是VLCS和PACS的两倍,并且在数据和类别数量方面是更大的一个数量级的评估我 们 考 虑 VD 中 五 个 较 大 的 数 据 集 ( CIFAR-100 ,Daimler Ped,GTSRB,Omniglot和SVHN)作为我们的源域,四个最小的数据集(Aircraft,D.纹理、VGG-Flowers和UCF 101)作为我们的靶结构域。我们的目标是在源数据集中使用DG训练来学习一个特征,该特征优于我们用作初始条件的现成的ImageNet训练的我们使用ResNet-18 [13]作为主干模型,并将所有图像调整为64×64以提高计算效率。支持VD异构标签空间,我们假设一个共享的特征提取器,和一个源Epi-FCEpi-FCRAGGEpi-F精度I-REPI-FEPi-FCRI-CEPEPtaReg我DG奥斯格拉德MLCRGAG时间1454t+50设置是否在目标域中更新新的目标标签?特征提取器 分类器均质DGN N nN Y Y基准数据数量域名数量任务数任务空间VLCS10,72945同性恋PACs9,99147同性恋VD-DG238,21592128异教徒0.0保留域名:艺术绘画0.0支持域名:卡通0.0域名:照片0.0保留域名:Sketch0.20.20.10.20.10.40.0 0.01 0.020.03高斯噪声标准0.40.0 0.01 0.020.03高斯噪声标准0.30.40.0 0.01 0.020.03高斯噪声标准0.20.0 0.01 0.02 0.03高斯噪声标准图7:最低质量分析:情景训练(Epi-FCR)vs基线(AGG)。表5:左:传统均匀DG设置和新的异质DG设置之间的差异。右:将我们的VD-DG(不包括ImageNet)的更大规模与之前的DG基准进行对比。目标ImageNetPTMLDG [18]CrossGrad [33]AGGDANN[11]Epi-RConcat是说结合Concat是说结合Concat是说结合Concat是说结合Concat是说结合飞机12.717.414.215.717.213.715.917.414.615.717.415.016.017.713.915.5D. 纹理35.238.334.632.534.631.432.237.735.131.537.936.633.040.237.833.9VGG-Flowers48.154.053.254.449.249.354.956.352.057.055.552.253.755.453.055.9UCF10135.044.436.734.942.735.735.243.335.036.144.536.133.945.737.137.3Ave.32.838.534.734.435.932.534.638.734.235.138.835.034.139.735.535.7VD评分185279194169241169169265185172277202165304217194表6:VD-DG上不同方法的前1准确度(%)和视觉十项全能总分结果。在CIFAR-100、Daimler Ped、GTSRB、Omniglot、SVHN和可选的ImageNet(Combine)上进行训练在飞机上测试,D。纹理,VGG花,UCF101。特定领域分类器。我们使用我们的(R)andom分类器模型变体在源域之间执行情景DG在DG训练之后,该模型将被用作针对所保持的目标域的固定特征提取器关于在训练过程中使用ImageNet,我们考虑两种设置:(i)使用ImageNet CNN作为初始条件,但从DG训练中排除ImageNet数据,(ii)将ImageNet作为DG训练的第六个源域前者有助于约束训练成本,但由于遗忘效应而损失了一些性能因此,我们将原始ImageNet预训练特征与VD-DG训练特征相结合(串联和均值池)在每种情况下,根据惯例,最终特征用于训练用于对应任务的线性SVM我们使用M-SGD优化器(批量大小/每个域=32,lr= 1 e-3,动量=0.9,权重衰减= 1 e-4)训练网络100 k次迭代,其中lr在40 k,80 k次迭代中衰减10倍 我们设置λ3=2。5,t是迭代次数。从表6中的结果,我们观察到:(i)所有方法都使用VD中的额外数据来改进初始特征('ImageNet PT ')。(ii)其他DG竞争对手:只有MLDG、CrossGrad和DANN适合在VD规模上运行;而其它的不支持异构标签空间或缩放到如此多的域/示例。(iii)我们的Epi-R在平均准确度和推荐的VD评分方面都优于强大的AGG基线和DG竞争对手[29]。这证明了我们的情节训练在学习对新领域具有鲁棒性的功能方面的价值(iv)与直接将ImageNet作为源域(“Combine”)相比,我们的拼接策略提供了最佳的整体性能这部分是由于使用固定的10万次迭代来限制训练时间。经过足够的训
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功