没有合适的资源?快使用搜索试试~ 我知道了~
1学习学习单域泛化美国特拉华fengchun@udel.edu罗格斯大学lz311@cs.rutgers.edu特拉华大学xipeng@udel.edu摘要我们关注的是模型泛化中的最坏情况,即模型的目标是在许多看不见的领域上表现良好,而只有一个可用于训练的领域我们提出了一种新的方法S:Source domain(s)T:靶结构域S T(a) S \TT<(b) Si Sj> Si/jST1T2 …S\TiTi<(c) TiTj>Ti/j命名为对抗域增强,以解决这种分布外(OOD)泛化问题。其关键思想是利用对抗性训练来创建“虚构”但“具有挑战性”的为了促进快速和理想的域增强,我们在元学习方案中进行详细的理论分析,以验证我们的配方,而多个基准数据集上的大量实验表明,它在解决单域泛化的优越性能。1. 介绍近年来,机器学习模型的快速部署得到了广泛的应用[17,42,3,60]。显著成功背后的一个关键假设是训练和测试数据通常遵循类似的统计数据。否则,即使是强模型(例如, 深度神经网络)可能会在看不见的或分布外(OOD)测试域上崩溃[2]。从多个训练域获取数据以某种方式解决了这个问题[21],然而,由于数据获取预算或隐私问题,这可能并不总是适用的。于是出现了一个有趣但很少被研究的问题:一个模型可以从一个源域推广到许多看不见的目标域吗?换句话说,当只有一个域可用于训练时,如何最大限度地提高模型的泛化能力?源域和目标域之间的差异,也称为域或协变量变量[48],已在域适应中进行了深入研究[30,33,57,24]和域泛化[32,9,22,4]。尽管他们的1源代码和预训练模型可在以下网址公开获取https://github.com/joffery/M-ADA网站。图1.域差异:(a)领域自适应,(b)领域泛化,和(c)单领域泛化。在处理普通域差异方面取得了各种成功,然而,我们认为,现有方法在上述单域泛化问题上很难成功。如示于图1、前者通常期望目标域数据的可用性(有标签的或无标签的);而后者,另一方面,总是假设多个(而不是一个)域可用于训练。这一事实强调了为单域泛化开发新的学习范式的必要性。在本文中,我们提出了对抗域增强(Sec.#36825;来解决这一具有挑战性的任务。受对抗训练最近成功的启发我们的目标是使用单个源域来生成4).然而,在将对抗训练应用于领域增强时存在技术障碍。一方面,由于最坏情况表述中语义一致性约束[11]的矛盾,很难创建与源有很大不同的“虚构”域。另一方面,我们期望探索许多“虚构”的域以保证足够的覆盖率,这可能导致显著的计算开销。为了规避这些障碍,我们建议放宽最坏情况下的约束(Sec.3.2)通过Wasserstein自动编码器(WAE)[52]来鼓励输入空间中的大域传输。此外,我们不是学习一系列集成模型[56], 而是 通 过元 学习 组 织对 抗域 增 强 [6]( 第二节)。3.3),产生具有改进的单域泛化的高效模型。12556S2S1…不12557这项工作的主要贡献是一个基于元学习的计划,使单域泛化,一个重要的,但很少研究的问题。我们通过提出对抗域增强来实现目标,同时放松了广泛使用的最坏情况约束。我们还提供了详细的理论理解,以测试我们的解决方案。广泛的实验表明,我们的方法在包括Dig- its,CIFAR-10-C[14]和SYTHIA[37]在内的基准数据集的单域泛化方面略优于现有技术2. 相关工作域差异:由域或协方差移位带来的域差异[48]严重降低了跨域识别的模型性能使用经验风险最小化[16]训练的为了减少跨域的差异,提出了一系列用于无监督[33,43,7,38,39]或监督域自适应[31,57]的方法。最近的一些工作也集中在少数域自适应[30],其中只有来自目标域的少数标记样本参与训练。与领域自适应不同,领域泛化的目标是在不访问目标领域的情况下从多个源领域学习。大多数以前的方法要么试图学习域不变空间来对齐域[32,9,12,21 , 59] 或 聚 合 域 特 定 的 模 块 [29 , 28] 。 最 近 ,Carlucciet al. [4]解决了这个问题,lem通过从监督和无监督中联合学习几个训练的例子。它已被广泛用于深度神经网络的优化[1,23]和少镜头分类[15,55,46]。最近,Finnet al.[6]提出了一种模型不可知的元学习(MAML)方法,用于小样本学习和强化学习。MAML的目标是找到一个好的初始化,可以快速适应新的任务在几个梯度步骤。Li等[22]提出了一种基于MAML的领域泛化方法。Balaji等[2]提出通过元学习学习自适应正则化器进行跨域识别。然而,它们都不适用于单域推广。相反,在本文中,我们提出了一个基于MAML的元学习方案,以有效地训练模型的“虚构”域的单域泛化。我们表明,学习的模型对看不见的目标域是鲁棒的,同时它也可以很容易地用于少数镜头域自适应。3. 方法我们的目标是解决单域生成的问题:模型仅在一个源域S上训练,但期望在许多看不见的目标上很好地推广domainsT.一个有前途的解决方案,这一具有挑战性的问题-受到许多近期成就的启发[36,56,24],利用对抗训练[11,49]。其关键思想是学习一个鲁棒的模型,该模型能够抵抗分布外的扰动。更具体地说,我们可以通过解决最坏情况问题来学习模型[44]:图像的信号。在数据层面,基于梯度的域扰动[41]和对抗训练方法[56]是minθsupT:D( S,T)≤ρE[Ltask(θ;T)],(1)建议提高泛化能力。特别是,[56]是为单域泛化而设计的,并通过集成模型实现了更好的性能。与[56]相比,我们的目标是为“虚拟”域创建大型域传输对抗训练:对抗训练[11]旨在提高模型对对抗性扰动或攻击的鲁棒性。Madry等人[27]有证据表明,深度神经网络能够抵抗通过可靠的对抗性训练方法进行对抗性攻击。此外,Sinhaet al. [44]通过分布式鲁棒优化的镜头提出了原则性的对抗训练。最近,Stutzet al. [47]指出流形上对抗训练提高了泛化能力,因此可以同时获得具有鲁棒性和泛化能力的模型。Peng等[35]提出了通过扰动的例子学习鲁棒模型在我们的工作中,我们通过对抗训练生成元学习:元学习[40,51]是一个长期存在的话题,涉及如何快速学习新概念或任务,其中D是用于测量域距离的相似性度量ρ表示S和T之间的最大域差异。 θ是根据任务特定的目标函数Ltask优化的模型参数。在这里,我们专注于使用交叉熵损失的分类问题:ΣLtask(y,y)=− yilog(yi),(2)我其中,y是模型的softmax输出;y是表示基础真值类的独热向量;yi和yn i表示y的第i个维度,并且y ni表示关于iv el y。根据最坏情况公式(1),我们建议一 种 新 的 方 法 , 基 于 元 学 习 的 对 抗 域 增 强 ( M-ADA),用于单域泛化。图2介绍了我们的方法的概述我们通过利用对抗性训练来增强SEC中的源域,从而 创 建 第 3.1 条 任 务 模 型 从 域 增 强 中 学 习 , 具 有Wasserstein自动编码器(WAE)的容错性,其放松了第二节中的最坏情况约束。3.2.我们在一个学习的框架中组织任务模型和WAE的联合训练,以及领域增强过程,12558任务模型2task联系我们不t+1txttconst源域中的样本增强样本图3. 放松的动机。左:如果应用L const,则增强样本可能接近源域。 中间:我们希望通过对L relax进行迭代来创建域外增强。右:这将产生一个扩大的训练域。图2.对抗域增强概述。具体来说,我们遵循[56]来测量嵌入空间中S+和S之间的Wasserstein距离描述在SEC。3.3.最后,我们提出了理论分析,以证明最坏情况下的保证,在证券。4.第一章1个以上Lconst=2z−z2+∞·1.Σy/ =y+ 、(五)3.1. 对抗域增强我们的目标是从源域创建多个增强域。增强域被要求在分布上不同于源域,以便模仿看不见的域。此外,为了避免增广域的发散,在等式中定义的最坏情况保证(1)也应该得到满足。为了实现这一目标,我们提出了对抗域增强。我们的模型由任务模型和WAE组成,如图所示。2.在图2中,任务模型包括特征提取器F:X → Z,将图像从输入空间映射到嵌入空间,以及分类器C:Z → Y,用于从嵌入空间预测标签。设z表示由z=F(x)获得的x的潜在表示。总损失函数公式如下:其中1{·}是0-1指示函数,如果x +的类标签与x不同,则L const将为∞。直观地说,Lconst控制通过Wasserstein距离测量的源域之外的泛化能力[54]。然而,Lconst产生有限的域运输,因为它严重约束的样本和它们的扰动之间的语义距离。因此,Lrelax被提出来放松语义一致性约束,并创建大的域传输。Lrelax的实现在第二节中讨论。3.2.3.2. Wasserstein距离约束的松弛直觉上,我们期望增广域S+与源域S有很大不同。换句话说,我们想最大化S +之间的域差异,L=L(θ; x)−αL(θ; z)+βL(x;x),和S.然而,语义一致性约束LconstADA联系我们分类用它来表达约束relax放松(三)将严重限制从S到S+,对产生理想的S+提出了新的挑战。To为了解决这个问题,我们建议放宽限制,以鼓励其中L任务是在等式中定义的分类损失(二)、Lconst是等式中定义的最差情况保证。(1)和L松弛保证大域运输定义在方程。(七)、ψ是WAE的参数。α和β是平衡L const和L relax的两个超参数。给定目标函数LADA,我们采用迭代-在八月中生成对抗样本x+的有效方法分段域S+:域增强我们在图中说明了这个想法。3.第三章。具 体 来 说 , 我 们 使 用 Wasserstein 自 动 编 码 器(WAE)[52]来实现Lrelax。 设V表示由ψ参数化的WAE。 V由编码器Q(e|x)和解码器G(x|其中x和e分别表示输入和瓶颈嵌入。此外,我们使用距离度量De来测量Q(x)之间的散度。x+←x++γ<$+LADA(θ,<$;x+,z+),(4)其中γ是梯度上升的学习率。一个小以及先验分布P(e),其可以被实现为最大平均离散度(MMD)或GAN [10]。我们可以通过优化来学习Vmin[G(Q(x))−x2+λD(Q(x),P(e))],(6)需要多次迭代来产生足够的性能扰动并创建理想的对抗样本。Lconst对对抗样本施加语义一致性约束,使得S+满足D(S,S+)≤ρ. 更其中λ是超参数。在源域S上离线预训练V后,我们将其保持冻结并最大化任务源域阿利康斯特重构误差WAE放松分布发散看不见的目标域P(e)12559K算法一:提出了基于元学习的对抗域增强(M-ADA)。输入:源域S;在S上预训练WAEV;增强域的数量K输出:学习的模型参数θ对于k=1,...,Kdo++k−1元训练、元测试和元更新。在元训练中,对来自源域S的样本计算L任务,并且经由一个或多个梯度更新模型参数θ学习率为η的步骤:θ←θ−ηθLtask(θ;S).(8)然后我们在每个增广域上计算Ltask(θε;S+)2使用等式从S{Si}i=1生成Sk(4)+k3用S+重新训练V4元训练:估计Ltask(θ;S)w.r. t. S5使用公式计算(八)对于i = 1,..., 凯多元测试中的Sk。最后,在元更新中,我们通过从组合损失计算的梯度,其中元训练和元测试被同时优化:ΣK公司简介θ←θ−ηθ[Ltask(θ;S)+Ltask(θ;S+)],(9)7元检验:评价Ltask(θ;Si))w.r. t. SI端89元更新:使用等式更新θ(九)10端部重建误差L松弛用于域增强:Lrelax=<$x+−V(x+)<$2。(七)与Vanilla或Variation自动编码器[45]不同因此,预训练的V可以更好地捕获分布的源域和最大化L松弛创建大域传输。补充资料中还提供了不同L松弛在这项工作中,V作为一个单类的递归函数来区分增强是否在源域之外,这与GAN的传统递归函数有很大的它也不同于广泛用于域自适应[24]的域分类器,因为只有一个源域可用。因此,在本发明中,Kk=1其中K是增广域的个数。整个训练流水线总结在Alg中。1.一、我们的方法具有以下优点。首先,与学习一系列集成模型的先前工作[56]相反,我们的方法实现了单个模型的效率。节中5.4,我们证明了M-ADA在内存,速度和准确性方面略优于[56]其次,元学习方案为快速适应做好准备:一个或少量的梯度步骤将在新的目标域上产生改进的行为。这使得M-ADA能够进行少镜头域自适应,如第5.5节所示。4. 理论认识我们提供了一个详细的理论分析,提出的对抗域增强。具体地,我们表明,在等式中定义的总损失函数。(3)是一个宽松的最坏情况问题的直接推导。设c:Z×Z→R+∪{∞}是对手在嵌入空间中扰动z到z +的代价. 设d:X×X→R+∞{∞}为我放松与Lconst 用于+对手在输入空间中将x扰动到x+。的S和S+之间的Wasserstein距离可以是公式:输入空间和嵌入空间si- + +中的同时。节中4,我们证明了L放松和Lconst 是表示为:Wc(S,S +):= infMz∈<$(S,S+)EMz[c(z,z+)]及分别定义在输入空间和嵌入空间中的两个Wasserstein距离度量的推导3.3. Meta学习单域泛化Wd(S,S):= infMx∈N(S,S+)EMx[d(x,x)],其中Mz和Mx分别是嵌入空间和输入空间中的测度,S(S,S+)是S和S+的联合分布. 然后,松弛的最坏情况问题可以公式化为:为了有效地组织源域S和增强域S+上的模型训练,我们使用Metaθ=minθsupS+∈DE[Ltask(θ;S+)],(10)学习方案来训练单个模型。 来模拟真实的在源域S和目标域T之间的域移位,在每次学习迭代中,我们在源域S上执行元训练,并在所有增强域上执行元测试域S+。因此,在多次迭代之后,该模型是期望在评估期间在最终目标域T形式上,提出的基于元学习的Adversar-其中D={S+: Wc (S ,S+)≤ρ, Wd (S ,S+)≥η}。我们注意到,在Wasserstein距离度量下,D覆盖了嵌入空间中S的ρ距离内和输入空间中远离S的η距离内的鲁棒区域Wc和Wd。对于深度神经网络,Eq. (10)对于任意ρ和η是难以处理的。因此,我们考虑其拉格朗日松弛与固定惩罚参12560数α≥0和β≥0:独立域增强(M-ADA)方法包括:在训练过程中的每次迭代中有三个部分最小{supθS+.E[Ltask(θ;x+Σ)]−Wc,d=E[φα,β(θ,θ;x)]},12561222+22个11个以上11个以上1000以上00以上源域+增强域Unseen Target Domains分类结果图4.嵌入空间(前三个图)和分类空间(最后一个图)中的域和凸包的可视化从左到右:(a)源域S和看不见的目标域T;(b)增广域S+w/o L松弛;(c)S+w/L松弛;(d)M-ADA的分类结果。不同的颜色表示不同的类别。数字标记相应的群集中心。 注意,1:S的聚类中心; 1+:S +的聚类中心。最好在彩色和放大查看细节。并 且有 Wc , d (S , S+ )=αWc ( S , S+ ) −βWd( S , S+ ) , φα , β ( θ , θ;x ) =supx+{Ltask(θ;x+)−Lc,d},Lc,d=αc(z,z+)−βd(x,x+). 在Eq 中 的问题。( 10)变换为最小化鲁棒surrogate φα,β。根据[44],φα是光滑的w.r.t.。如果α足够大并且Lipschitzian光滑性假设成立,则θ。由于θ和θ与r、φα相互独立,β仍然是光滑的。θ。梯度可以计算为:<$θφα,β(θ,<$;x)=<$θLtask(θ;x<$(x,θ,<$)),其中,x∈(x,θ,z)=argmaxx+[Ltask(θ;x+)-Lc,d]=argmaxx+LADA(θ,θ;x+,z+),其是等式(1)中定义的额外扰动的(三)、5. 实验我们首先介绍的实验设置和实施细节在秒。5.1分别为5.2。节中5.3,我们进行了详细的消融研究,以验证所提出的松弛的强度,Meta学习方案的效率,以及关键超参数的选择和权衡。节中5.4中,我们在基准数据集上将M-ADA与最新技术进行了比较。节中5.5,我们进一步评估了M-ADA在少数镜头域适应中的作用。CIFAR-10腐败行为主要有四类:噪声、模糊、天气和数字。每种腐败都有5个严重级别,所有模型都在CIFAR-10上训练,并在CIFAR-10-C上进行评估。(3)SYTHIA[37]是在驾驶场景的背景下为语义分割而合成的数据集该数据集由相同的交通状况组成,但在不同的位置(选择高速公路、纽约样城市和旧欧洲城镇)和不同的天气/照明/季节条件(选择黎明、雾、夜晚、春天和冬天)下。遵循[56]中的协议,我们仅使用来自左前摄像头的图像,并从每个源域随机采样900个图像评价指标:对于Digits和CIFAR-10-C,我们计算每个未知域的平均精度。对于CIFAR-10-C,如果不测量基线模型(ERM [16])的相对增益和在干净数据集上评估的相对误差,准确度可能不足以全面评估模型的性能,即,CIFAR-10的测试集受[14]中提出的鲁棒性度量的启发,制定了两个度量来评估域泛化背景下对图像损坏的鲁棒性:平均损坏误差(mCE)和RmCE。定义如下:mCE =1NEf/EERM,RmCE =1N(Ef−Ni=1iiNi=1i5.1. 数据集和设置Ef)/(EERM−EERM),其中N是核的数目清洁我清洁数据集和设置:(1)数字由五个子数据集组成:[19]第19话,我 是 你 的 女 人 ![8][15]而每一个人,都可以被看作是一个不同的领域这些数据集中的每个图像都包含一个具有不同样式的单个数字。 此数据集 主要用于消融研究。我们使用MNIST训练集中的前10,000个样本进行训练,并评估所有其他领域的模型。(2)CIFAR-10- C[14]是一个稳健性基准,包括19种适用于测试的严重性等级的破裂 mCE用于评价分类器f与ERM比较[16]。RmCE测量与干净数据相比的相对稳健性。对于SYTHIA,我们计算每个未知域上的标准平均交集5.2. 实现细节任务模型:我们设计了特定的任务模型,并针对三个数据集采用了不同的训练策略。请参阅补充材料12562M-ADA(完整)M-ADAw/o MLM-ADA(完整)M-ADAw/o ML908070605040301 2 3 45959085807570656055501 23 4 56160595857565554531 2 3 4 5 6 7 8 9 106059585756555 10 15 20 25 30 35 40 45 50腐败严重程度腐败严重程度扩充域数K松弛系数β(×102)图5.验证元学习方案。对脉冲噪声(左)和散粒噪声(右)的五个严重程度进行了评估。图6.K和β的超参数调整。设K= 3,β= 2。0×103为最佳分类精度。方法#params。推理时间精度方法水平12级3级4级5级GUD [56]31.9M22.1ms55.8%ERM[16] 87.8±0.181.5±0.275.5±0.468.2±0.656.1±0.8M-ADA(完整)4.54M3.07ms百分之五十九点五GUD[56] 88.3±0.683.5±2.077.6±2.270.6±2.358.3±2.5M-ADA(完整)90.5±0.386.8±0.482.5±0.676.4±0.965.6±1.2表1.单域综合的效率比较。GUD必须学习一系列的整体模型。M-ADA利用元学习方案来实现单个模型。M-ADA在内存、速度和准确性方面略优于GUD续费对于Digits数据集,我们使用ConvNet [18],架构为conv-pool-conv-pool-fc-fc-softmax。将所有图像的大小调整为32×32,并复制MNIST和USPS的通道,使其成为RGB图像。我们使用Adam,学习率η=0。0001批量大小为32,迭代总数为10,000。对于CIFAR-10-C,我们使用宽残差网络(WRN)[58]有16层,宽度为4。按照[58]中的训练程序,我们使用SGD和Nesterov动量,并将批量大小设置为128。初始学习速率为0.1,具有线性衰减,为200.对于SYTHIA,我们使用FCN-32 [25]和ResNet-50 [13]的主干。我们使用Adam,学习率α=0。0001我们将批处理大小设置为8,epoch的数量设置为50。Wasserstein自动编码:我们遵循[52]来实现WAE,但稍微修改了数据集自适应的架构。编码器和解码器是用数字数据集的全连接(FC)层构建的。 我们利用两个卷积神经网络来实现CIFAR-10-C和SYTHIA的自动编码器。当训练WAE时,我们使用WAE-GAN [52]来最小化JS潜水员-P(e)与Q(e)之间的势|(1)在潜空间中。使用了由FC层实现的额外的IP地址用于区分来自P(e)的真点和来自Q(e)的假点|X)。由于篇幅所限,我们建议读者参考补充资料了解详细设置。5.3. 消融研究验证L松弛:直观地理解L松弛如何影响增广域的分布表2.CIFAR-10-C的准确度比较(%)。随着腐败严重程度(1-5)的增加,增长(↑)变得更加显著S+,我们使用t-SNE [26]来可视化嵌入空间中有L松弛和没有L松弛的S +。他们的结果如图所示。4(b)和(c)。 我们观察到具有L_r_a_x的S_S ~+的凸包比不具有L_r_a_x 的S_S ~+ 的 凸包 覆 盖 一个 扩 大的 区 域. 这表明S+包含更多的分布方差,与看不见的领域。此外,我们计算Wasserstein距离来定量地度量S与S+之间的差异。S和S+之间的距离在Lrelax的情况下为0.078,而如果不采用Lrelax,则距离减小到0.032,指示58的改进。9%通过引入L放松。这些结果表明,L松弛能够推动-使S+a从S出发,保证有效域在输入空间中传输。验证元学习方案:带有和不带有元学习(ML)方案的M-ADA的比较在Tabs中呈现。3和4我们观察到,在这种元学习方案的帮助下,Digits和CIFAR-10-C的平均准确度分别提高了特别地,两种看不见的损坏的结果示于图11中。5.如所见,M-ADA可以显著降低方差,并在所有严重程度上产生更好的性能实验结果表明,元学习方案对提高训练稳定性和分类精度起到了关键作用。当在具有挑战性的条件下执行对抗域增强时,这是非常重要的。K和β的超参数调整:我们研究了M-ADA的两个重要超参数的影响:增广域的数目(K)和源域与增广域之间的偏差(β)。我们绘制准确度(%)准确度(%)准确度(%)准确度(%)关于ERM3.08%6.50%百分之九点二12.0%百分之十六点九12563表3. 数字的单域泛化比较(%)。模型在MNIST上训练。变体 ( w/oLrelax ) 具 有 最 显 著 的 性 能 下 降 , 表 明 执 行Wasserstein松弛对于单域泛化至关重要。不同K和β下的精度曲线见图6。图图6(左),我们发现当K=3时,精度达到最高点,随着K的增加,精度不断下降。 这是由于超过一定阈值的过多对抗样本会增加模型的不稳定性并降低模型的鲁棒性图 6(右),我们观察到当β = 2时,精度达到峰值。0×103而当β增加时则略有下降。 这是因为大β将产生离源S太远的域,甚至到达嵌入空间中的流形之外。5.4. 单域综合我们将我们的方法与以下五种最先进的方法进行比较。(1)经验风险最小化(ERM)[53,16]是用交叉熵损失训练的模型,没有任何辅助损失和数据增强方案。(2)CCSA [31]使用语义对齐来正则化学习的特征子空间以进行域泛化。(3)d-SNE [57]最小化来自同一类的样本之间的最大距离,并最大化小-估计不同类别样本之间的距离。(4)GUD [56]提出了一种用于单域泛化的对抗性数据增强方法,这是与M-ADA相关的工作。(5)JiGen [4]同时学习分类和预测混洗图像块的顺序以进行域泛化。数字比较:我们在MNIST上训练所有模型,并在看不见的领域上测试它们,MNIST-M、SVHN、SYN和USPS。我们在Tab中报告结果。3.我们观察到,M-ADA在SVHN、MNIST-M和SYN上的表现优于GUD,并且有较大的优势。USPS的改进不如其他领域显著,主要是由于它与MNIST的极大相似性相反,CCSA和d-SNE在USPS上获得了很大的改进,但在其他方面表现不佳。我们还比较了M-ADA与GUD的集成模型,该集成模型在不同的语义约束下聚合了多个模型的结果见表1。1.一、如图所示,M-ADA优于图7. SYNTHIA上的语义分割示例[37]。从左至右:(a)来自看不见的域的图像;(b)地面实况;机构风险管理的结果[16];(d)GUD的结果[56];和(e)M-ADA的结果。最好在彩色和放大查看细节。GUD集成模型在泛化精度方面优于GUD集成模型,但模型参数少得多,推理速度更快。强有力的结果,再次证明了所提出的学习到学习框架的效率。CIFAR-10-C的比较:我们在干净的数据上训练所有模型,即,CIFAR-10,并测试他们的correction数据,即,CIFAR-10-C在这种情况下,总共有19个看不见的测试域。CIFAR-10-C在五个损坏严重性级别上的结果2.可以看出,随着严重程度的增加,GUD和M-ADA之间的差距变得更大,并且M-ADA可以显著降低所有水平的标准差此外,我们目前的结果,每一个腐败的严重性最高4.我们观察到,M-ADA大大超过其他方法对大多数腐败。特别是在Snow、Glass blur、Pixelate和与Noise相关的几种污染方面,M-ADA的性能优于ERM[16]超过10%。更重要的是,M-ADA在mCE和RmCE上具有最低的值,表明其对图像损坏具有很强的鲁棒性。SYTHIA比较:在这个实验中,高速公路是源域,纽约样的城市和老欧洲城是看不见的目标域。我们在Tab中报告语义分割结果 5并在图中示出了一些示例。7.不可见域来自不同的位置和其他条件。我们观察到M-ADA在三个源域上获得最高的平均mIoU值与其他两个数据集相比,ERM[16]和GUD [56]的改进并不显著,主要是由于训练图像的数量有限以及对未知域的高度依赖。5.5. 少镜头域自适应的评价设置:虽然M-ADA是为单域泛化而设计的,如第2节所述3.3,我们还表明,M-ADA可以很容易地应用于少数拍摄域适应[30]。在少量学习中,模型通常天空建筑路人行道车植被自行车 行人极红绿灯车道标志方法SVHNMNIST-MSYNUSPSAvg.欧洲风险管理[16]27.8352.7239.6576.9449.29CCSA [31]25.8949.2937.3183.7249.05D-SNE [57]26.2250.9837.8393.1652.05JiGen [4]33.8057.8043.7977.1553.14GUD [56]35.5160.4145.3277.2654.62M-ADA w/oL松弛37.3361.4345.5877.3755.43M-ADA(不含L常量)41.3667.2847.9478.2258.70M-ADA,不含ML41.4567.8648.7676.1258.55M-ADA(完整)42.5567.9448.9578.5359.4912564天气模糊噪声数字雾雪霜变焦散焦玻璃散斑枪冲动JPEG像素化飞溅Avg.mCERmCE欧洲风险管理[16]65.9274.3661.5759.9753.7149.4441.3135.4125.6569.9041.0775.3656.151.001.00CCSA [31]66.9474.5561.4961.9656.1148.4640.1233.7924.5669.6840.9477.9156.310.990.99D-SNE [57]65.9975.4662.2558.4753.7150.4845.3039.9327.9570.2038.4673.4056.960.991.00GUD [56]68.2976.7569.9462.9556.4153.4538.4536.8722.2674.2253.3480.2758.260.970.95M-ADA w/oL松弛66.9980.0974.9354.1544.6760.5759.8859.1843.4676.4553.1380.7561.920.900.86M-ADA,不含ML67.6880.9176.2065.7056.8762.1460.0159.6340.0477.6252.4981.0264.220.850.80M-ADA(完整)69.3680.5976.6668.0461.1861.5960.8860.5845.1877.1452.2580.6265.590.820.77表4. CIFAR-10-C的稳健性比较[14]。模型从干净数据推广到不同的腐败。我们报告的分类准确率(%)的19个腐败(只有12个显示)下的腐败水平的我们还在最后两列中报告了平均损坏误差(mCE)和相对mCE(RmCE)。mCE和RmCE越低越好。纽约式城市欧洲老城源域方法黎明雾晚上弹簧冬季黎明雾晚上弹簧冬季Avg.欧洲风险管理[16]27.802.730.936.801.6552.7831.3715.8633.7813.3518.70公路/黎明GUD [56]27.144.051.637.222.8352.8034.4318.1933.5814.6819.66M-ADA29.104.434.7514.134.9754.2836.0423.1937.5314.8722.33欧洲风险管理[16]17.2434.8012.3626.3811.8133.7355.0326.1941.7412.3227.16高速公路/雾GUD [56]18.7535.5812.7726.0213.0537.2756.6928.0643.5713.5928.53M-ADA21.7432.009.7426.4013.2842.7956.6031.7942.7712.8529.00欧洲风险管理[16]26.7526.4118.2232.8924.6051.7251.8535.6554.0028.1335.02高速公路/春天GUD [56]28.8429.6720.8535.3227.8752.2152.8735.9955.3029.5836.85M-ADA29.7031.0322.2238.1928.2953.5751.8338.9855.6325.2937.47表5. SYNTHIA上的语义分割比较[37]。模型从一个源域推广到许多看不见的环境设置。我们报告了标准平均联合交叉(mIoUs),并在图中展示了可视化结果7.第一次会议。[31]《礼记》M-ADA也优于几种利用目标域未标记图像的无监督方法。更重要的是,我们注意到FADA [30]和CCSA [31]都是在一个人身上训练的-其中来自S和T的样本是强耦合的。这意味着当目标域改变时,模型需要训练。另一方面,对于一个新的目标域,M-ADA只需要在少量的迭代中用少量的样本对预训练模型进行微调这证明了M-ADA的高灵活性。表6. MNIST(M)、USPS(U)和SVHN(S)的少炮域自适应比较(准确度(%))。 |不|表示在模型训练期间使用的目标样本(每个类)的数量。首先在源域S上进行预训练,然后在目标域T上进行微调。更具体地说,我们首先使用所有训练图像在S上训练然后我们从T.这些图像用于微调具有学习率0.0001,批量为16。讨论内容:我们比较我们的方法与国家的最先进的方法,少数拍摄域适应。我们还报告了一些无监督方法的结果,这些方法使用目标域中的图像进行训练。关于MNIST、USPS和SVHN的结果如表1所示。六、我们观察到,与FADA相比,M-ADA获得了竞争性结果[30]。6. 结论在本文中,我们提出了基于元学习的AdversarialDomain Augmentation(M-ADA)来解决单域泛化的问题。其核心思想是使用基于元学习的方案来有效地组织增强的“虚拟”域的训练,这些域是来自源域的OOD并通过对抗训练创建的在未来,我们希望进一步扩展我们的工作,以解决回归问题,或知识转移在多模式学习。引用[1] MarcinAndrycho wicz,米莎·德尼尔塞尔焦戈麦斯,马修W霍夫曼,大卫Pfau,汤姆肖尔,布伦丹希林福德,和南多德弗雷塔斯。学会学习方法|不|U →MM →SS →MAvg.I2I [33]92.20-92.10-DIRT-T [43]-54.5099.40-瑞典[7]所有98.0713.9699.1870.40[第38话]97.6061.0876.1478.27G2A [39]90.80-92.40-FADA [30]791.5047.0087.2075.23CCSA [31]1095.7137.6394.5775.97071.1936.6160.1455.98M-ADA792.3356.3389.9079.521093.6757.1691.8180.8812565梯度下降Gradient Descent在NeurIPS,第3981-3989页[2] 尤格什·巴拉吉,斯瓦米·桑卡拉纳拉亚南,和罗摩·哲拉帕. Metareg:使用元正则化实现领域泛化.在NeurIPS,第998-1008页[3] Konstantinos Bousmalis 、Alex Irpan、 Paul Wohlhart、Yunfei Bai 、 Matthew Kelcey 、 Mrinal Kalakrishnan 、Laura Downs、Julian Ibarz、Peter Pastor Sampedro、KurtKonolige、Sergey Levine和Vincent Vanhoucke。利用仿真和局部自适应提高机器人深抓取效率。在ICRA,第4243-4250页[4] 法比奥·M·卡卢奇、安东尼奥·德诺森特、西尔维亚·布奇、巴尔巴拉·卡普托和塔蒂亚娜·托马西。解决拼图游戏的领域泛化。在CVPR中,第2229-2238页,2019年。[5] John S Denker,WR Gardner,Hans Peter Graf,DonnieHenderson,Richard E Howard,W Hubbard,LawrenceD Jackel,Henry S Baird,and Isabelle Guyon.手写邮政编码数字的神经网络识别器。NeurIPS,第323-331页,1989年[6] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML,第1126-1135页[7] Geoffrey French,Michal Mackiewicz和Mark Fisher。视觉域自适应的自组装。在ICLR,2018年。[8] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。基于反向传播的无监督自适应算法.在ICML,第1180-1189页[9] Muhammad Ghifary , W Bastiaan Kleijn , MengjieZhang,and David Balduzzi.用多任务自动编码器进行对象识别的域泛化在ICCV,第2551- 2559页[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS,第2672-2680页[11] Ian J Goodfellow,Jonathon Shlens,Christian Szegedy.解释和利用对抗性的例子。2015年,国际会议。[12]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功